NVIDIA Nemotron 3.5 ASR：把語音辨識搬回本機的 0.6B 串流模型

VOICE AI / LOCAL ASR / AGENT PIPELINE

Nemotron 3.5 ASR 的重點：不是「又一個 ASR」，而是本機語音 agent 的輸入層開始變輕

Threads 貼文提到 NVIDIA 推出 Nemotron-3.5-ASR：0.6B、支援多語言、串流、可在 CPU / Apple Silicon / GPU 上跑。官方 Hugging Face model card 確認它是 600M 參數、Cache-Aware FastConformer-RNNT 架構、用語言提示做多語言轉錄；LiveKit 實作文章則補上了本機筆電、OpenAI-compatible endpoint、LiveKit Agents 串接的實務路徑。

核心定位

多語言、串流式 ASR。它把語音轉文字做成可以放進 voice agent / teleprompter / 離線工具鏈的本機元件，而不是只能呼叫雲端 STT API。

模型與架構

600M 參數；Encoder 是 Cache-Aware FastConformer，Decoder 是 RNNT。cache-aware streaming 的價值是少做重複計算，讓 chunk-by-chunk 的即時轉錄更有效率。

語言覆蓋

Hugging Face model card metadata 列出 35 種語言代碼；正文描述為 40 language-locales。支援中文代碼 zh，但台語、口音、code-switching 仍不能直接等同保證。

部署意義

可用 NeMo 載入；LiveKit 範例把它包成 OpenAI-style /v1/audio/transcriptions 與 WebSocket 串流端點，因此既能接一般 OpenAI-compatible client，也能進 LiveKit Agents。

重要修正：Threads 貼文說「40 種以上語言、純 CPU 就能跑、速度是官方 NeMo runtime 的 2.5 倍」。官方 Hugging Face / NVIDIA model card 可驗證 600M、多語言、NeMo、串流、H100 throughput；「CPU 可跑」與本機應用路徑主要由 LiveKit 實作文章示範。真正部署前仍需用自己的中文、台語、噪音、麥克風與硬體做延遲/準確率測試。

為什麼適合 voice agent

語音 agent 的體驗瓶頸常在 turn-taking：人講話、系統收音、ASR 出 partial transcript、LLM 開始思考、TTS 回話。ASR 如果只能等整句結束才輸出，整個互動就會慢半拍。Nemotron 3.5 ASR 的串流與 partial transcript 能讓 pipeline 更早取得文字。

為什麼本機很重要

本機 STT 可以降低隱私風險、避免每分鐘計費、支援離線或內網場景。對會議摘要、電話提醒、桌面助理、醫療/客服內網原型來說，這比單純 benchmark 好看更有用。

為什麼不能只看「0.6B」

ASR 的可用性不只取決於參數量。更重要的是語言/口音覆蓋、噪音魯棒性、endpoint latency、partial transcript 穩定性、標點/大小寫、可否熱詞或 domain adaptation。

跟 Whisper 的比較方式

不要只問「比 Whisper 強嗎」。更實際的測法是：同一批中文/英文/中英夾雜/噪音音檔，分別比較 WER/CER、first partial latency、final latency、CPU/MPS/GPU 資源、標點品質與長音檔穩定性。

面向	可驗證資訊	採用 caveat
模型	nvidia/nemotron-3.5-asr-streaming-0.6b；600M parameters。	不是通用 LLM，是語音轉文字 ASR 模型。
架構	Cache-Aware FastConformer + RNNT；支援 configurable chunk sizes。	chunk size / attention context 是 latency-accuracy dial，需要依產品場景調。
語言	metadata 列 en、zh、ja、ko、th、vi 等 35 種語言；正文稱 40 language-locales。	中文 ≠ 台語保證；中英混雜、方言與專有名詞要自測。
授權	Hugging Face 標示 OpenMDW-1.1，model card 寫「ready for commercial use」。	商用前仍要讀 OpenMDW 條款；不要只看社群貼文。
效能	NVIDIA model card 報告 H100 上相對 Parakeet RNNT 1.1B 有更高並發與更低 latency。	H100 benchmark 不能直接推論 Mac mini / CPU / 手機速度。
整合	NeMo 可直接載入；LiveKit 範例提供 OpenAI-style endpoint、SSE/WebSocket、LiveKit Agents 串接。	NeMo 安裝體積與依賴不小；產品化仍要包裝、監控與 fallback。

如果要評估是否放進 Allen / BigIntTech 的 voice pipeline，先做這 7 個測試

中文與台灣口音：國語、台語詞彙、台式英文、公司/人名/產品名各準備測試集。
code-switching：測中英混雜句，例如「幫我 schedule 十分鐘後 call Allen」這種真實指令。
硬體分層：Mac mini CPU、Apple Silicon MPS、NVIDIA GPU 分別測 first partial / final latency。
串流穩定性：觀察 partial transcript 是否頻繁改字，會不會讓上游 agent 提早誤判。
噪音與遠場：手機喇叭、車內、辦公室、人聲重疊都要測，不只測乾淨 wav。
端點包裝：若包成 OpenAI-compatible endpoint，確認 SSE/WebSocket、timeout、併發、重啟恢復。
隱私與紀錄：本機 ASR 降低外送音訊風險，但仍要決定音檔是否保存、如何加密、誰能讀 transcript。

對 Kate 語音電話提醒功能的啟示：這類模型可以成為「通話中聽懂使用者回覆」的本機 STT 候選，例如 Allen 接電話後說「10 分鐘後再提醒」。但電話場景還需要 telephony audio codec、VAD/barge-in、噪音、台灣口音、短句確認與錯誤回問策略；ASR 只是其中一層，不是整套 voice reminder system。

Sources

Threads source: @krumjahn：NVIDIA Nemotron-3.5-ASR 貼文
Hugging Face model card: nvidia/nemotron-3.5-asr-streaming-0.6b
NVIDIA NIM model card: nemotron-asr-streaming Model by NVIDIA
LiveKit guide: Multilingual speech-to-text on your laptop: NVIDIA's Nemotron 3.5 ASR
GitHub context: NVIDIA-NeMo/Nemotron developer asset hub