NVIDIA Nemotron 3.5 ASR:把語音辨識搬回本機的 0.6B 串流模型
多語言、串流式 ASR。它把語音轉文字做成可以放進 voice agent / teleprompter / 離線工具鏈的本機元件,而不是只能呼叫雲端 STT API。
600M 參數;Encoder 是 Cache-Aware FastConformer,Decoder 是 RNNT。cache-aware streaming 的價值是少做重複計算,讓 chunk-by-chunk 的即時轉錄更有效率。
Hugging Face model card metadata 列出 35 種語言代碼;正文描述為 40 language-locales。支援中文代碼 zh,但台語、口音、code-switching 仍不能直接等同保證。
可用 NeMo 載入;LiveKit 範例把它包成 OpenAI-style /v1/audio/transcriptions 與 WebSocket 串流端點,因此既能接一般 OpenAI-compatible client,也能進 LiveKit Agents。
語音 agent 的體驗瓶頸常在 turn-taking:人講話、系統收音、ASR 出 partial transcript、LLM 開始思考、TTS 回話。ASR 如果只能等整句結束才輸出,整個互動就會慢半拍。Nemotron 3.5 ASR 的串流與 partial transcript 能讓 pipeline 更早取得文字。
本機 STT 可以降低隱私風險、避免每分鐘計費、支援離線或內網場景。對會議摘要、電話提醒、桌面助理、醫療/客服內網原型來說,這比單純 benchmark 好看更有用。
ASR 的可用性不只取決於參數量。更重要的是語言/口音覆蓋、噪音魯棒性、endpoint latency、partial transcript 穩定性、標點/大小寫、可否熱詞或 domain adaptation。
不要只問「比 Whisper 強嗎」。更實際的測法是:同一批中文/英文/中英夾雜/噪音音檔,分別比較 WER/CER、first partial latency、final latency、CPU/MPS/GPU 資源、標點品質與長音檔穩定性。
| 面向 | 可驗證資訊 | 採用 caveat |
|---|---|---|
| 模型 | nvidia/nemotron-3.5-asr-streaming-0.6b;600M parameters。 | 不是通用 LLM,是語音轉文字 ASR 模型。 |
| 架構 | Cache-Aware FastConformer + RNNT;支援 configurable chunk sizes。 | chunk size / attention context 是 latency-accuracy dial,需要依產品場景調。 |
| 語言 | metadata 列 en、zh、ja、ko、th、vi 等 35 種語言;正文稱 40 language-locales。 | 中文 ≠ 台語保證;中英混雜、方言與專有名詞要自測。 |
| 授權 | Hugging Face 標示 OpenMDW-1.1,model card 寫「ready for commercial use」。 | 商用前仍要讀 OpenMDW 條款;不要只看社群貼文。 |
| 效能 | NVIDIA model card 報告 H100 上相對 Parakeet RNNT 1.1B 有更高並發與更低 latency。 | H100 benchmark 不能直接推論 Mac mini / CPU / 手機速度。 |
| 整合 | NeMo 可直接載入;LiveKit 範例提供 OpenAI-style endpoint、SSE/WebSocket、LiveKit Agents 串接。 | NeMo 安裝體積與依賴不小;產品化仍要包裝、監控與 fallback。 |
- 中文與台灣口音:國語、台語詞彙、台式英文、公司/人名/產品名各準備測試集。
- code-switching:測中英混雜句,例如「幫我 schedule 十分鐘後 call Allen」這種真實指令。
- 硬體分層:Mac mini CPU、Apple Silicon MPS、NVIDIA GPU 分別測 first partial / final latency。
- 串流穩定性:觀察 partial transcript 是否頻繁改字,會不會讓上游 agent 提早誤判。
- 噪音與遠場:手機喇叭、車內、辦公室、人聲重疊都要測,不只測乾淨 wav。
- 端點包裝:若包成 OpenAI-compatible endpoint,確認 SSE/WebSocket、timeout、併發、重啟恢復。
- 隱私與紀錄:本機 ASR 降低外送音訊風險,但仍要決定音檔是否保存、如何加密、誰能讀 transcript。
- Threads source: @krumjahn:NVIDIA Nemotron-3.5-ASR 貼文
- Hugging Face model card: nvidia/nemotron-3.5-asr-streaming-0.6b
- NVIDIA NIM model card: nemotron-asr-streaming Model by NVIDIA
- LiveKit guide: Multilingual speech-to-text on your laptop: NVIDIA's Nemotron 3.5 ASR
- GitHub context: NVIDIA-NeMo/Nemotron developer asset hub