Cohere Transcribe:2B 參數打敗 Whisper Large v3,HuggingFace ASR 榜第一,完全開源
原文摘要
Cohere 推出 Transcribe:2B 參數、HuggingFace ASR 排行榜第一名,字錯率 5.42%,直接打趴 Whisper Large v3(7.44%)。
關鍵數據
- 字錯率(WER):5.42%(業界最低)
- Whisper Large v3:7.44%
- ElevenLabs Scribe v2:被超越
- Zoom Scribe:被超越
- 支援語言:14 種
- 處理速度:每分鐘可處理 525 分鐘音訊(約 525x 實時速度)
- 完全開源,企業可直接免費用 API
為什麼值得注意
1. 用更小的模型打贏更大的模型
2B 參數比 Whisper Large v3 小得多,但精準度更高。這是典型「小而精」的路線——不靠 scale,靠架構設計和訓練數據品質。
2. Whisper 的壟斷地位結束了
OpenAI Whisper 一直是語音轉文字的業界標準。Cohere 的入場是個明確信號:這個領域的護城河比預想的淺。
3. 和 Mistral Voxtral TTS 是同一週的開源語音布局
同一時間,Mistral 開源 TTS、Cohere 開源 ASR——語音 AI 的完整管線(語音→文字、文字→語音)正在快速開源化。企業不再需要依賴 OpenAI 或 ElevenLabs 的付費 API。
核心觀點
「語音 AI 的競爭正式白熱化。開源已經到了可以部署的水準。」
這對使用商業語音 API 的企業來說是一個重要信號:成本有機會大幅下降,但也代表商業語音服務公司的護城河在縮小。