聯發科 Breeze-ASR-25:基於 Whisper 的繁中特化 ASR,中英混用辨識錯誤率砍 55%
title: "聯發科 Breeze-ASR-25:基於 Whisper 的繁中特化 ASR,中英混用辨識錯誤率砍 55%" date: 2026-03-30 source: https://huggingface.co/MediaTek-Research/Breeze-ASR-25 category: articles tags:
- 聯發科
- ASR
- Whisper
- 繁體中文
- 語音辨識
- 開源 created: 2026-03-30 updated: 2026-03-30
聯發科 Breeze-ASR-25:基於 Whisper 的繁中特化 ASR,中英混用辨識錯誤率砍 55%
概要
Breeze-ASR-25 是聯發科研究院(MediaTek Research)推出的語音辨識模型,基於 Whisper-large-v2 微調,專為繁體中文和中英混用場景優化。
- HuggingFace:MediaTek-Research/Breeze-ASR-25
- GitHub:mtkresearch/Breeze-ASR-25
- 論文:arxiv.org/pdf/2506.11130
三大特色
- 強化繁體中文情境辨識
- 強化中英混用辨識——句內切換(code-switching)和句外切換都支援
- 強化時間戳對齊——適合自動字幕生成
效能數據(vs Whisper-large-v2)
中英混用(最大亮點)
- CSZS 資料集:WER 從 29.49 降到 13.01(-55.88%)
- ASCEND 混合語言:WER 從 21.01 降到 16.38(-22.01%)
繁體中文
- CommonVoice16 繁中:WER 從 9.84 降到 7.97(-19%)
- ML-lecture 長音頻:WER 從 6.13 降到 4.98(-18.76%)
英文
- ASCEND 英文:WER 從 27.36 降到 26.64(-2.63%,微幅改善)
中英混用實際範例
聯發科 24 週年影片中的中英混用語音:
Breeze-ASR-25 辨識結果:
面對不知道的我們怎麼用 open mind open heart 的心情去 explore 那 explore 過程也就是持續學習 不斷創新 當然如果能帶領 MediaTek 說達到這樣的 position 對做這樣的事情那覺得是一個 commitment 那也是一個 passion 那可以一直很努力的投入在做
Whisper-large-v2 辨識結果:
面對不知道的我們怎麼用開放心情去探索 把它探索過程也就是 仔細學習 不斷創新 ...那覺得是一個貢獻那也是一個熱誠
差異很明顯:Whisper 會把英文強制翻成中文(open mind → 開放、passion → 熱誠),Breeze-ASR-25 保留了原始的中英混用,這對台灣的實際使用場景精準得多。
訓練資料
- 中文全部用合成語音:10,000 小時 ODC Synth(用 BreezyVoice TTS 生成)
- 英文:CommonVoice17(1,738 小時)
- 混合語言:NTUML2021(11 小時)+ 資料增強
- 授權:全部使用寬鬆開源授權
核心觀點
1. 台灣場景目前最強的開源 ASR
台灣人說話本來就大量中英混用。Whisper 會把英文翻成中文,Cohere Transcribe 主打全語言通用但不特別優化混用。Breeze-ASR-25 是唯一專門為「台灣人說話的方式」優化的模型。
2. 中文訓練全用合成語音是亮點
10,000 小時合成語音,避開了中文語音資料的版權問題。這和 Mistral Voxtral TTS 是同一個趨勢:合成語音品質好到可以拿來訓練 ASR。
3. 和知識庫其他語音 AI 文章的關聯
- Cohere Transcribe:全語言通用冠軍(WER 5.42%)
- Mistral Voxtral TTS:文字→語音,開源 3B 模型
- Breeze-ASR-25:繁中 + 中英混用特化,台灣場景最強
- Suno v5.5:語音克隆
四篇合在一起就是 2026 年 Q1 語音 AI 的完整地圖。