Allen 知識庫

載入中...

聯發科 Breeze-ASR-25：基於 Whisper 的繁中特化 ASR，中英混用辨識錯誤率砍 55% | Allen 知識庫 | Allen 知識庫

Allen 知識庫

聯發科 Breeze-ASR-25：基於 Whisper 的繁中特化 ASR，中英混用辨識錯誤率砍 55%

title: "聯發科 Breeze-ASR-25：基於 Whisper 的繁中特化 ASR，中英混用辨識錯誤率砍 55%" date: 2026-03-30 source: https://huggingface.co/MediaTek-Research/Breeze-ASR-25 category: articles tags:

聯發科
ASR
Whisper
繁體中文
語音辨識
開源 created: 2026-03-30 updated: 2026-03-30

聯發科 Breeze-ASR-25：基於 Whisper 的繁中特化 ASR，中英混用辨識錯誤率砍 55%

概要

Breeze-ASR-25 是聯發科研究院（MediaTek Research）推出的語音辨識模型，基於 Whisper-large-v2 微調，專為繁體中文和中英混用場景優化。

HuggingFace：MediaTek-Research/Breeze-ASR-25
GitHub：mtkresearch/Breeze-ASR-25
論文：arxiv.org/pdf/2506.11130

三大特色

強化繁體中文情境辨識
強化中英混用辨識——句內切換（code-switching）和句外切換都支援
強化時間戳對齊——適合自動字幕生成

效能數據（vs Whisper-large-v2）

中英混用（最大亮點）

CSZS 資料集：WER 從 29.49 降到 13.01（-55.88%）
ASCEND 混合語言：WER 從 21.01 降到 16.38（-22.01%）

繁體中文

CommonVoice16 繁中：WER 從 9.84 降到 7.97（-19%）
ML-lecture 長音頻：WER 從 6.13 降到 4.98（-18.76%）

英文

ASCEND 英文：WER 從 27.36 降到 26.64（-2.63%，微幅改善）

中英混用實際範例

聯發科 24 週年影片中的中英混用語音：

Breeze-ASR-25 辨識結果：

面對不知道的我們怎麼用 open mind open heart 的心情去 explore 那 explore 過程也就是持續學習不斷創新當然如果能帶領 MediaTek 說達到這樣的 position 對做這樣的事情那覺得是一個 commitment 那也是一個 passion 那可以一直很努力的投入在做

Whisper-large-v2 辨識結果：

面對不知道的我們怎麼用開放心情去探索把它探索過程也就是仔細學習不斷創新 ...那覺得是一個貢獻那也是一個熱誠

差異很明顯：Whisper 會把英文強制翻成中文（open mind → 開放、passion → 熱誠），Breeze-ASR-25 保留了原始的中英混用，這對台灣的實際使用場景精準得多。

訓練資料

中文全部用合成語音：10,000 小時 ODC Synth（用 BreezyVoice TTS 生成）
英文：CommonVoice17（1,738 小時）
混合語言：NTUML2021（11 小時）+ 資料增強
授權：全部使用寬鬆開源授權

核心觀點

1. 台灣場景目前最強的開源 ASR

台灣人說話本來就大量中英混用。Whisper 會把英文翻成中文，Cohere Transcribe 主打全語言通用但不特別優化混用。Breeze-ASR-25 是唯一專門為「台灣人說話的方式」優化的模型。

2. 中文訓練全用合成語音是亮點

10,000 小時合成語音，避開了中文語音資料的版權問題。這和 Mistral Voxtral TTS 是同一個趨勢：合成語音品質好到可以拿來訓練 ASR。

3. 和知識庫其他語音 AI 文章的關聯

Cohere Transcribe：全語言通用冠軍（WER 5.42%）
Mistral Voxtral TTS：文字→語音，開源 3B 模型
Breeze-ASR-25：繁中 + 中英混用特化，台灣場景最強
Suno v5.5：語音克隆

四篇合在一起就是 2026 年 Q1 語音 AI 的完整地圖。