台灣中文字幕生成的關鍵:Subtitle Studio、Breeze ASR 25 與離線 ASR 工作流
Local ASR / Creator Workflow
台灣中文字幕生成的關鍵,不只是「離線」,而是 ASR 是否懂台灣語境
Threads 貼文推薦 Subtitle Studio AI:把影片拖進 Mac App、選擇 Chinese(Traditional - Taiwan),即可產生逐字稿;若要匯出 SRT 或燒錄影片則升級完整版。更值得記錄的是它背後指向的趨勢:台灣中文、台英混用與本地字幕工作流,已經開始從通用 Whisper 走向在地化 ASR 與完全離線工具。
核對 caveat:Threads 貼文稱 Subtitle Studio 使用台灣製 Breeze ASR 25;但 Subtitle Studio 官網目前公開 FAQ 寫的是「使用在 Mac 本地執行的 OpenAI Whisper 模型」。因此本文不把「Subtitle Studio 已採用 Breeze」視為已由官方確認的事實,而是把它拆成兩個可用訊號:一是 Subtitle Studio 作為 Mac 離線字幕工具;二是 Breeze ASR 25 作為台灣中文 ASR 模型的官方技術選項。
Subtitle Studio AI 的產品定位
Mac 本地字幕生成器,主打 100% 離線、無訂閱、Apple Silicon 最佳化、支援 SRT / Final Cut 標題圖層 / MP4 燒錄輸出。免費版可轉錄與編輯;匯出功能需付費終身授權。
貼文提供的使用流程
下載安裝 → 把影片拖進 App → 點右上角 Generate Subtitle → Input Language 選 Chinese (Traditional - Taiwan) → Generate → 取得逐字稿;需要 SRT 或影片輸出時升級完整版。
真正的採用判斷
若任務是 YouTube、Podcast、短影音剪輯或會議影片上字幕,重點不是只看「99% 準確」宣稱,而是測台灣用語、英文產品名、口頭禪、多人重疊、背景噪音、時間軸對齊與匯出格式。
Breeze ASR 25 是什麼
MediaTek Research / 聯發創新基地推出的開源 ASR 模型,基於 Whisper-large-v2 fine-tune,授權為 Apache 2.0。官方定位是更理解台灣用語、口音與中英混用情境,並加強時間戳記對齊,適合自動字幕生成。
它補的痛點
通用 Whisper 對繁中與台灣語境已可用,但容易在台灣口語、品牌名、英中文混講、在地詞彙上失真。Breeze ASR 25 的價值在於把 ASR 從「懂中文」推向「懂台灣中文與 code-switching」。
官方 benchmark 訊號
Hugging Face model card 顯示,在 CommonVoice16-zh-TW、CSZS-zh-en 等短音訊資料集上相對 Whisper-large-v2 baseline 有明顯 WER 改善;尤其 code-switching 資料集 CSZS-zh-en 的改善幅度最高。這些數字仍應視為模型卡 benchmark,不等於每個剪輯素材都同等提升。
為什麼這對內容工作流重要:字幕生成不是單純「語音轉文字」。實務上還包含人聲分離、降噪、VAD、標點、斷句、時間軸對齊、專有名詞修正、雙語字幕、SRT/FCP/DaVinci/Premiere 匯出,以及最後人工校稿。ASR 模型越懂台灣語境,後面每一步的人工成本就越低。
| 方案層級 | 適合用途 | 風險 / caveat |
|---|---|---|
| Subtitle Studio 這類離線 Mac App | 創作者快速把影片轉逐字稿、剪輯字幕、匯出 SRT 或燒錄影片 | 要確認實際模型、授權、裝置數、Intel Mac 支援、輸出限制;官方目前寫 Whisper,不宜直接假設 Breeze 已內建 |
| Whisper / faster-whisper | 工程端批次轉錄、Podcast/影片資料處理、自動化 pipeline | 繁中與台英混用可用但仍需詞庫、prompt、後處理;多人與噪音環境仍會出錯 |
| Breeze ASR 25 | 台灣中文、台英混用、在地口音、字幕時間軸對齊更敏感的產品或內部工具 | 需自行評估部署成本、推論速度、硬體、模型格式轉換、實測 WER;benchmark 不能取代自己的素材測試 |
採用前測試清單
- 準備 10–20 段自己的真實素材:短影音、訪談、會議、室內雜音、戶外錄音、台英混用。
- 比較:通用 Whisper、Subtitle Studio 實際輸出、Breeze ASR 25 或其衍生部署。
- 記錄錯誤類型:台灣詞彙、英文產品名、數字、標點、專有名詞、講者切換、時間軸偏移。
- 用「校稿總時間」評估,而不是只看逐字稿漂亮程度。
- 如果素材涉及客戶、醫療、財務或內部會議,優先選離線或自架方案,並確認沒有 telemetry / 上傳。
可落地的 Big picture:台灣中文 ASR 會是語音助理、電話提醒、客服錄音、會議摘要、短影音上字幕的底層能力。若未來要做 Kate 的語音電話提醒或台灣商務語音管家,Breeze ASR 25 這類在地模型值得列入測試池;但電話場景還要另外測窄頻音質、打斷、回覆確認與 snooze 指令辨識。
來源與延伸閱讀
- Threads 原文:@mtmcy_ig 推薦 Subtitle Studio AI 與 Chinese(Traditional - Taiwan)字幕流程
- Subtitle Studio 官網:subtitlestudio.ai/zh
- MediaTek 新聞稿:MR Breeze ASR 25 發布說明
- Hugging Face:MediaTek-Research/Breeze-ASR-25
- GitHub:mtkresearch/Breeze-ASR-25