Mistral 開源 Voxtral TTS:3B 參數、3GB RAM 手機就能跑、5 秒克隆聲音
title: "Mistral 開源 Voxtral TTS:3B 參數、3GB RAM 手機就能跑、5 秒克隆聲音" date: 2026-03-26 author: meow.coder source: https://www.threads.com/@meow.coder/post/DWWT0ndEvls category: threads tags:
- Mistral
- TTS
- 語音合成
- 開源
- On-Device created: 2026-03-26 updated: 2026-03-26
Mistral 開源 Voxtral TTS:3B 參數、3GB RAM 手機就能跑、5 秒克隆聲音
原文摘要
Mistral 開源了一個 text-to-speech 模型 Voxtral TTS——3B 參數量,3GB RAM 就能跑,手機和筆電都能用,不需要把音頻送到第三方伺服器。
技術規格
模型架構(三層)
- 3.4B Transformer 解碼器
- 390M 聲學模型
- 300M 自研神經音頻編碼器
- 基於 Ministral 3B,和語音轉文字模型 Voxtral Transcribe 用同一個骨幹
效能數據(官方宣稱)
- 首字延遲:90ms
- 生成速度:6 倍實時語速
- 聲音克隆:5 秒音檔就能克隆
- 跨語言零樣本:用英文音檔生成法文語音,聲音特徵不跑掉
- ⚠️ 目前沒有獨立第三方基準測試
硬體需求
- 3GB RAM 即可運行
- 手機、筆電都能跑
- 完全本地,不需雲端
市場脈絡
- 語音 AI 市場 2026 年已達 $220 億
- 預計 2034 年語音 Agent 單一區塊到 $475 億
- 同週:ElevenLabs 跟 IBM 合作進 watsonx、Google 擴 Chirp 3 HD、OpenAI 持續迭代 TTS
Mistral 的賭注
企業不只想租語音,他們想擁有語音。
Mistral 語音管線全貌
- Voxtral Transcribe:語音 → 文字(已發布)
- Voxtral TTS:文字 → 語音(本次發布)
- 組合起來 = 語音到文字再到語音的完整管線,全部可企業自建
核心觀點
1. 對 ElevenLabs 的威脅是真實的
ElevenLabs 靠語音合成估值幾十億,但核心壁壘是「品質好 + 方便用」。當開源模型品質追上來,而且能本地跑不用上傳音頻,企業就有動機自建。
2. 3GB RAM 是真正的門檻突破
之前的高品質 TTS 需要 GPU 才能跑。3GB RAM 意味著 iPhone 都能跑,這打開了完全不同的應用場景——離線語音助手、隱私敏感的醫療/法律場景、IoT 裝置。
3. 和之前整理的 FuFu Studio 台灣 AI 配音是同一條線
FuFu Studio 用 Gemini TTS 做台灣在地配音。如果 Voxtral TTS 開源後支援繁中、品質夠好,台灣開發者就能自建完全本地的 TTS 系統,不用依賴 Google API。
4. 但企業採用還有距離
開源社群會很興奮,但企業客服場景需要高穩定性、合規保障、SLA。Mistral 需要用實際案例來證明,而不只是發 GitHub repo。