title: "Mistral 開源 Voxtral TTS：3B 參數、3GB RAM 手機就能跑、5 秒克隆聲音" date: 2026-03-26 author: meow.coder source: https://www.threads.com/@meow.coder/post/DWWT0ndEvls category: threads tags:

Mistral
TTS
語音合成
開源
On-Device created: 2026-03-26 updated: 2026-03-26

Mistral 開源 Voxtral TTS：3B 參數、3GB RAM 手機就能跑、5 秒克隆聲音

原文摘要

Mistral 開源了一個 text-to-speech 模型 Voxtral TTS——3B 參數量，3GB RAM 就能跑，手機和筆電都能用，不需要把音頻送到第三方伺服器。

技術規格

模型架構（三層）

3.4B Transformer 解碼器
390M 聲學模型
300M 自研神經音頻編碼器
基於 Ministral 3B，和語音轉文字模型 Voxtral Transcribe 用同一個骨幹

效能數據（官方宣稱）

首字延遲：90ms
生成速度：6 倍實時語速
聲音克隆：5 秒音檔就能克隆
跨語言零樣本：用英文音檔生成法文語音，聲音特徵不跑掉
⚠️ 目前沒有獨立第三方基準測試

硬體需求

3GB RAM 即可運行
手機、筆電都能跑
完全本地，不需雲端

市場脈絡

語音 AI 市場 2026 年已達 $220 億
預計 2034 年語音 Agent 單一區塊到 $475 億
同週：ElevenLabs 跟 IBM 合作進 watsonx、Google 擴 Chirp 3 HD、OpenAI 持續迭代 TTS

Mistral 的賭注

企業不只想租語音，他們想擁有語音。

Mistral 語音管線全貌

Voxtral Transcribe：語音 → 文字（已發布）
Voxtral TTS：文字 → 語音（本次發布）
組合起來 = 語音到文字再到語音的完整管線，全部可企業自建

核心觀點

1. 對 ElevenLabs 的威脅是真實的

ElevenLabs 靠語音合成估值幾十億，但核心壁壘是「品質好 + 方便用」。當開源模型品質追上來，而且能本地跑不用上傳音頻，企業就有動機自建。

2. 3GB RAM 是真正的門檻突破

之前的高品質 TTS 需要 GPU 才能跑。3GB RAM 意味著 iPhone 都能跑，這打開了完全不同的應用場景——離線語音助手、隱私敏感的醫療/法律場景、IoT 裝置。

3. 和之前整理的 FuFu Studio 台灣 AI 配音是同一條線

FuFu Studio 用 Gemini TTS 做台灣在地配音。如果 Voxtral TTS 開源後支援繁中、品質夠好，台灣開發者就能自建完全本地的 TTS 系統，不用依賴 Google API。

4. 但企業採用還有距離

開源社群會很興奮，但企業客服場景需要高穩定性、合規保障、SLA。Mistral 需要用實際案例來證明，而不只是發 GitHub repo。