VoxCPM2 技術卡片:開源 TTS 正從 voice cloning 走向 voice design 與可控語音生成
VibeVoice 更像語音模型家族:ASR 解決長音檔轉錄,Realtime 0.5B 解決低延遲 TTS;VoxCPM2 則聚焦於高品質 TTS、文字捏聲音與聲音克隆。若要做「會議 → 摘要 → 多角色朗讀」或「有聲書 / 角色配音」,兩者是不同層,不是完全替代。
官方 README 的 ecosystem 已列出多個社群整合,包括 ComfyUI-VoxCPM、ComfyUI_RH_VoxCPM、ComfyUI-VoxCPMTTS、TTS WebUI、VoxCPM.cpp、ONNX、ANE 與 Rust reimplementation。這代表 VoxCPM2 正從模型 repo 擴散到創作者工具鏈。
VoxCPM 是 tokenizer-free TTS,直接在連續語音表徵上生成,官方描述為 end-to-end diffusion autoregressive architecture,目的在於避開離散 tokenization 帶來的自然度與表現力限制。
VoxCPM2 為 2B 參數,官方 README / model card 宣稱使用超過 2 million hours 多語語音資料訓練,輸出 48kHz 音訊,built on MiniCPM-4 backbone。
GitHub repo 與 Hugging Face model card 標示 Apache-2.0;官方提供 GitHub、Hugging Face demo、ReadTheDocs 文件與 audio sample demo page。GitHub API 查詢時 repo 已超過 24K stars。
不用 reference audio,只用自然語言描述聲音,例如年齡、性別、語氣、情緒、語速、沙啞感或角色設定,就能生成新聲線。這把 TTS 從「念稿」推向「角色聲音設計」。
提供短 reference clip 後,模型可保留 timbre,再用文字指令控制 emotion、pace、expression。這對創作者很有吸引力,因為它不是只複製聲音,而是能把聲音帶進不同腳本與情緒。
官方說明中,Ultimate Cloning 需要 reference audio 與 transcript,讓模型從參考語音自然延續,保留 timbre、rhythm、emotion、style 等細節。這也是風險最高的能力,因為越像真人,越需要 consent 與使用邊界。
| 面向 | 官方資訊 | 採用時要確認 |
|---|---|---|
| 語言 | 30 languages,中文方言包含四川話、粵語、吳語、東北話、河南話、陝西話、山東話、天津話、閩南話 | 台灣華語口音未必自然;社群留言也指出仍可能有中國大陸捲舌/口音感 |
| 音質 | 48kHz studio-quality output,接受 16kHz reference 並透過 AudioVAE V2 輸出高品質音訊 | 實際品質仍取決於文本、prompt、reference audio、顯卡與推論設定 |
| 速度 | README 提到 RTX 4090 RTF 可低至約 0.3,Nano-vLLM / vLLM-Omni 加速可到約 0.13 | 這是硬體與 serving 條件相關的 benchmark lead,不應直接當成所有部署環境的保證 |
| 授權 | Apache-2.0,官方稱 commercial-ready | 商用前仍要確認聲音來源授權、肖像/人格權、客戶合約、平台政策與地方法規 |
- 短影音、Podcast、YouTube、課程與遊戲角色配音原型。
- 企業內部訓練、文件朗讀、多語內容快速產製。
- 虛擬角色、AI companion、客服語音人格的概念驗證。
- 需要設計「不存在的品牌聲音」而非複製真人聲音的情境。
- 聲音來源是否有明確授權:reference audio、員工聲音、客戶聲音、藝人聲音都要分開處理。
- 輸出是否需要 watermark、metadata、審核紀錄或生成紀錄,方便追溯。
- 是否禁止冒名、詐騙、客服仿冒、政治人物仿聲、金融指令等高風險用途。
- 是否有敏感內容審核、拒絕策略與濫用回報流程。
- 商用時是否清楚揭露 AI 生成聲音,避免讓聽眾誤認真人授權或真人即時發話。
- Threads:@resen168 對 VoxCPM2 的介紹與社群留言
- Threads:@junyan5400 對 VoxCPM 作為 VibeVoice TTS 缺口與 ComfyUI 工作流的補充
- GitHub:OpenBMB/VoxCPM
- Hugging Face model card:openbmb/VoxCPM2
- Demo:VoxCPM-Demo
- Audio samples:VoxCPM2 Demo Page
- Allen KB 相關文章:VoxCPM2 與語音 AI commodity 化