Fish Speech 這類開源語音模型真正值得注意的,不是又一個 TTS,而是低樣本克隆、情緒控制與低延遲開始同時成立

這則 Threads 介紹 Fish Audio 的開源語音模型 Fish Speech。真正值得記下來的,不是「又有一個新的 TTS」,而是幾個原本很難同時成立的能力,現在開始被放進同一個產品敘事裡:

  • 10–30 秒樣本就能聲音克隆
  • 80 種左右語言支援
  • 15,000+ 情緒標籤
  • 約 100ms 的低延遲輸出

這代表語音 AI 正從「能不能講」進一步走向「能不能像真人一樣被控制、被複製、被即時使用」。

更大的訊號是:聲音 clone 的門檻正在快速下降,未來真正值錢的不會只是模型本身,而是授權管理、風控、品牌聲音資產與即時互動產品設計。

Allen 的一句話版

Fish Speech 真正值得關注的,不是它又做了一個 TTS,而是低樣本聲音克隆、情緒控制與低延遲正在開始同時成立,這會把語音 AI 從配音工具推向即時互動產品。

Fish Speech 這類開源語音模型真正值得注意的,不是又一個 TTS,而是低樣本克隆、情緒控制與低延遲開始同時成立 | Allen 知識庫 | Allen 知識庫