Gemini Flash TTS 真正往前跨的一步,不是『更自然』,而是用 audio tags 把語音從輸出層拉回可控制的表演層
這則 Threads 介紹 Gemini 3.1 Flash TTS,重點不是單純能把文字念出來,而是可以透過像 [excited]、[calm]、[serious] 這類 audio tags,直接控制情緒、語速、語氣,讓語音更像是在「演」而不是在「讀」。
1. 語音輸出開始變成可編排的表演介面
過去做 TTS,很多控制都得靠調模型、換 voice、靠 prompt 碰運氣或後製補強。但當 audio tags 能穩定起作用,情況就不同了。你不再只是送一段文字出去,而是在寫一份簡化版的表演腳本。
2. 產品門檻下降,會比模型升級本身更重要
如果沒有音訊工程背景的人,也能靠少量文字標記控制語音效果,那很多過去得仰賴專業製作的場景都會被打開,例如 AI 配音、教育內容、有聲書、Podcast、AI 客服與角色型語音產品。
3. 下一步競爭點,可能會從模型轉向 voice design workflow
當基礎 TTS 能力越來越平價,未來真正拉開差距的,可能不是誰的聲音最像真人,而是誰的控制語法最好用、誰的情緒模板最容易套用、誰能把 script → performance → output 串成工作流。
我的判斷
Gemini Flash TTS 的真正進步,不只是聲音更自然,而是讓語音輸出開始具備可程式化、可編排、可設計的表演控制層。