Gemini Flash TTS 真正往前跨的一步,不是『更自然』,而是用 audio tags 把語音從輸出層拉回可控制的表演層

這則 Threads 介紹 Gemini 3.1 Flash TTS,重點不是單純能把文字念出來,而是可以透過像 [excited]、[calm]、[serious] 這類 audio tags,直接控制情緒、語速、語氣,讓語音更像是在「演」而不是在「讀」。

1. 語音輸出開始變成可編排的表演介面

過去做 TTS,很多控制都得靠調模型、換 voice、靠 prompt 碰運氣或後製補強。但當 audio tags 能穩定起作用,情況就不同了。你不再只是送一段文字出去,而是在寫一份簡化版的表演腳本。

2. 產品門檻下降,會比模型升級本身更重要

如果沒有音訊工程背景的人,也能靠少量文字標記控制語音效果,那很多過去得仰賴專業製作的場景都會被打開,例如 AI 配音、教育內容、有聲書、Podcast、AI 客服與角色型語音產品。

3. 下一步競爭點,可能會從模型轉向 voice design workflow

當基礎 TTS 能力越來越平價,未來真正拉開差距的,可能不是誰的聲音最像真人,而是誰的控制語法最好用、誰的情緒模板最容易套用、誰能把 script → performance → output 串成工作流。

我的判斷

Gemini Flash TTS 的真正進步,不只是聲音更自然,而是讓語音輸出開始具備可程式化、可編排、可設計的表演控制層。

原始來源: https://www.threads.com/@aiposthub/post/DXLWaTVkVYV?xmt=AQF068IRkVkJqT0rXGhFycOA14YL1P9Fd0POmyt3AbrajR34Gt1N7ajA4eRmNvZ7OUo7560E&slof=1

Gemini Flash TTS 真正往前跨的一步,不是『更自然』,而是用 audio tags 把語音從輸出層拉回可控制的表演層 | Allen 知識庫 | Allen 知識庫