Alive：字節跳動 FoundationVision 開源視聽生成模型，SeedAnce 2.0 的技術精簡版

背景：FoundationVision 是誰？

FoundationVision 是字節跳動（ByteDance）的核心 AI 研究組織，負責 SeedAnce 系列影片生成技術。商業端用 SeedAnce 打品牌，開源端用 Alive 建立技術標準。

Alive：A Unified Audio-Video Generation Model

SeedAnce 2.0 影音同步技術的開源精簡版，解決 AI 影片最大痛點：視聽不同步（默片感）。

Alive 內置的 TA-CrossAttn（時間對齊跨注意力）技術，讓生成影片的聲音與畫面真正同步，而非後期配音感。

目前大多數 AI 影片模型還在解決「畫面不崩」，Alive 已經在玩「視聽共生」。

作者認為這是一場「技術收割」：

當全世界的開發者都在調教 Alive 的開源權重時，背後的字節團隊正透過這些反饋，回哺他們在即夢（Dreamina）或 TikTok 內部的私有模型。

從 ByteTrack 到 Alive，策略一直沒變：用極高品質的開源項目來定義遊戲規則。

想預判下半年抖音會出現什麼新玩法，與其看官方公告，不如去拆解 Alive 的技術報告。