title: AI 終於不只會回字了：PikaStream 代表 agent 正進入有臉、有聲音、可視訊的人格化介面時代 date: 2026-04-09 source: https://www.threads.com/@moth.ai/post/DW4NR7RCmb1 category: articles tags:

OpenClaw
PikaStream
Embodied Agents
Avatar
Voice Clone
Video Interface created: 2026-04-09 updated: 2026-04-09

AI 終於不只會回字了：PikaStream 代表 agent 正進入有臉、有聲音、可視訊的人格化介面時代

概要

這則 Threads 介紹 PikaStream 1.0 的一個很具體的產品變化：

把 OpenClaw 接進 Google Meet
AI 可用自訂 avatar 現身
用克隆聲音講話
低延遲（約 1.5 秒）
30 FPS 視訊互動
還保有過去記憶與人格一致性

如果只把這看成「AI 會上視訊會議了」，會低估它。這篇真正值得 Allen KB 記錄的，是它透露出 agent 產品的一個重要轉向：

agent 介面正在從文字與語音，進一步走向具視覺化人格呈現、同步影音互動、且帶長期記憶的一體化 embodied experience。

這篇真正的重點

1. agent 的競爭不再只在回答內容，也在「怎麼出現」

過去 AI 助手的互動形式大多是：

文字聊天
語音助手
偶爾加點 TTS

但 PikaStream 這類產品在做的事情更像是：

給 agent 一張臉
給它一個聲音
給它同步的會面感
讓人用熟悉的會議介面與它互動

這表示產品競爭開始不只在 intelligence，而在 presence design。

2. 真正有價值的，不是 avatar 本身，而是人格與記憶能跨媒介延續

如果只有 avatar + TTS，其實還只是包裝。

這篇真正值得記的點，是它強調：

記得過去對話
人格一致
可以從原本的文字 agent 延伸到視訊互動

這個組合才有意義，因為它代表：

agent 的身份開始能跨介面延續，而不是每換一種表現形式就變成另一個東西。

也就是說，未來使用者真正感受到的，不會是「我在用不同工具」，而是：

同一個 AI
用不同介面出現在我面前

3. 視訊化會把 agent 從工具推向陪伴型體驗與高黏著場景

當 agent 有臉、有聲音、能低延遲對話後，產品邏輯會改變很多。

它不只適合：

查資料
做任務
開工具

還會更自然地進入：

陪聊
腦力激盪
日常回顧
教學與教練型互動
長時間陪伴式場景

這種使用模式和傳統 chatbot 很不一樣，因為它更接近： 一個持續存在、會被投射人格關係的數位角色。

對 Allen / agent 產品觀察的啟發

這篇最值得吸收的，是它提醒：

agent 產品下一步不只是更會做事，也會更像一個可見、可聽、可長期相處的存在
avatar、voice clone、memory、人格一致性，合起來才會形成真正有黏性的 embodied interface
未來 agent 競爭可能同時比 intelligence、presence、latency 與人格連續性

一句話總結

這則 Threads 真正值得記錄的，不只是 OpenClaw 能進 Google Meet，而是它揭示了一個更大的介面轉向：agent 正從純文字/語音工具，走向有臉、有聲音、可視訊互動、且帶長期記憶與人格一致性的 embodied AI 介面。