AssemblyAI Voice Agent API:把語音 Agent 的三段管線包成單一 WebSocket
Voice AI / Realtime Agent / Infrastructure
AssemblyAI Voice Agent API:把語音 Agent 的三段管線包成單一 WebSocket
Threads 貼文指出 AssemblyAI Voice Agent API 用單一 WebSocket 包住語音辨識、LLM 與語音合成,端到端約 1 秒延遲、每小時 US$4.50,並支援 JSON Schema tool calling。官方產品頁也確認:stream audio in, get audio back;開發者用標準 JSON API、可中途更新 prompt/voice/tools,並有 30 秒 reconnect session resumption。
核心判斷:語音 Agent 最難的不是單一模型,而是 ASR → LLM → TTS → turn detection → barge-in/interruption → telephony 的轉場延遲與狀態同步。AssemblyAI 的賣點是把這些整合成一條受控管線,讓團隊少處理三套 API、三份帳單與三段 latency debugging。
產品定位
Voice Agent API 是「speech in, speech out」的整合 API:用單一 WebSocket 建立即時語音對話,不是單純 STT 或 TTS 模型。
開發者體驗
官方文件提供 browser quickstart;產品頁標示標準 JSON API、約 6 類事件、JSON Schema tool calling、可中途更新 prompt/voice/tools。
成本訊號
官方比較表列 AssemblyAI Voice Agent API 為 US$4.50/hr,OpenAI Realtime API 為 US$18.00/hr,Deepgram Voice Agent API 為 US$4.50/hr。價格仍需以官方即時定價為準。
| 選項 | 優點 | 代價 |
|---|---|---|
| 使用 AssemblyAI Voice Agent API | 單一 WebSocket、整合 turn detection/TTS/tool calling、較快做出可用 demo,延遲與帳單較集中。 | 模型、聲音、事件模型與平台能力受供應商限制;深度客製與跨供應商最佳化空間較小。 |
| 自組 ASR + LLM + TTS | 可分別挑選最佳模型、控制成本、替換供應商、針對特定語言或場景最佳化。 | 要自己處理串流、打斷、VAD、回音、重連、三段 latency、錯誤恢復與多帳單歸因。 |
| OpenAI Realtime 類全包方案 | 模型推理與語音互動整合度高,適合模型原生對話體驗。 | 成本與事件複雜度可能較高;若重點是電話客服、表單填寫、工具呼叫,仍要評估 ASR 細節準確度。 |
評估語音 Agent API 時應測的項目:
- 繁體中文、台灣口音、英文夾雜、電話收音環境的 word error rate。
- 人打斷 agent 時,TTS 是否能即時停止,ASR 是否不會誤收回音。
- 工具呼叫能否用 JSON Schema 穩定約束,錯誤時如何重試或交還人工。
- Twilio / LiveKit / WebRTC / browser integration 的延遲差異。
- 每小時價格之外,是否還有電話費、LLM token、錄音保存、guardrails 或企業合規費用。
對電話提醒/客服型產品的啟示:如果目標是快速做出可用的語音提醒、預約、客服或 intake agent,整合式 Voice Agent API 可以大幅降低第一版複雜度;但若產品需要精準控制聲音品牌、多語混雜、極低成本或特殊合規流程,自組 pipeline 仍可能更合適。
來源:
Threads 原文:https://www.threads.com/@shane412335/post/DYuVc4tjUid
AssemblyAI Voice Agent API 官方產品頁:https://www.assemblyai.com/products/voice-agent-api
AssemblyAI Voice Agent API 文件:https://www.assemblyai.com/docs/voice-agents/voice-agent-api
Threads 原文:https://www.threads.com/@shane412335/post/DYuVc4tjUid
AssemblyAI Voice Agent API 官方產品頁:https://www.assemblyai.com/products/voice-agent-api
AssemblyAI Voice Agent API 文件:https://www.assemblyai.com/docs/voice-agents/voice-agent-api