逐字稿不要直接餵 AI：Whisper 之後還需要 Cleanup 與講者維度

Speech-to-Text / Knowledge Workflow

Threads 長文提醒一個很實用的坑：Whisper 跑出的逐字稿只是語音辨識結果，不是可直接進知識庫的乾淨素材。辨識錯字、人名亂跳、同音異字、口頭重複與結巴若直接進入 AI 問答，後面所有分析都會被低品質資料污染。比較穩的流程是：Whisper → 高階模型 cleanup → 保留原意的可用逐字稿；線上會議則應優先取得講者標記。

核心判斷：逐字稿是中繼站，不是終點。語音資料要變成長期顧問素材，至少要處理兩件事：內容 cleanup 與 speaker attribution。前者讓文字可讀可信；後者讓觀點、待辦、責任與決策能追溯到人。

Whisper 的輸出問題

Whisper 會輸出「聽起來最像什麼」的文字，但不一定知道語境中的正確專有名詞。例如 prompt engineering 被聽成 promote engineering；同一人名可能前後三種寫法。

Cleanup 的正確目標

不是摘要、不是重寫，而是修正辨識錯字、補回語境合理專有名詞、刪除口頭重複與結巴，同時保留每個人實際說的內容。

講者維度的價值

多人會議若沒有 speaker labels，後續「整理 A 的觀點」「找 B 的待辦」會失效。線上會議可用 Vexa 類 bot 入會取得與會者清單與分段 transcript。

場景	建議流程	注意事項
個人語音筆記 / Podcast	Whisper → 高階模型 cleanup → 結構化筆記。	主題、字典、人名與術語要提供給 cleanup prompt。
線上會議 Meet / Zoom / Teams	Vexa bot 入會 → real-time transcript + speaker labels → cleanup。	speaker label 偶爾錯可修；完全沒有 speaker 維度則難以補救。
實體聚會	純錄音 → Whisper → cleanup。	目前較難自動取得可靠講者標記；可用座位、麥克風或人工標記降低成本。
長期顧問素材	清理後再入庫，保留原始音檔與修訂版。	要區分 raw transcript、cleaned transcript、summary、action items。

可直接使用的 Cleanup Prompt 骨架：

這是 Whisper 跑出的逐字稿，主題是 X。
請修正辨識錯字與同音異字，補回語境合理的專有名詞。
請移除口頭重複、結巴、無意義語助詞。
請保留每個人實際說的內容，不要重寫、不要摘要、不要自行加料。
若不確定，請標記「疑似」而不是武斷改寫。

工具補充：Vexa 官方 README 將其定位為 open-source meeting bot API & transcription API，支援 Google Meet、Microsoft Teams、Zoom；提供 real-time per-speaker transcripts、WebSocket、MCP server，可 self-host 或使用 hosted SaaS。這正好補上「自己錄音沒有講者維度」的問題。

來源：
Threads 原文：https://www.threads.com/@andrew54068/post/DYxE8NjGjdu
Vexa GitHub：https://github.com/Vexa-ai/vexa