逐字稿不要直接餵 AI:Whisper 之後還需要 Cleanup 與講者維度
Speech-to-Text / Knowledge Workflow
逐字稿不要直接餵 AI:Whisper 之後還需要 Cleanup 與講者維度
Threads 長文提醒一個很實用的坑:Whisper 跑出的逐字稿只是語音辨識結果,不是可直接進知識庫的乾淨素材。辨識錯字、人名亂跳、同音異字、口頭重複與結巴若直接進入 AI 問答,後面所有分析都會被低品質資料污染。比較穩的流程是:Whisper → 高階模型 cleanup → 保留原意的可用逐字稿;線上會議則應優先取得講者標記。
核心判斷:逐字稿是中繼站,不是終點。語音資料要變成長期顧問素材,至少要處理兩件事:內容 cleanup 與 speaker attribution。前者讓文字可讀可信;後者讓觀點、待辦、責任與決策能追溯到人。
Whisper 的輸出問題
Whisper 會輸出「聽起來最像什麼」的文字,但不一定知道語境中的正確專有名詞。例如 prompt engineering 被聽成 promote engineering;同一人名可能前後三種寫法。
Cleanup 的正確目標
不是摘要、不是重寫,而是修正辨識錯字、補回語境合理專有名詞、刪除口頭重複與結巴,同時保留每個人實際說的內容。
講者維度的價值
多人會議若沒有 speaker labels,後續「整理 A 的觀點」「找 B 的待辦」會失效。線上會議可用 Vexa 類 bot 入會取得與會者清單與分段 transcript。
| 場景 | 建議流程 | 注意事項 |
|---|---|---|
| 個人語音筆記 / Podcast | Whisper → 高階模型 cleanup → 結構化筆記。 | 主題、字典、人名與術語要提供給 cleanup prompt。 |
| 線上會議 Meet / Zoom / Teams | Vexa bot 入會 → real-time transcript + speaker labels → cleanup。 | speaker label 偶爾錯可修;完全沒有 speaker 維度則難以補救。 |
| 實體聚會 | 純錄音 → Whisper → cleanup。 | 目前較難自動取得可靠講者標記;可用座位、麥克風或人工標記降低成本。 |
| 長期顧問素材 | 清理後再入庫,保留原始音檔與修訂版。 | 要區分 raw transcript、cleaned transcript、summary、action items。 |
可直接使用的 Cleanup Prompt 骨架:
- 這是 Whisper 跑出的逐字稿,主題是 X。
- 請修正辨識錯字與同音異字,補回語境合理的專有名詞。
- 請移除口頭重複、結巴、無意義語助詞。
- 請保留每個人實際說的內容,不要重寫、不要摘要、不要自行加料。
- 若不確定,請標記「疑似」而不是武斷改寫。
工具補充:Vexa 官方 README 將其定位為 open-source meeting bot API & transcription API,支援 Google Meet、Microsoft Teams、Zoom;提供 real-time per-speaker transcripts、WebSocket、MCP server,可 self-host 或使用 hosted SaaS。這正好補上「自己錄音沒有講者維度」的問題。
來源:
Threads 原文:https://www.threads.com/@andrew54068/post/DYxE8NjGjdu
Vexa GitHub:https://github.com/Vexa-ai/vexa
Threads 原文:https://www.threads.com/@andrew54068/post/DYxE8NjGjdu
Vexa GitHub:https://github.com/Vexa-ai/vexa