EchoTransc:免顯卡的即時語音翻譯工作台,Vosk + Gemma 3 雙引擎架構
專案摘要
EchoTransc 是一款輕量化、免顯卡的即時語音翻譯工作台,適合演講聽寫和課程紀錄。
雙引擎翻譯架構
- 即時快譯(Google):毫秒級視覺反饋,字幕流暢不卡頓
- AI 精修(Gemma 3 / Ollama):語音停頓 0.3 秒時觸發深度語境理解與修辭優化
核心特色
- 免顯卡:語音辨識(Vosk)完全在 CPU 運行,普通筆電也能跑
- 無縫備援:AI 斷線或超時,自動切回 Google 翻譯,紀錄不中斷
- 多語模型切換:支援動態載入多組 Vosk 模型(英文快速、日文品質佳等)
- 右側歷史紀錄:自動彙整中英對照,一鍵匯出
.txt - UI 動態設定:免改程式碼即可切換 API 網址、AI 模型、停頓秒數
技術架構
- CPU 負責聽寫(Vosk)、GPU 負責翻譯(Gemma 3)→ 並行不互搶
- 建議 GPU 8G VRAM 以上
- 支援 Ollama、LM Studio 或任何 OpenAI 相容伺服器
- 可打包成 EXE(PyInstaller)
安裝
pip install vosk pyaudio deep-translator pyperclip pyttsx3 numpy requests
另需下載 Vosk 語音模型:https://alphacephei.com/vosk/models
核心觀點
1. 雙引擎備援設計很實際
即時翻譯最怕的不是品質差,而是中斷。先用 Google 快譯保持字幕流暢,再用本地 AI 精修,斷線時自動降級——這個設計很適合實際使用場景。
2. CPU + GPU 分工是低成本方案的正確拆法
把語音辨識丟 CPU、翻譯丟 GPU,不互搶資源。這讓普通筆電也能跑即時翻譯,不需要高階硬體。
3. 適合演講、課程、直播等需要即時雙語對照的場景
不是通用翻譯工具,而是專門針對「邊聽邊看翻譯」的使用情境。短句優先觸發機制也是為這個場景設計的。
我的觀察
這個專案雖然小,但架構設計很務實:不追求單一引擎最強,而是用雙引擎 + 備援機制確保「不斷、不卡、品質夠用」。 很適合個人學習或小型活動使用。