title: "EchoTransc：免顯卡的即時語音翻譯工作台，Vosk + Gemma 3 雙引擎架構" date: 2026-03-19 author: ddmmbb source: https://github.com/ddmmbb-2/EchoTrans category: articles tags:

語音翻譯
Vosk
Gemma
開源
即時翻譯 created: 2026-03-19 updated: 2026-03-19

EchoTransc：免顯卡的即時語音翻譯工作台，Vosk + Gemma 3 雙引擎架構

專案摘要

EchoTransc 是一款輕量化、免顯卡的即時語音翻譯工作台，適合演講聽寫和課程紀錄。

雙引擎翻譯架構

即時快譯（Google）：毫秒級視覺反饋，字幕流暢不卡頓
AI 精修（Gemma 3 / Ollama）：語音停頓 0.3 秒時觸發深度語境理解與修辭優化

核心特色

免顯卡：語音辨識（Vosk）完全在 CPU 運行，普通筆電也能跑
無縫備援：AI 斷線或超時，自動切回 Google 翻譯，紀錄不中斷
多語模型切換：支援動態載入多組 Vosk 模型（英文快速、日文品質佳等）
右側歷史紀錄：自動彙整中英對照，一鍵匯出 .txt
UI 動態設定：免改程式碼即可切換 API 網址、AI 模型、停頓秒數

技術架構

CPU 負責聽寫（Vosk）、GPU 負責翻譯（Gemma 3）→ 並行不互搶
建議 GPU 8G VRAM 以上
支援 Ollama、LM Studio 或任何 OpenAI 相容伺服器
可打包成 EXE（PyInstaller）

安裝

pip install vosk pyaudio deep-translator pyperclip pyttsx3 numpy requests

另需下載 Vosk 語音模型：https://alphacephei.com/vosk/models

核心觀點

1. 雙引擎備援設計很實際

即時翻譯最怕的不是品質差，而是中斷。先用 Google 快譯保持字幕流暢，再用本地 AI 精修，斷線時自動降級——這個設計很適合實際使用場景。

2. CPU + GPU 分工是低成本方案的正確拆法

把語音辨識丟 CPU、翻譯丟 GPU，不互搶資源。這讓普通筆電也能跑即時翻譯，不需要高階硬體。

3. 適合演講、課程、直播等需要即時雙語對照的場景

不是通用翻譯工具，而是專門針對「邊聽邊看翻譯」的使用情境。短句優先觸發機制也是為這個場景設計的。

我的觀察

這個專案雖然小，但架構設計很務實：不追求單一引擎最強，而是用雙引擎 + 備援機制確保「不斷、不卡、品質夠用」。 很適合個人學習或小型活動使用。