Gemma 4 QAT GGUF:把大型多模態模型推進一般筆電的本機推論門檻
Unsloth 文件列出 Gemma 4 QAT GGUF 涵蓋 E2B、E4B、12B、26B-A4B、31B。它們被描述為多模態、hybrid-thinking 模型,支援 140+ 語言;小模型最高 128K context,12B 以上最高 256K context。
官方文件標示的建議總記憶體(RAM + VRAM 或 unified memory)約為:E2B 3GB、E4B 5GB、12B 7GB、26B-A4B 15GB、31B 18GB。這讓 26B-A4B / 31B 這類模型從「強桌機 GPU」更接近「高階筆電或統一記憶體機器」。
一般量化常是先訓練 BF16,再把權重壓到低位元;QAT 則在訓練過程中就讓模型適應量化誤差。Unsloth 文件稱 int4 QAT GGUF 相對 BF16 約降低 72% 記憶體使用,同時保留接近原始模型品質。
| 模型 | QAT GGUF 大小 | BF16 大小 | 建議總記憶體 | 定位 |
|---|---|---|---|---|
| Gemma 4 E2B QAT | 2.62 GB | 9.31 GB | 3 GB | 手機 / 輕量筆電測試入口 |
| Gemma 4 E4B QAT | 4.22 GB | 15.1 GB | 5 GB | 筆電、低門檻本機多模態 |
| Gemma 4 12B QAT | 6.72 GB | 23.8 GB | 7 GB | 較完整的本機助理 / 長上下文實驗 |
| Gemma 4 26B-A4B QAT | 14.2 GB | 50.5 GB | 15 GB | 高階筆電、消費級 GPU 的主力候選 |
| Gemma 4 31B QAT | 17.3 GB | 61.4 GB | 18 GB | 需要更大 unified memory / VRAM 的高階本機模型 |
文件中特別比較 naive Q4_0 與 Unsloth 轉換。以 26B 為例,naive Q4_0 的 Top-1 約 70.20%,Unsloth 版本為 85.63%;12B 則從 74.08% 提到 88.76%。這表示「同樣看起來是 4-bit」不代表品質相同,轉換方式本身會決定能不能保住 QAT 的訓練成果。
Unsloth 提供 llama.cpp 指令範例,可用 -hf unsloth/gemma-4-26B-A4B-it-qat-GGUF:UD-Q4_K_XL 直接拉 Hugging Face 模型,也可下載 GGUF 與 mmproj 後用 llama-cli 或 llama-server 部署。
文件同時提供 Unsloth Studio 流程:安裝後以 unsloth studio -H 0.0.0.0 -p 8888 啟動,透過 UI 搜尋、下載、執行 GGUF / safetensors,並支援推論參數自動調整、工具呼叫、web search、Python/Bash code execution。
另一則 Threads 實測把焦點放在 Gemma 4 12B Instruct:作者原本以為 12B 是「閹割版」,但在 16GB 顯卡上把 context length 開到 262,144 tokens 後,體感反而是「剛剛好」。這與官方 model card 的 12B / 256K context 定位一致:它不是追求最大參數,而是把長上下文、多模態、reasoning 與本機可跑性壓到消費級硬體可接受範圍。
截圖顯示 LM Studio Local Server 已載入 gemma-4-12b-it,模型大小約 7.56GB,Context Length 設為 262144,GPU Offload 為 48,Max Concurrent Predictions 為 4,並使用 unified KV cache / keep model in memory。這是「可本機服務化」而不只是命令列 toy demo。
256K context 不代表每次都應該塞滿。長上下文會吃 KV cache、拉低速度、增加 retrieval noise;但對資料整理、訓練資料清洗、長文件批處理來說,它讓本機模型能跑「幾天幾夜」的低成本背景任務,而不必每次呼叫雲端 token。
留言提到「現在 Codex 也能用它」與「不用錢,多問幾次」。更精準的採用邏輯是:本機 Gemma 4 12B 適合低成本、高迭代、可容忍多問幾次的輔助任務;不適合直接取代高可靠度雲端模型做關鍵決策或一次到位的複雜 coding。
- 先選模型大小:8GB unified memory / RAM 優先 E2B、E4B 或 12B;16GB 級別再測 26B-A4B;18GB 以上再考慮 31B。
- 不要亂換 quant:Gemma 4 QAT 文件明確建議使用 UD-Q4_K_XL;E2B / E4B mobile mixture 可測 UD-Q2_K_XL。
- 多模態要帶 mmproj:若要跑 vision / multimodal,需要下載並指定
mmproj-BF16.gguf或其他 mmproj 檔。 - 推論參數照官方起手:
temperature=1.0、top_p=0.95、top_k=64。 - 把數字當廠商/專案基準:Top-1、KLD、記憶體門檻與速度都需要在自己的硬體、上下文長度、任務類型上重新測。
- Threads:@hsu_hao_hjplus 關於 Unsloth 釋出 Gemma 4 QAT GGUF 的貼文
- Threads:@pilajc 關於 Gemma 4 12B 在 16GB 顯卡與 LM Studio 上的實測貼文
- Unsloth 官方文件:Gemma 4 QAT
- Hugging Face:Unsloth Gemma 4 QAT GGUF collection