本地 LLM 實戰的真相:容量往往比頻寬更重要,swap 會吃掉所有紙面優勢
title: 本地 LLM 實戰的真相:容量往往比頻寬更重要,swap 會吃掉所有紙面優勢 date: 2026-04-08 source: https://www.threads.com/@thor3323/post/DW2q_lwknxh category: articles tags:
- Local LLM
- Gemma 4
- RTX 5090
- DGX Spark
- Memory Capacity
- Benchmark created: 2026-04-08 updated: 2026-04-08
本地 LLM 實戰的真相:容量往往比頻寬更重要,swap 會吃掉所有紙面優勢
概要
這則 Threads 的價值,不只是比較幾台機器跑 Gemma 4 的速度,而是它把一個本地推理常見但常被忽略的現實講得很清楚:
在本地 LLM 場景裡,模型能不能完整塞進記憶體,往往比紙面頻寬更重要。
貼文的核心對比是:
- RTX 5090:31B 模型輕鬆跑
- MBP M1 Max 32GB:31B 幾乎被記憶體限制拖垮
- DGX Spark:雖然頻寬看起來不如 MBP,但因為有 128GB 記憶體、不需要 swap,反而更快
這篇真正有價值的,不是單次 benchmark,而是它清楚展示了: 當模型大小逼近甚至超過可用記憶體時,性能會從「正常變慢」直接掉進「結構性崩潰」。
貼文中的關鍵觀察
作者針對 31B 模型得出的結論很直接:
- 5090 幾乎是信手拈來
- MBP M1 Max 32GB 已經到「氣喘吁吁」的程度
- DGX Spark 雖然不完美,但仍能跑,而且比 MBP 快很多
最值得記錄的細節有三個:
1. 31B 模型本身就吃掉大量記憶體
貼文提到 31B 模型約 19GB,但問題不只在模型本體,還包括:
- KV cache
- runtime overhead
- 其他系統佔用
所以對 32GB RAM 機器來說,表面上看似「有機會」,實際上很容易超過安全邊界。
2. 一旦開始 swap,整個體感會斷崖式下降
貼文最關鍵的一句是:
- SSD 比 RAM 慢 100 倍
這不是小幅退化,而是等級差異。
當 macOS 開始把記憶體 swap 到 SSD 時,原本紙面上的統一記憶體優勢、頻寬優勢,幾乎都會被拖垮。這也是為什麼 32GB MBP 明明不是很弱的機器,碰到 31B dense 模型卻會明顯發燙、變慢。
3. DGX Spark 證明「容量足夠」可以反殺「頻寬較高但不夠裝」
貼文提到一個很有意思的結果:
- DGX Spark 頻寬只有 MBP 的 68%
- 但跑 31B 反而快 4 倍
原因不神秘:
- MBP 頻寬雖高,但記憶體不夠,進入 swap
- DGX Spark 頻寬比較低,但 128GB 記憶體足夠把整個 workload 留在主記憶體裡
這是一個很典型也很值得記住的本地推理 lesson:
只要避免掉到 swap cliff,較低頻寬但足夠大的系統,可能比高頻寬但裝不下的系統更實用。
為什麼這對本地 AI 很重要
很多人選機器時,容易只看:
- 記憶體頻寬
- GPU 算力
- 官方 benchmark
- 理論 token/s
但這篇提醒的是:
真正的問題常常更原始:
- 模型能不能完整放進去?
- KV cache 會不會把你推過邊界?
- runtime 與 OS overhead 有沒有算進去?
- 一旦 swap,速度是不是直接失真?
這也是為什麼「能跑」和「能用」是兩回事。
一台機器也許 technically 能載入模型,但如果整個交互體感已經被 swap 拖垮,那它在工作流上其實就不算可用。
這篇真正值得提煉的原則
1. 容量是硬門檻,頻寬是效率增益
如果模型塞不下,頻寬再漂亮也救不了你。
所以在本地 LLM 規劃裡:
- 先看 capacity boundary
- 再看 bandwidth optimization
2. MoE 與 dense 模型的適配差很多
貼文建議 32GB Mac 用戶:
- 跑 26B MoE 就好
- 別碰 31B dense
這個建議背後的本質是: 同樣的「參數規模」在不同架構下,對記憶體與推理體感的壓力差很多。
對一般用戶來說,與其追求名義上更大的 dense 模型,不如選真正能穩定跑的 MoE 或更合理尺寸模型。
3. 本地 AI 的最佳化不是追最高規格,而是避開臨界點
這篇最值得 Allen KB 記錄的一點,是它讓本地 AI 選型回到一個很務實的思維:
- 不要只看最大模型能不能「勉強啟動」
- 要看是否處在 comfortable zone
- 一旦靠近邊界,OS 行為(尤其 swap)會讓體驗急遽惡化
也就是說,本地 LLM 的最佳化,常常不是「榨到最滿」,而是避免掉進那條性能懸崖。
我的判斷
值得注意的點
- 這篇的核心不是跑分,而是揭示本地推理的真正瓶頸順序
- 容量不足時,頻寬優勢會被 swap 徹底吃掉
- DGX Spark 的案例很好地說明了「夠大」比「看起來更快」更實用
- 32GB 級設備的模型選擇,應該優先避開 dense 31B 這種臨界配置
後續可觀察的點
- 更多 Gemma 4 / Qwen / Llama 系列在不同本地硬體上的臨界記憶體區間
- MoE 架構在 consumer device 上是否持續展現更高實用性
- Apple Silicon 在更大記憶體容量機型上的性價比是否反而更高
- 本地推理工具是否能更聰明管理 KV cache / quantization / memory mapping,降低 swap cliff 發生率
一句話總結
這則 Threads 真正值得記錄的,不是哪台機器比較帥,而是它再次證明:在本地 LLM 推理裡,能不能完整待在記憶體內,往往比紙面頻寬更決定一切;一旦開始 swap,理論優勢很快就會被現實吞掉。