title: 本地 LLM 實戰的真相：容量往往比頻寬更重要，swap 會吃掉所有紙面優勢 date: 2026-04-08 source: https://www.threads.com/@thor3323/post/DW2q_lwknxh category: articles tags:

Local LLM
Gemma 4
RTX 5090
DGX Spark
Memory Capacity
Benchmark created: 2026-04-08 updated: 2026-04-08

本地 LLM 實戰的真相：容量往往比頻寬更重要，swap 會吃掉所有紙面優勢

概要

這則 Threads 的價值，不只是比較幾台機器跑 Gemma 4 的速度，而是它把一個本地推理常見但常被忽略的現實講得很清楚：

在本地 LLM 場景裡，模型能不能完整塞進記憶體，往往比紙面頻寬更重要。

貼文的核心對比是：

RTX 5090：31B 模型輕鬆跑
MBP M1 Max 32GB：31B 幾乎被記憶體限制拖垮
DGX Spark：雖然頻寬看起來不如 MBP，但因為有 128GB 記憶體、不需要 swap，反而更快

這篇真正有價值的，不是單次 benchmark，而是它清楚展示了： 當模型大小逼近甚至超過可用記憶體時，性能會從「正常變慢」直接掉進「結構性崩潰」。

貼文中的關鍵觀察

作者針對 31B 模型得出的結論很直接：

5090 幾乎是信手拈來
MBP M1 Max 32GB 已經到「氣喘吁吁」的程度
DGX Spark 雖然不完美，但仍能跑，而且比 MBP 快很多

最值得記錄的細節有三個：

1. 31B 模型本身就吃掉大量記憶體

貼文提到 31B 模型約 19GB，但問題不只在模型本體，還包括：

KV cache
runtime overhead
其他系統佔用

所以對 32GB RAM 機器來說，表面上看似「有機會」，實際上很容易超過安全邊界。

2. 一旦開始 swap，整個體感會斷崖式下降

貼文最關鍵的一句是：

SSD 比 RAM 慢 100 倍

這不是小幅退化，而是等級差異。

當 macOS 開始把記憶體 swap 到 SSD 時，原本紙面上的統一記憶體優勢、頻寬優勢，幾乎都會被拖垮。這也是為什麼 32GB MBP 明明不是很弱的機器，碰到 31B dense 模型卻會明顯發燙、變慢。

3. DGX Spark 證明「容量足夠」可以反殺「頻寬較高但不夠裝」

貼文提到一個很有意思的結果：

DGX Spark 頻寬只有 MBP 的 68%
但跑 31B 反而快 4 倍

原因不神秘：

MBP 頻寬雖高，但記憶體不夠，進入 swap
DGX Spark 頻寬比較低，但 128GB 記憶體足夠把整個 workload 留在主記憶體裡

這是一個很典型也很值得記住的本地推理 lesson：

只要避免掉到 swap cliff，較低頻寬但足夠大的系統，可能比高頻寬但裝不下的系統更實用。

為什麼這對本地 AI 很重要

很多人選機器時，容易只看：

記憶體頻寬
GPU 算力
官方 benchmark
理論 token/s

但這篇提醒的是：

真正的問題常常更原始：

模型能不能完整放進去？
KV cache 會不會把你推過邊界？
runtime 與 OS overhead 有沒有算進去？
一旦 swap，速度是不是直接失真？

這也是為什麼「能跑」和「能用」是兩回事。

一台機器也許 technically 能載入模型，但如果整個交互體感已經被 swap 拖垮，那它在工作流上其實就不算可用。

這篇真正值得提煉的原則

1. 容量是硬門檻，頻寬是效率增益

如果模型塞不下，頻寬再漂亮也救不了你。

所以在本地 LLM 規劃裡：

先看 capacity boundary
再看 bandwidth optimization

2. MoE 與 dense 模型的適配差很多

貼文建議 32GB Mac 用戶：

跑 26B MoE 就好
別碰 31B dense

這個建議背後的本質是： 同樣的「參數規模」在不同架構下，對記憶體與推理體感的壓力差很多。

對一般用戶來說，與其追求名義上更大的 dense 模型，不如選真正能穩定跑的 MoE 或更合理尺寸模型。

3. 本地 AI 的最佳化不是追最高規格，而是避開臨界點

這篇最值得 Allen KB 記錄的一點，是它讓本地 AI 選型回到一個很務實的思維：

不要只看最大模型能不能「勉強啟動」
要看是否處在 comfortable zone
一旦靠近邊界，OS 行為（尤其 swap）會讓體驗急遽惡化

也就是說，本地 LLM 的最佳化，常常不是「榨到最滿」，而是避免掉進那條性能懸崖。

我的判斷

值得注意的點

這篇的核心不是跑分，而是揭示本地推理的真正瓶頸順序
容量不足時，頻寬優勢會被 swap 徹底吃掉
DGX Spark 的案例很好地說明了「夠大」比「看起來更快」更實用
32GB 級設備的模型選擇，應該優先避開 dense 31B 這種臨界配置

後續可觀察的點

更多 Gemma 4 / Qwen / Llama 系列在不同本地硬體上的臨界記憶體區間
MoE 架構在 consumer device 上是否持續展現更高實用性
Apple Silicon 在更大記憶體容量機型上的性價比是否反而更高
本地推理工具是否能更聰明管理 KV cache / quantization / memory mapping，降低 swap cliff 發生率

一句話總結

這則 Threads 真正值得記錄的，不是哪台機器比較帥，而是它再次證明：在本地 LLM 推理裡，能不能完整待在記憶體內，往往比紙面頻寬更決定一切；一旦開始 swap，理論優勢很快就會被現實吞掉。