工程師花 7 天把 Google KV Cache 壓縮論文變成比官方更快的開源實現
原文摘要
一個叫 Tom Turney 的工程師,只花 7 天,就把 Google 那篇砸翻全球記憶體股的 KV cache 壓縮論文,變成比官方承諾還快的開源實現。
Google 只丟論文,半行程式碼都沒放。
7 天時間軸
- 第 1-3 天:啃完數學公式,靠 Claude 幫忙把核心演算法寫完,搭了 141 個測試用例,跑通 Python 原型
- 第 4-5 天:移植到 llama,寫了 Metal GPU 核心
- 第 6-7 天:狂優化,推理速度從 739 tok/s → 2747 tok/s,純工程優化快了 3.7 倍
Tom 自己加的三項創新
在 Google 原方案之上:
- 長上下文跳過壓縮:跳過 90% 的 value 解壓
- 非對稱 K/V 壓縮:保留 key 精度,狠壓 value
- 老 token 自動降精度:過時的 token 自動降低精度
成果
- 35B 模型在普通 MacBook 上流暢運行
- KV cache 壓縮比約 4.6 倍
- Repo 上線一週就收到好幾百顆星
作者觀點
大廠發論文影響市場,普通開發者加 AI 就能把東西做出來,讓大家直接用。以前大廠幾個月甚至更久的工程量,現在一個人就能壓縮到一週內走完。
AI 不只幫忙寫 code,還能大幅縮短從論文到可用工具的距離。