Headroom:LLM Agent 的 Context 壓縮層,先把工具輸出與 RAG 區塊瘦身再送模型
AI Agent Tooling / Context Engineering
Headroom:把「塞進模型前」變成一個可治理的壓縮層
Headroom 的定位很直接:在 LLM 看到工具輸出、log、檔案內容、RAG chunk 之前,先做 context compression。官方 README 主張可減少 60–95% tokens,並提供 library、OpenAI-compatible proxy、MCP server、以及包住 Claude / Codex / Cursor / Aider / Copilot 類 agent 的接入方式。
解決的痛點
Coding agent 很常不是推理能力不夠,而是 tool output、測試 log、搜尋結果、RAG 區塊太肥,導致 context 快速爆掉、成本上升、有效訊號被淹沒。
工具定位
它不是 ZIP 壓縮,而是把原始內容轉成更適合 AI 讀的摘要 / 結構地圖;部分模式保留本地原文,讓模型需要時再召回。
接入價值
最有吸引力的是不用重寫整條 agent pipeline:可從 library、proxy、MCP 或 CLI wrap 逐步導入。
評估重點:「省 token 且答案不變」一定要拿自己的任務驗證。壓縮層可能刪掉錯誤訊息、邊界條件、檔案路徑、測試上下文或安全訊號;對 debugging / code review / incident response 任務尤其要小心。
BigIntTech / Hermes 可以怎麼試
- 先用在低風險、高噪音輸出:長 logs、搜尋結果、RAG chunk、CI output。
- 不要一開始用在安全審查、帳務、部署事故、migration 這種不能漏細節的工作。
- 評估指標不要只看 token:還要看答案正確率、debug 成功率、工具召回次數、重跑成本與失誤率。
- 保留「原文可追溯」路徑,讓 agent 在判斷不確定時能讀回完整 output。