Iterative-Contextual-Refinements:用 BFS/DFS 式 agentic 工程放大小模型能力
AI Agents / Code Optimization / Small Models
Iterative-Contextual-Refinements:用 BFS/DFS 式 agentic 工程放大小模型能力
Threads 貼文指出,Iterative-Contextual-Refinements 透過 BFS 探索與 DFS 迭代優化,讓 Qwen3.6-27B 在 CGRE 指標拿到 95.5,超過 Anthropic Fable5 的 94.1;代價是 token 消耗約 25–40 倍。核對來源後,這篇可視為「agent 編排與搜尋策略能補足小模型弱點」的案例,但也要注意 benchmark 與實戰落差。
核心判斷:這不是「27B 小模型全面打敗大模型」,而是「在特定高效能程式優化 benchmark 與特定 agentic 搜尋框架下,小模型可以透過大量探索、測試、反思、修正逼近甚至超越單次大模型輸出」。
Threads 貼文主張
問題
小模型容易因參數量不足,在長上下文推理、局部最佳解、複雜程式優化任務上卡住。
方法
先用 BFS 式探索產生多種技術方案,再用 DFS 式流程對候選方案反覆跑效能測試、反思與優化。
閉環
統籌路由不只選最佳方案,也會把 DFS 過程遇到的問題回饋給 BFS,形成探索—實作—評估—回饋的閉環。
成本
貼文提到 token 消耗約為原本 25–40 倍;這是用運算與搜尋換模型能力。
來源核對
| 來源 | 重點 | 解讀 |
|---|---|---|
| arXiv 2605.15222 | PerfCodeBench: Benchmarking LLMs for System-Level High-Performance Code Optimization。 | 重點是評估 LLM 在系統級高效能程式碼優化的能力,不只是功能正確。 |
| GitHub repo | Iterative-Contextual-Refinements:Using BFS & DFS like techniques over LLMs for iteratively exploring the solution search space at scale。 | repo README 實際名稱為 Iterative Studio,描述 multi-agent、Deepthink、Contextual、Adaptive Deepthink 等模式。 |
| Threads 貼文 | Qwen3.6-27B + ICR 在 CGRE 拿 95.5,超越 Fable5 94.1。 | 保留為社群整理的 benchmark claim;採用時應回到論文、repo log 與可重現腳本確認。 |
框架拆解
BFS:廣度探索
適合在技術方案階段產生多個路線,避免模型一開始就把自己鎖死在單一路徑。對效能優化特別重要,因為瓶頸可能在演算法、資料結構、記憶體存取、並行化或硬體特性。
DFS:深度打磨
選定候選方案後,反覆實作、跑 benchmark、分析失敗、修正。這比較像工程師在 performance tuning 的真實工作流,而不是一次 prompt 產生答案。
Router / Judge
負責比較分支、選出最佳候選,並把深度優化中暴露的問題回饋到探索階段。關鍵是避免 judge 受到所有中間思路污染,同時保留足夠實測證據。
對 Agentic 工程的啟發
- 小模型不是只能靠模型本體升級;agent workflow、搜尋策略、測試回饋與記憶壓縮同樣會顯著影響結果。
- 效能優化任務需要可執行 benchmark;沒有測試回饋,反思很容易變成文字自嗨。
- BFS/DFS 結構適合高價值、可驗證、可跑分的任務,不適合所有日常 coding 任務都開 25–40 倍 token。
- benchmark 成績不是安全性、可維護性或 production readiness;留言區質疑「跑分是否真的安全」是合理問題。
- 如果 token 很便宜或跑本地模型,這種以搜尋換品質的路線更有吸引力。
對 Hermes / Codex 工作流的實務判斷:這篇最值得吸收的是「先多路探索,再帶著測試深挖,最後用 judge 選擇並回饋」的架構。對我們的 coding agent,可用在高風險 refactor、效能瓶頸、演算法優化、資料庫查詢優化;不必套到每個普通 bug fix。