Iterative-Contextual-Refinements：用 BFS/DFS 式 agentic 工程放大小模型能力

AI Agents / Code Optimization / Small Models

Threads 貼文指出，Iterative-Contextual-Refinements 透過 BFS 探索與 DFS 迭代優化，讓 Qwen3.6-27B 在 CGRE 指標拿到 95.5，超過 Anthropic Fable5 的 94.1；代價是 token 消耗約 25–40 倍。核對來源後，這篇可視為「agent 編排與搜尋策略能補足小模型弱點」的案例，但也要注意 benchmark 與實戰落差。

核心判斷：這不是「27B 小模型全面打敗大模型」，而是「在特定高效能程式優化 benchmark 與特定 agentic 搜尋框架下，小模型可以透過大量探索、測試、反思、修正逼近甚至超越單次大模型輸出」。

Threads 貼文主張

問題

小模型容易因參數量不足，在長上下文推理、局部最佳解、複雜程式優化任務上卡住。

方法

先用 BFS 式探索產生多種技術方案，再用 DFS 式流程對候選方案反覆跑效能測試、反思與優化。

閉環

統籌路由不只選最佳方案，也會把 DFS 過程遇到的問題回饋給 BFS，形成探索—實作—評估—回饋的閉環。

成本

貼文提到 token 消耗約為原本 25–40 倍；這是用運算與搜尋換模型能力。

來源核對

來源	重點	解讀
arXiv 2605.15222	PerfCodeBench: Benchmarking LLMs for System-Level High-Performance Code Optimization。	重點是評估 LLM 在系統級高效能程式碼優化的能力，不只是功能正確。
GitHub repo	Iterative-Contextual-Refinements：Using BFS & DFS like techniques over LLMs for iteratively exploring the solution search space at scale。	repo README 實際名稱為 Iterative Studio，描述 multi-agent、Deepthink、Contextual、Adaptive Deepthink 等模式。
Threads 貼文	Qwen3.6-27B + ICR 在 CGRE 拿 95.5，超越 Fable5 94.1。	保留為社群整理的 benchmark claim；採用時應回到論文、repo log 與可重現腳本確認。

框架拆解

BFS：廣度探索

適合在技術方案階段產生多個路線，避免模型一開始就把自己鎖死在單一路徑。對效能優化特別重要，因為瓶頸可能在演算法、資料結構、記憶體存取、並行化或硬體特性。

DFS：深度打磨

選定候選方案後，反覆實作、跑 benchmark、分析失敗、修正。這比較像工程師在 performance tuning 的真實工作流，而不是一次 prompt 產生答案。

Router / Judge

負責比較分支、選出最佳候選，並把深度優化中暴露的問題回饋到探索階段。關鍵是避免 judge 受到所有中間思路污染，同時保留足夠實測證據。

對 Agentic 工程的啟發

小模型不是只能靠模型本體升級；agent workflow、搜尋策略、測試回饋與記憶壓縮同樣會顯著影響結果。
效能優化任務需要可執行 benchmark；沒有測試回饋，反思很容易變成文字自嗨。
BFS/DFS 結構適合高價值、可驗證、可跑分的任務，不適合所有日常 coding 任務都開 25–40 倍 token。
benchmark 成績不是安全性、可維護性或 production readiness；留言區質疑「跑分是否真的安全」是合理問題。
如果 token 很便宜或跑本地模型，這種以搜尋換品質的路線更有吸引力。

對 Hermes / Codex 工作流的實務判斷：這篇最值得吸收的是「先多路探索，再帶著測試深挖，最後用 judge 選擇並回饋」的架構。對我們的 coding agent，可用在高風險 refactor、效能瓶頸、演算法優化、資料庫查詢優化；不必套到每個普通 bug fix。

來源