Meta-Harness:史丹佛讓 AI 自己設計 Harness,性能提升 7.7 分、Token 消耗降至 1/4
核心概念
模型(如 GPT-4)是大腦,Harness(外殼程式) 是身體——負責決定模型看什麼資料、怎麼存記憶、如何回答問題。
關鍵洞察:僅改變 Harness 設計,在同一基準測試上可能產生 6 倍的性能差距。
Meta-Harness 是史丹佛大學等機構研究者推出的系統,讓 AI 自己設計自己的 Harness,而不是由工程師手動編寫。
傳統 Harness 的問題
傳統自動化工具(文本優化器)改進程式碼時:
- 只看一個簡單的分數
- 不知道具體是哪一步做錯了
- 沒有存下足夠的歷史資訊做因果推理
Meta-Harness 的做法
1. 檔案系統(Filesystem)
把每一次嘗試的「原始程式碼」、「推理過程」和「錯誤訊息」全部存起來,不壓縮。
2. Coding Agent
請一個會寫程式的 AI 當建築師,用指令翻閱檔案,尋找失敗原因。
Meta-Harness 提供的上下文資訊(Mtok/iter)遠超其他方法,使深度因果推理成為可能。
因果推理的關鍵能力
真實案例:
- 嘗試 A:改了邏輯和 Prompt,分數下降
- 分析:代理人翻閱日誌後發現——分數下降不是邏輯錯誤,是 Prompt 改得太囉嗦,重要資訊被刪掉了
- 修復:撤銷 Prompt 修改,保留邏輯修改 → 分數大幅提升
這個「發現問題 → 形成假設 → 驗證修復」循環,讓 Meta-Harness 能超越人類手動設計。
性能成果
- 準確率提升:+7.7 分
- Token 消耗:只有人類設計方案的 1/4
- 國際數學奧林匹克(IMO)難題:自動研發出檢索策略,不同模型平均得分提升 +4.7%
- Terminal-Bench 2.0:達到 76.4%(使用 Claude Opus 4.6)
- 收斂速度:只需 4 次評估即可達到其他最先進方法的最終水準
延伸意義
Meta-Harness 的出現說明:Agent 能力的瓶頸不在模型本身,在於如何設計調度它的架構——這和本週 claw-code / free-code / everything-claude-code 的討論方向完全一致。