Meta-Harness：史丹佛讓 AI 自己設計 Harness，性能提升 7.7 分、Token 消耗降至 1/4

核心概念

模型（如 GPT-4）是大腦，Harness（外殼程式） 是身體——負責決定模型看什麼資料、怎麼存記憶、如何回答問題。

關鍵洞察：僅改變 Harness 設計，在同一基準測試上可能產生 6 倍的性能差距。

Meta-Harness 是史丹佛大學等機構研究者推出的系統，讓 AI 自己設計自己的 Harness，而不是由工程師手動編寫。

傳統自動化工具（文本優化器）改進程式碼時：

把每一次嘗試的「原始程式碼」、「推理過程」和「錯誤訊息」全部存起來，不壓縮。

請一個會寫程式的 AI 當建築師，用指令翻閱檔案，尋找失敗原因。

Meta-Harness 提供的上下文資訊（Mtok/iter）遠超其他方法，使深度因果推理成為可能。

真實案例：

這個「發現問題 → 形成假設 → 驗證修復」循環，讓 Meta-Harness 能超越人類手動設計。

Meta-Harness 的出現說明：Agent 能力的瓶頸不在模型本身，在於如何設計調度它的架構——這和本週 claw-code / free-code / everything-claude-code 的討論方向完全一致。