Nous 開源 Hermes Agent Self-Evolution：真正有價值的，不只是讓 Agent 自動改 prompt，而是把「行為優化」從人工調參變成可測試、可審查的演化管線

這篇《電腦王阿達》文章在介紹 Nous Research 開源的 Hermes Agent Self-Evolution。表面上它像是在講一個「AI 自己改 prompt」的新玩具，但真正值得記的，不只是 prompt engineering 自動化，而是它把 Agent 的行為優化，推成一條有資料、有測試、有審查的工程化演化管線。

1. 真正的升級，不是自動改 prompt，而是讓優化流程可重複執行

文章描述的流程很清楚：

讀取現有 skill / tool description / system prompt
根據真實執行記錄產生評估資料
用 GEPA 分析失敗原因並提出候選改良版本
候選版本必須通過完整測試
最終以 Pull Request 提交，交由人工審查

這意味著它做的不是「讓模型偶爾反思一下」，而是把反思、修改、驗證、審查串成一個正式迭代循環。

2. GEPA 的訊號：prompt 優化不一定要走重型強化學習

文章把 GEPA 和 GRPO 拿來比較，重點不是單純誰分數高，而是 GEPA 代表另一條路：

不靠大量 rollout 去硬學
而是讓模型閱讀自己的執行軌跡
用自然語言反思找失敗原因
再生成候選改良版本

如果這套方法真的能在大量實務任務上成立，那它對 Agent 世界的影響很大：優化不再等於重型訓練，而更像是「可迭代的行為工程」。

3. 對 Agent 產品來說，下一個競爭點不是功能表，而是自我校正能力

這篇最有價值的判斷在最後一句話：未來 Agent 的競爭維度，不只是哪個模型強、工具多，而是它能不能在使用中持續修正自己的行為方式。

這和一般聊天機器人很不一樣。真正進入工作流的 Agent，一定會遇到：

某個 skill 寫得不好
某個工具描述不夠精準
某段 system prompt 容易誤導模型

如果每次都要人手動微調，成本很高；但如果能把這些缺陷從真實執行軌跡中自動抽出、提出候選修補，再配測試與 PR 審查，那整個系統就開始像軟體工程，而不只是 prompt 工坊。

4. 真正值得注意的是安全邊界：自我進化，不等於自動覆寫

文章也提到一點很重要：Nous 沒有讓它直接寫回正式版本，而是保留 Pull Request + 人工審查。這個設計其實非常合理，因為 Agent 自我優化最危險的地方，就是可能把局部表現提升，卻同時破壞更大的整體穩定性。

所以更成熟的做法不是 fully autonomous self-rewrite，而是：

自動提出候選
自動跑驗證
人類保留合併權

這樣才像可落地的系統。

我的判斷

這篇最值得保留的觀察是：

Hermes Agent Self-Evolution 真正有價值的，不只是讓 Agent 自動優化 skill 或 prompt，而是把 Agent 行為改進做成一條有軌跡資料、有測試、有 PR 審查的演化管線。這代表 AI Agent 的下一個成熟方向，可能不是再多接幾個工具，而是學會更穩定地修正自己。

原始來源： https://www.koc.com.tw/archives/639404