Claw-Eval-Live:Agent Benchmark 正在從答案評分轉向執行證據

這篇 Threads 介紹 arXiv 論文 Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows。表面上它是一個新的 workflow agent benchmark:105 個任務、17 個 families、13 個 frontier models,第一名 Claude Opus 4.6 也只過 66.7%,沒有模型超過 70%。但更值得記下的不是分數,而是它把 agent benchmark 的核心從「最後回答像不像」推向「可驗證的執行證據」。

原文作者的觀察很準:如果只看 66.7% 這個數字,會很容易得到一個太快的結論——模型還不夠強,題目再做難一點就好。但 Claw-Eval-Live 真正改寫的是 benchmark 到底在驗什麼。

Claw-Eval-Live 的設計重點

這篇 paper 要解的是兩個老問題。

第一,很多 agent benchmark 在發表那天就把題庫凍住。任務集固定後,外部工作流需求繼續變,工具棧繼續變,企業瓶頸也繼續變,但 benchmark 的任務組合不再反映市場。

第二,很多 benchmark 主要評 final response。這會造成一個嚴重盲點:模型最後講得很像做完了,但它到底有沒有真的查資料、改狀態、寫檔案、呼叫服務、留下可稽核的行動證據,不一定看得出來。

Claw-Eval-Live 把 benchmark 拆成兩層:

  • signal layer:會隨公開 workflow demand signals 更新。這版使用 ClawHub Top-500 skills 作為需求訊號來源。
  • release snapshot:每一季固定成可重跑、可比較的時間戳版本。

也就是說,它不是每次都亂變,而是把「活的市場需求」和「可重現的評測快照」分開。這個設計很重要:benchmark 可以跟著需求更新,但每個 release 仍然能被重跑與追溯。

Evidence contract:真正關鍵的轉向

Claw-Eval-Live 的更大價值在 grading。它不只看最後答案,而是讀:

  • execution traces
  • audit logs
  • service state
  • post-run workspace artifacts

能用 deterministic checks 的地方就先用 deterministic checks;只有真正涉及語意判斷的部分,才交給 structured LLM judging。論文甚至明講,judge model 用 GPT-5.4,但它不是把 judge 當成人類裁判,而是把 judge 限縮在 deterministic evidence 無法覆蓋的語意維度,並把 task prompt、agent trace、observable actions、rubric 一起交給 judge。

這其實是在重寫 agent benchmark 的 evidence contract:

不是問「這個回答看起來有沒有完成」,而是問「這個 agent 有沒有真的做、做的過程能不能回讀、失敗時能不能追責」。

結果透露的能力斷層

論文公開 leaderboard:

  • Claude Opus 4.6:66.7% pass rate,overall 83.6
  • GPT-5.4:63.8%,overall 81.7
  • Claude Sonnet 4.6:61.9%,overall 79.9
  • GLM-5:61.9%,overall 78.1

看起來大家都還沒到可靠自動化。更有意思的是,失敗不是平均分布。

Development / Terminal 類任務對強模型已經接近天花板:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6 在這個 grouped slice 都達到 100%。但 HR / People 非常難,沒有模型超過 22.2%,一些模型甚至是 0%。MGMT 在 public pass rule 下全 fail,WORKFLOW 平均也只有 12.8%。

服務型 business workflows 比本地 workspace repair 難很多。workspace slice 所有模型至少 72.2%,但 service-backed workflows 沒有模型超過 59.8%。這代表當前 agent 的瓶頸不是「會不會用 terminal」,而是能不能跨多個服務維持狀態、抓對證據、連對 entity、執行必要 writes,並讓結果可稽核。

對 BigIntTech / Hermes 的啟發

這篇對我們有兩個直接啟發。

第一,評估 agent 不應該只看 final answer。Hermes、Forge、Archivist 這類 agent 如果要變成可靠的營運工具,評測與驗收要看工具呼叫紀錄、檔案 diff、API 狀態、DB 狀態、外部 side effect、post-run artifacts,而不是只看最後一段回報。

第二,workflow benchmark 應該跟真實需求綁定。若我們要建立自己的 internal benchmark,不該只手寫一批靜態題目,而應該從實際任務來源抽樣:Allen 丟的 Threads / KB 上架、月結收據、GitLab MR review、工多多 issue、行事曆同步、Google Sheet 對帳。這些才是真正會反覆發生、且能驗證 agent 是否有商業價值的 workflow。

我的判斷

這篇 paper 的核心不是「Claude Opus 4.6 第一」或「GPT-5.4 CP 值高」。真正重要的是:agent 評測正在從 answer evaluation 走向 action-grounded evaluation。

下一階段的 agent moat 可能不只是模型能力,而是整套可稽核執行基礎設施:trace、audit log、service state、workspace artifact、deterministic grader、semantic judge 的邊界設計。能把這些做好的人,才有資格說 agent 真的能接業務流程。

原始來源: https://www.threads.com/@james.leo.lai/post/DX5dQwuj8cS

論文: https://arxiv.org/abs/2604.28139

Claw-Eval-Live:Agent Benchmark 正在從答案評分轉向執行證據 | Allen 知識庫 | Allen 知識庫