Synthetic Computers:AI Agent 訓練的控制點正在從題庫轉向環境工廠

這篇 Threads 介紹 arXiv 論文 Synthetic Computers at Scale for Long-Horizon Productivity Simulation。它的重點不是再做一個 benchmark,也不是多餵一批 synthetic tasks,而是把 AI agent 的訓練單位從「一題任務」升級成「一整台合成電腦」。

論文的核心問題是:如果真實的長期知識工作高度依賴使用者自己的電腦環境,包括資料夾結構、文件、表格、簡報、歷史上下文與協作者,那麼訓練 agent 只給單一任務是否太乾淨、太短、太不像工作?

作者的做法很具體:

  • 先根據 persona 生成 user-specific synthetic computers。
  • 每台 synthetic computer 裡都有 realistic folder hierarchies、documents、spreadsheets、presentations 等內容。
  • 再讓一個 agent 產生符合該使用者背景的 productivity objectives。
  • 另一個 agent 則扮演使用者,在這台電腦裡找檔案、整理資訊、與模擬協作者互動,最後完成多個專業交付物。

論文摘要指出,這些目標不是幾分鐘的小題,而是相當於約一個月人類工作的長期 productivity work。初步實驗規模也不小:

  • 1,000 台 synthetic computers
  • 每次 simulation 超過 8 小時 agent runtime
  • 平均超過 2,000 turns
  • 在 100 台 test computers 上評估

Threads 作者整理的結果是:baseline mean rubric score 為 61.6%,skill-augmented 為 68.6%,提升 7.0 個百分點;從 100 / 500 / 900 台 training computers 抽出的 skills,win rate 從 64% → 75% → 83%。

這裡真正值得記錄的,不是「又漲了幾分」,而是它重新定義了 agent 訓練的資料形態。

過去很多 agent 評測像是:給一題、跑工具、交答案。這適合測短任務,但不適合測長期工作。真實工作裡,agent 必須處理:

  • 檔案在不同資料夾裡,命名不一定規則。
  • 需求分散在文件、表格、投影片與過往紀錄中。
  • 要在多輪行動中保持目標,不被中途資訊帶偏。
  • 要知道何時查資料、何時整理、何時產出。
  • 要與模擬或真實協作者對齊。
  • 最後交付的是文件、表格、簡報等專業 artifacts,而不是一句答案。

所以這篇的戰略訊號是:agent 的下一個控制點可能不是「誰有最多題庫」,而是「誰能批量製造可信的工作世界」。

這可以叫 environment factory。

如果一家公司能大量生成不同職業、不同公司、不同資料夾習慣、不同文件風格、不同專案脈絡的 synthetic computers,就能讓 agent 在接近真實工作的環境裡累積 experiential learning signals。這比單純問答資料更接近 agentic reinforcement learning 的需求。

但這篇也不能吹太滿。限制至少有三個:

  1. 成本非常高

每次 simulation 超過 8 小時、2,000 turns,這不是一般團隊明天就能 daily run 的 pipeline。它更像大模型公司或大型研究團隊才負擔得起的資料工廠。

  1. 論文本身仍是 preview / work in progress

arXiv 頁面標註 Preview version; work in progress。數據要保守看,不能當成已成熟定論。

  1. synthetic world 再真,也比企業內部環境乾淨

真實企業環境有權限問題、舊系統、壞資料、政治脈絡、責任歸屬、模糊需求、跨部門溝通與安全限制。Synthetic computers 可以逼近,但很難完整複製。

對 BigIntTech / Hermes / 工多多這類 agent 產品的啟發:

  • Agent 訓練與評測不能只看單次任務成功率,要看長期工作環境裡的持續穩定度。
  • 未來若要做垂直 agent,例如財務、專案管理、法務、營運,應該建立「合成公司環境」而不是只建立 prompt 測試題。
  • 好的 agent benchmark 應包含檔案、歷史資料、例外狀況、協作者訊息、工具權限與交付物格式。
  • Skill extraction 會很重要:agent 在不同 synthetic environments 裡學到的可重用 workflow,可能比單一任務答案更有價值。

我的判斷:

這篇 paper 指向一個很重要的方向:AI agent 的能力提升,會越來越像「在世界裡練習」,而不是「在題庫裡刷題」。誰能批量造世界、批量跑長期 rollout、批量萃取技能,誰就能在 agent self-improvement 上取得更高地位。

參考來源:

原始來源:https://www.threads.com/@james.leo.lai/post/DX0T4dQj0jV?xmt=AQF0htQIFC6MHMceVvdix_LXo3G4T0uU8OVDgoGXb-NHxAG8dMiwh0GPZTvsYaU7dkLRLwA&slof=1

Synthetic Computers:AI Agent 訓練的控制點正在從題庫轉向環境工廠 | Allen 知識庫 | Allen 知識庫