Synthetic Computers:AI Agent 訓練的控制點正在從題庫轉向環境工廠
這篇 Threads 介紹 arXiv 論文 Synthetic Computers at Scale for Long-Horizon Productivity Simulation。它的重點不是再做一個 benchmark,也不是多餵一批 synthetic tasks,而是把 AI agent 的訓練單位從「一題任務」升級成「一整台合成電腦」。
論文的核心問題是:如果真實的長期知識工作高度依賴使用者自己的電腦環境,包括資料夾結構、文件、表格、簡報、歷史上下文與協作者,那麼訓練 agent 只給單一任務是否太乾淨、太短、太不像工作?
作者的做法很具體:
- 先根據 persona 生成 user-specific synthetic computers。
- 每台 synthetic computer 裡都有 realistic folder hierarchies、documents、spreadsheets、presentations 等內容。
- 再讓一個 agent 產生符合該使用者背景的 productivity objectives。
- 另一個 agent 則扮演使用者,在這台電腦裡找檔案、整理資訊、與模擬協作者互動,最後完成多個專業交付物。
論文摘要指出,這些目標不是幾分鐘的小題,而是相當於約一個月人類工作的長期 productivity work。初步實驗規模也不小:
- 1,000 台 synthetic computers
- 每次 simulation 超過 8 小時 agent runtime
- 平均超過 2,000 turns
- 在 100 台 test computers 上評估
Threads 作者整理的結果是:baseline mean rubric score 為 61.6%,skill-augmented 為 68.6%,提升 7.0 個百分點;從 100 / 500 / 900 台 training computers 抽出的 skills,win rate 從 64% → 75% → 83%。
這裡真正值得記錄的,不是「又漲了幾分」,而是它重新定義了 agent 訓練的資料形態。
過去很多 agent 評測像是:給一題、跑工具、交答案。這適合測短任務,但不適合測長期工作。真實工作裡,agent 必須處理:
- 檔案在不同資料夾裡,命名不一定規則。
- 需求分散在文件、表格、投影片與過往紀錄中。
- 要在多輪行動中保持目標,不被中途資訊帶偏。
- 要知道何時查資料、何時整理、何時產出。
- 要與模擬或真實協作者對齊。
- 最後交付的是文件、表格、簡報等專業 artifacts,而不是一句答案。
所以這篇的戰略訊號是:agent 的下一個控制點可能不是「誰有最多題庫」,而是「誰能批量製造可信的工作世界」。
這可以叫 environment factory。
如果一家公司能大量生成不同職業、不同公司、不同資料夾習慣、不同文件風格、不同專案脈絡的 synthetic computers,就能讓 agent 在接近真實工作的環境裡累積 experiential learning signals。這比單純問答資料更接近 agentic reinforcement learning 的需求。
但這篇也不能吹太滿。限制至少有三個:
- 成本非常高
每次 simulation 超過 8 小時、2,000 turns,這不是一般團隊明天就能 daily run 的 pipeline。它更像大模型公司或大型研究團隊才負擔得起的資料工廠。
- 論文本身仍是 preview / work in progress
arXiv 頁面標註 Preview version; work in progress。數據要保守看,不能當成已成熟定論。
- synthetic world 再真,也比企業內部環境乾淨
真實企業環境有權限問題、舊系統、壞資料、政治脈絡、責任歸屬、模糊需求、跨部門溝通與安全限制。Synthetic computers 可以逼近,但很難完整複製。
對 BigIntTech / Hermes / 工多多這類 agent 產品的啟發:
- Agent 訓練與評測不能只看單次任務成功率,要看長期工作環境裡的持續穩定度。
- 未來若要做垂直 agent,例如財務、專案管理、法務、營運,應該建立「合成公司環境」而不是只建立 prompt 測試題。
- 好的 agent benchmark 應包含檔案、歷史資料、例外狀況、協作者訊息、工具權限與交付物格式。
- Skill extraction 會很重要:agent 在不同 synthetic environments 裡學到的可重用 workflow,可能比單一任務答案更有價值。
我的判斷:
這篇 paper 指向一個很重要的方向:AI agent 的能力提升,會越來越像「在世界裡練習」,而不是「在題庫裡刷題」。誰能批量造世界、批量跑長期 rollout、批量萃取技能,誰就能在 agent self-improvement 上取得更高地位。
參考來源:
- Threads 原文:https://www.threads.com/@james.leo.lai/post/DX0T4dQj0jV
- arXiv: Synthetic Computers at Scale for Long-Horizon Productivity Simulation, Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao, arXiv:2604.28181