Synthetic Computers：AI Agent 訓練的控制點正在從題庫轉向環境工廠

這篇 Threads 介紹 arXiv 論文 Synthetic Computers at Scale for Long-Horizon Productivity Simulation。它的重點不是再做一個 benchmark，也不是多餵一批 synthetic tasks，而是把 AI agent 的訓練單位從「一題任務」升級成「一整台合成電腦」。

論文的核心問題是：如果真實的長期知識工作高度依賴使用者自己的電腦環境，包括資料夾結構、文件、表格、簡報、歷史上下文與協作者，那麼訓練 agent 只給單一任務是否太乾淨、太短、太不像工作？

作者的做法很具體：

先根據 persona 生成 user-specific synthetic computers。
每台 synthetic computer 裡都有 realistic folder hierarchies、documents、spreadsheets、presentations 等內容。
再讓一個 agent 產生符合該使用者背景的 productivity objectives。
另一個 agent 則扮演使用者，在這台電腦裡找檔案、整理資訊、與模擬協作者互動，最後完成多個專業交付物。

論文摘要指出，這些目標不是幾分鐘的小題，而是相當於約一個月人類工作的長期 productivity work。初步實驗規模也不小：

1,000 台 synthetic computers
每次 simulation 超過 8 小時 agent runtime
平均超過 2,000 turns
在 100 台 test computers 上評估

Threads 作者整理的結果是：baseline mean rubric score 為 61.6%，skill-augmented 為 68.6%，提升 7.0 個百分點；從 100 / 500 / 900 台 training computers 抽出的 skills，win rate 從 64% → 75% → 83%。

這裡真正值得記錄的，不是「又漲了幾分」，而是它重新定義了 agent 訓練的資料形態。

過去很多 agent 評測像是：給一題、跑工具、交答案。這適合測短任務，但不適合測長期工作。真實工作裡，agent 必須處理：

檔案在不同資料夾裡，命名不一定規則。
需求分散在文件、表格、投影片與過往紀錄中。
要在多輪行動中保持目標，不被中途資訊帶偏。
要知道何時查資料、何時整理、何時產出。
要與模擬或真實協作者對齊。
最後交付的是文件、表格、簡報等專業 artifacts，而不是一句答案。

所以這篇的戰略訊號是：agent 的下一個控制點可能不是「誰有最多題庫」，而是「誰能批量製造可信的工作世界」。

這可以叫 environment factory。

如果一家公司能大量生成不同職業、不同公司、不同資料夾習慣、不同文件風格、不同專案脈絡的 synthetic computers，就能讓 agent 在接近真實工作的環境裡累積 experiential learning signals。這比單純問答資料更接近 agentic reinforcement learning 的需求。

但這篇也不能吹太滿。限制至少有三個：

成本非常高

每次 simulation 超過 8 小時、2,000 turns，這不是一般團隊明天就能 daily run 的 pipeline。它更像大模型公司或大型研究團隊才負擔得起的資料工廠。

論文本身仍是 preview / work in progress

arXiv 頁面標註 Preview version; work in progress。數據要保守看，不能當成已成熟定論。

synthetic world 再真，也比企業內部環境乾淨

真實企業環境有權限問題、舊系統、壞資料、政治脈絡、責任歸屬、模糊需求、跨部門溝通與安全限制。Synthetic computers 可以逼近，但很難完整複製。

對 BigIntTech / Hermes / 工多多這類 agent 產品的啟發：

Agent 訓練與評測不能只看單次任務成功率，要看長期工作環境裡的持續穩定度。
未來若要做垂直 agent，例如財務、專案管理、法務、營運，應該建立「合成公司環境」而不是只建立 prompt 測試題。
好的 agent benchmark 應包含檔案、歷史資料、例外狀況、協作者訊息、工具權限與交付物格式。
Skill extraction 會很重要：agent 在不同 synthetic environments 裡學到的可重用 workflow，可能比單一任務答案更有價值。

我的判斷：

這篇 paper 指向一個很重要的方向：AI agent 的能力提升，會越來越像「在世界裡練習」，而不是「在題庫裡刷題」。誰能批量造世界、批量跑長期 rollout、批量萃取技能，誰就能在 agent self-improvement 上取得更高地位。

參考來源：

Threads 原文：https://www.threads.com/@james.leo.lai/post/DX0T4dQj0jV
arXiv: Synthetic Computers at Scale for Long-Horizon Productivity Simulation, Tao Ge, Baolin Peng, Hao Cheng, Jianfeng Gao, arXiv:2604.28181

原始來源：https://www.threads.com/@james.leo.lai/post/DX0T4dQj0jV?xmt=AQF0htQIFC6MHMceVvdix_LXo3G4T0uU8OVDgoGXb-NHxAG8dMiwh0GPZTvsYaU7dkLRLwA&slof=1