Cua Driver 想做的不是『會點螢幕的 AI』，而是不打擾你的背景 macOS 操作層

這篇 Threads 提到的 Cua Driver，真正有意思的地方，不只是『讓 AI 能操作 Mac』，而是它試圖把 computer use 從前景騷擾，變成背景基礎設施。

一般我們看到的 computer-use agent，大多還停留在一種很吵的模式：搶焦點、移滑鼠、切 Space、把你正在做的事打斷。這種 demo 看起來炫，但一旦放進真實工作流，很快就會變成干擾，而不是助理。

Cua Driver 的核心設計剛好反過來。它的『no-foreground contract』只有一句話：agent 在操作目標 app 時，使用者目前前景中的 app 不應該被改變。換句話說，AI 可以在背景打開、讀取、點擊、輸入另一個 macOS app，但你的游標、焦點、視窗層級、Space 都盡量不被打擾。你可以繼續在編輯器寫程式，另一個 agent 同時在背景跑測試、改 Figma、整理表格。

這件事的價值，在 multi-agent workflow 特別大。當 agent 不再只能像『接管你螢幕的 remote operator』，而是像一層真正的作業系統驅動，整個自動化模型就變了：

一個 agent 可以負責設計工具
一個 agent 可以負責瀏覽器或 Electron app
一個 agent 可以負責測試與驗證
而人類本身不用被迫停下手上的工作

這比單純追求『AI 會不會點按鈕』更關鍵。因為真正能放進工作環境的 agent，不是最像人在搶電腦控制權的 agent，而是最不打擾人的 agent。

從官方文件來看，Cua Driver 目前的做法也不是單一路徑暴力點擊，而是依目標介面能力切成三種模式：

som：同時回傳 AX tree 與 screenshot，讓 agent 兼顧元素定位與視覺判斷
ax：只走 accessibility tree，適合結構化、可精準尋址的 app
vision：只看視窗畫面，適合純視覺導向模型

更重要的是，它不是只處理標準 AX 元件，還特別去補 Chromium / Electron 在背景狀態下 AX tree 容易失效的問題，也處理了 WebView、canvas 類介面這種不容易靠一般 accessibility 做操作的區塊。這意味著它不是為了 demo 設計，而是真的在往『可長時間運行的桌面 agent runtime』方向走。

如果把它放回 Allen 常關注的 agent 協作脈絡，這個專案值得注意的點有三個：

第一，它把 macOS 上的 computer use 從應用層技巧，往驅動層能力推進。這通常比單純做一個 agent framework 更有長期價值。

第二，它直接對接 Claude Code、Codex、Cursor 與任何 MCP client。這代表未來不是某個單一 agent 綁死某個桌面控制器，而是桌面操作能力可能變成一個可插拔、可共享的基礎模組。

第三，它讓 multi-agent 的實際場景更合理。過去大家講多 agent 協作，常常停在『多個模型一起思考』；但如果每個 agent 能同時操作不同 app，而且互不干擾，那才比較接近真正的數位員工編排。

當然，這類能力也不是完全沒有邊界。官方文件明講它需要 macOS 14 以上，而且有些 canvas 型 app 還是可能需要短暫前景啟動；另外它畢竟是在操作真實主機，不是 VM，所以權限與安全界線仍然要小心。

但即使如此，Cua Driver 還是點出了一個很值得記住的方向：computer use 的下一步，不只是讓 AI 看得到桌面，而是讓 AI 在不妨礙你的前提下，真正成為背景勞動力。

如果這條路走通，AI agent 的體感就會從『輪流借用你的電腦』，變成『你在工作時，旁邊真的有幾個數位同事各自在忙』。

來源：