Cua Driver 想做的不是『會點螢幕的 AI』,而是不打擾你的背景 macOS 操作層
這篇 Threads 提到的 Cua Driver,真正有意思的地方,不只是『讓 AI 能操作 Mac』,而是它試圖把 computer use 從前景騷擾,變成背景基礎設施。
一般我們看到的 computer-use agent,大多還停留在一種很吵的模式:搶焦點、移滑鼠、切 Space、把你正在做的事打斷。這種 demo 看起來炫,但一旦放進真實工作流,很快就會變成干擾,而不是助理。
Cua Driver 的核心設計剛好反過來。它的『no-foreground contract』只有一句話:agent 在操作目標 app 時,使用者目前前景中的 app 不應該被改變。換句話說,AI 可以在背景打開、讀取、點擊、輸入另一個 macOS app,但你的游標、焦點、視窗層級、Space 都盡量不被打擾。你可以繼續在編輯器寫程式,另一個 agent 同時在背景跑測試、改 Figma、整理表格。
這件事的價值,在 multi-agent workflow 特別大。當 agent 不再只能像『接管你螢幕的 remote operator』,而是像一層真正的作業系統驅動,整個自動化模型就變了:
- 一個 agent 可以負責設計工具
- 一個 agent 可以負責瀏覽器或 Electron app
- 一個 agent 可以負責測試與驗證
- 而人類本身不用被迫停下手上的工作
這比單純追求『AI 會不會點按鈕』更關鍵。因為真正能放進工作環境的 agent,不是最像人在搶電腦控制權的 agent,而是最不打擾人的 agent。
從官方文件來看,Cua Driver 目前的做法也不是單一路徑暴力點擊,而是依目標介面能力切成三種模式:
- som:同時回傳 AX tree 與 screenshot,讓 agent 兼顧元素定位與視覺判斷
- ax:只走 accessibility tree,適合結構化、可精準尋址的 app
- vision:只看視窗畫面,適合純視覺導向模型
更重要的是,它不是只處理標準 AX 元件,還特別去補 Chromium / Electron 在背景狀態下 AX tree 容易失效的問題,也處理了 WebView、canvas 類介面這種不容易靠一般 accessibility 做操作的區塊。這意味著它不是為了 demo 設計,而是真的在往『可長時間運行的桌面 agent runtime』方向走。
如果把它放回 Allen 常關注的 agent 協作脈絡,這個專案值得注意的點有三個:
第一,它把 macOS 上的 computer use 從應用層技巧,往驅動層能力推進。這通常比單純做一個 agent framework 更有長期價值。
第二,它直接對接 Claude Code、Codex、Cursor 與任何 MCP client。這代表未來不是某個單一 agent 綁死某個桌面控制器,而是桌面操作能力可能變成一個可插拔、可共享的基礎模組。
第三,它讓 multi-agent 的實際場景更合理。過去大家講多 agent 協作,常常停在『多個模型一起思考』;但如果每個 agent 能同時操作不同 app,而且互不干擾,那才比較接近真正的數位員工編排。
當然,這類能力也不是完全沒有邊界。官方文件明講它需要 macOS 14 以上,而且有些 canvas 型 app 還是可能需要短暫前景啟動;另外它畢竟是在操作真實主機,不是 VM,所以權限與安全界線仍然要小心。
但即使如此,Cua Driver 還是點出了一個很值得記住的方向:computer use 的下一步,不只是讓 AI 看得到桌面,而是讓 AI 在不妨礙你的前提下,真正成為背景勞動力。
如果這條路走通,AI agent 的體感就會從『輪流借用你的電腦』,變成『你在工作時,旁邊真的有幾個數位同事各自在忙』。
來源: