Microsoft Fara-7B:可本地部署的 7B Computer Use Agent 小模型
AI Agent / Local Model / Computer Use
Microsoft Fara-7B:可本地部署的 7B Computer Use Agent
Threads 貼文介紹 Microsoft Fara-7B:一個專攻本地桌面/網頁操作的 Computer Use Agent 小模型。核對 GitHub README 後,Fara-7B 是 Microsoft 第一個專為 computer use 設計的 agentic small language model,只有 7B 參數,透過視覺感知網頁並直接預測座標來執行點擊、輸入、滾動等多步任務。
定位:Fara-7B 的價值不是聊天,而是讓 agent 低成本操作電腦介面。它特別適合研究「資料不出本機、少付 API 成本」的 computer-use workflow。
官方 README 重點
模型大小
7B parameters;Microsoft 稱其為 ultra-compact Computer Use Agent。
操作方式
不依賴 accessibility tree 或額外 parsing model,而是視覺理解頁面後直接預測座標操作。
效率
README 稱平均約 16 steps 完成任務,低於可比較模型約 41 steps 的路徑長度。
本地試用
官方示例使用 vLLM serve microsoft/Fara-7B,再用 fara-cli 或 Magentic-UI 執行任務。
Benchmark 訊號
| 模型 | WebVoyager | Online-M2W | DeepShop | WebTailBench |
|---|---|---|---|---|
| OpenAI computer-use-preview | 70.9 | 42.9 | 24.7 | 25.7 |
| UI-TARS-1.5-7B | 66.4 | 31.3 | 11.6 | 19.5 |
| Fara-7B | 73.5 | 34.1 | 26.2 | 38.4 |
這些數字代表 Fara-7B 在同類 computer-use model 中很有競爭力,尤其 WebVoyager、DeepShop、WebTailBench;但它不是在所有指標都超越所有大型 agent 系統。例如 README 表格中 SoM Agent(GPT-4o-0513)在部分 benchmark 仍更高。
快速試用輪廓
git clone https://github.com/microsoft/fara.git cd fara python3 -m venv .venv source .venv/bin/activate pip install -e . playwright install
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto fara-cli --task "whats the weather in new york now"
導入前判斷
- 適合:本地 computer-use 實驗、低敏感資料自動化、網頁任務 benchmark、UI 操作研究。
- 不適合:需要強語意推理、長期記憶、複雜跨系統權限處理的完整企業流程。
- Mac/Windows 使用者要注意 vLLM、Playwright、GPU 記憶體與 WSL2 等部署細節。
- 即使本地模型保護資料不送雲端,仍要隔離瀏覽器 profile、憑證、付款與不可逆操作。
對 Hermes / OpenClaw 的啟發:Fara-7B 顯示 computer-use model 正在往小模型、本地部署、座標直接操作走。短期可作為瀏覽器/桌面自動化的專用執行器,而不是拿來取代主 agent 的規劃與審核能力。