Simon Willison 的 Agentic Engineering 新模式
Simon Willison 的 Agentic Engineering 新模式
基本資訊
- 作者: ainnoforge
- 來源: Threads
- 發布時間: 2026-03-06 21:16(21 小時前)
- 觀看數: 870
- 社群反應: 8 讚、1 則留言、1 收藏、5 分享
- 原文連結: Threads
核心觀點
諷刺的現象
「這真的有夠諷刺,AI 都能寫出萬行代碼了,結果 Simon Willison 還是得教它用 curl 這種老方法來確認伺服器有沒有當機。」
Simon Willison 的新模式
核心理念
「絕對不要相信 AI 生成的代碼,除非它親自執行過。」
傳統做法的問題
以前的習慣
讓 AI 寫單元測試
問題
「測試全過不代表程式沒當機。」
新的解決方案
手動測試也交給 AI
工具:
- curl: 探索 API
- Playwright: 瀏覽器自動化工具去截圖
檢查標準:
- 畫面有沒有歪
- 按鈕有沒有出來
- 如果有問題,AI 要自己看截圖修到好
流程閉環
自己寫、自己測、自己修
效果:
- 不再只是「看起來正確」
- 而是「真的能用」
作者補充(ainnoforge)
實戰觀察
「根據我們在實戰中的觀察,開發過程有將近 40% 的時間是在處理『這程式在本地明明可以跑』的低級錯誤。」
影響:
「對我們這種追求效率的人來說,這種反覆確認最消耗能量。」
uvx 技巧
關鍵做法
不用預先準備: 不用預先幫 AI 準備好所有測試工具
直接給權限: 直接給它權限去執行
效果
角色轉變:
- 從:「聽令行事的打字員」
- 變成:「對結果負責的執行者」
Showboat 工具
功能
「能強迫 AI 把測試過程記錄成文件,防止 AI 在沒跑過的情況下『假裝』測試成功。」
價值
不只是省時間:
「更重要的是建立了我們對 AI 產出的信任。」
核心問題:
「如果 AI 沒辦法證明它跑過,那它寫再快對生意來說都是風險。」
比喻
「這就像請了一個時速 200 公里的外送員,但他從不確認餐點有沒有送到客人口中。」
關鍵洞察
1️⃣ 單元測試不夠
問題: 測試全過 ≠ 程式沒當機
解決: 加上手動測試(curl、Playwright)
💡 教訓: 自動化測試需要涵蓋真實使用場景
2️⃣ 40% 時間浪費在低級錯誤
現象: 「這程式在本地明明可以跑」
影響: 消耗能量、降低效率
💡 教訓: 環境一致性至關重要
3️⃣ 從打字員到執行者
傳統 AI: 聽令行事的打字員
新模式: 對結果負責的執行者
關鍵: uvx - 給 AI 權限直接執行工具
💡 教訓: 授權 AI 自主執行提高可靠性
4️⃣ 截圖驗證
工具: Playwright
檢查項目:
- 畫面有沒有歪
- 按鈕有沒有出來
行動: AI 自己看截圖修到好
💡 教訓: 視覺驗證捕捉 UI 問題
5️⃣ Showboat 強制記錄
功能: 防止 AI 假裝測試成功
價值: 建立對 AI 產出的信任
類比: 時速 200 公里的外送員 vs 確認送達
💡 教訓: 可驗證性比速度更重要
6️⃣ 閉環流程
完整循環: 寫 → 測 → 修 → 驗證
效果:
- 看起來正確 → 真的能用
- 理論正確 → 實戰可靠
💡 教訓: 完整閉環確保品質
7️⃣ 信任建立
問題: AI 寫再快,沒證明就是風險
解決: 強制執行並記錄測試過程
商業價值: 對生意負責,不只是對代碼負責
💡 教訓: 生產環境需要可追溯性
與相關文章關聯
AI Agent 自主運行系列
相關文章:
- #129: AI Agent 自主運行的守夜人協議
- #133: AI Agent 預算控制與報告
- #135: AI 自主改善自己的代碼
- #136: 守夜人協議:AI Agent 自主運行的完整框架
- #161: Simon Willison 的 Agentic Engineering(本文)
共同主題: AI Agent 的自主性、可靠性、可信度
ainnoforge 系列
作者: ainnoforge(11 篇,3 篇有爭議)
本文狀態: ✅ 無明顯爭議
- 引用 Simon Willison(知名 AI 專家)
- 實戰數據(40% 時間)合理
- 工具真實存在(curl、Playwright、uvx、Showboat)
技術背景
Simon Willison
身份: 知名 AI 專家、開發者
貢獻:
- Django 框架共同創建者
- Datasette 創建者
- AI 工具和工作流程專家
curl
定義: 命令列工具,用於傳輸數據
用途: 測試 API、檢查伺服器狀態
Playwright
定義: 瀏覽器自動化工具
功能:
- 截圖
- 模擬用戶操作
- 檢查 UI 元素
uvx
推測: uv 的執行工具(Python 套件管理器)
功能: 直接執行工具而不需預先安裝
Showboat
開發者: Simon Willison
功能: 強制 AI 記錄測試過程
價值: 防止假裝測試成功
實戰應用
使用場景
AI 輔助開發:
- AI 寫代碼
- AI 自己執行 curl 測試 API
- AI 用 Playwright 截圖檢查 UI
- 發現問題 → AI 自己修復
- Showboat 記錄整個過程
工具鏈
# AI 自主測試
uvx curl http://localhost:3000/api/health
uvx playwright screenshot http://localhost:3000
# 強制記錄
showboat record "API 測試" -- curl http://localhost:3000/api/health
標籤
#Simon Willison #Agentic Engineering #AI 代碼 #curl #Playwright #uvx #Showboat #自動化測試 #手動測試 #截圖驗證 #閉環流程 #信任建立 #40% 時間浪費 #對結果負責 #ainnoforge