Simon Willison 的 Agentic Engineering 新模式

基本資訊

作者: ainnoforge
來源: Threads
發布時間: 2026-03-06 21:16（21 小時前）
觀看數: 870
社群反應: 8 讚、1 則留言、1 收藏、5 分享
原文連結: Threads

核心觀點

諷刺的現象

「這真的有夠諷刺，AI 都能寫出萬行代碼了，結果 Simon Willison 還是得教它用 curl 這種老方法來確認伺服器有沒有當機。」

Simon Willison 的新模式

核心理念

「絕對不要相信 AI 生成的代碼，除非它親自執行過。」

傳統做法的問題

以前的習慣

讓 AI 寫單元測試

問題

「測試全過不代表程式沒當機。」

新的解決方案

手動測試也交給 AI

工具:

curl: 探索 API
Playwright: 瀏覽器自動化工具去截圖

檢查標準:

畫面有沒有歪
按鈕有沒有出來
如果有問題，AI 要自己看截圖修到好

流程閉環

自己寫、自己測、自己修

效果:

不再只是「看起來正確」
而是「真的能用」

作者補充（ainnoforge）

實戰觀察

「根據我們在實戰中的觀察，開發過程有將近 40% 的時間是在處理『這程式在本地明明可以跑』的低級錯誤。」

影響:

「對我們這種追求效率的人來說，這種反覆確認最消耗能量。」

uvx 技巧

關鍵做法

不用預先準備: 不用預先幫 AI 準備好所有測試工具

直接給權限: 直接給它權限去執行

效果

角色轉變:

從：「聽令行事的打字員」
變成：「對結果負責的執行者」

Showboat 工具

功能

「能強迫 AI 把測試過程記錄成文件，防止 AI 在沒跑過的情況下『假裝』測試成功。」

價值

不只是省時間:

「更重要的是建立了我們對 AI 產出的信任。」

核心問題:

「如果 AI 沒辦法證明它跑過，那它寫再快對生意來說都是風險。」

比喻

「這就像請了一個時速 200 公里的外送員，但他從不確認餐點有沒有送到客人口中。」

關鍵洞察

1️⃣ 單元測試不夠

問題: 測試全過 ≠ 程式沒當機

解決: 加上手動測試（curl、Playwright）

💡 教訓: 自動化測試需要涵蓋真實使用場景

2️⃣ 40% 時間浪費在低級錯誤

現象: 「這程式在本地明明可以跑」

影響: 消耗能量、降低效率

💡 教訓: 環境一致性至關重要

3️⃣ 從打字員到執行者

傳統 AI: 聽令行事的打字員

新模式: 對結果負責的執行者

關鍵: uvx - 給 AI 權限直接執行工具

💡 教訓: 授權 AI 自主執行提高可靠性

4️⃣ 截圖驗證

工具: Playwright

檢查項目:

畫面有沒有歪
按鈕有沒有出來

行動: AI 自己看截圖修到好

💡 教訓: 視覺驗證捕捉 UI 問題

5️⃣ Showboat 強制記錄

功能: 防止 AI 假裝測試成功

價值: 建立對 AI 產出的信任

類比: 時速 200 公里的外送員 vs 確認送達

💡 教訓: 可驗證性比速度更重要

6️⃣ 閉環流程

完整循環: 寫 → 測 → 修 → 驗證

效果:

看起來正確 → 真的能用
理論正確 → 實戰可靠

💡 教訓: 完整閉環確保品質

7️⃣ 信任建立

問題: AI 寫再快，沒證明就是風險

解決: 強制執行並記錄測試過程

商業價值: 對生意負責，不只是對代碼負責

💡 教訓: 生產環境需要可追溯性

與相關文章關聯

AI Agent 自主運行系列

相關文章:

#129: AI Agent 自主運行的守夜人協議
#133: AI Agent 預算控制與報告
#135: AI 自主改善自己的代碼
#136: 守夜人協議：AI Agent 自主運行的完整框架
#161: Simon Willison 的 Agentic Engineering（本文）

共同主題: AI Agent 的自主性、可靠性、可信度

ainnoforge 系列

作者: ainnoforge（11 篇，3 篇有爭議）

本文狀態: ✅ 無明顯爭議

引用 Simon Willison（知名 AI 專家）
實戰數據（40% 時間）合理
工具真實存在（curl、Playwright、uvx、Showboat）

技術背景

Simon Willison

身份: 知名 AI 專家、開發者

貢獻:

Django 框架共同創建者
Datasette 創建者
AI 工具和工作流程專家

curl

定義: 命令列工具，用於傳輸數據

用途: 測試 API、檢查伺服器狀態

Playwright

定義: 瀏覽器自動化工具

功能:

截圖
模擬用戶操作
檢查 UI 元素

uvx

推測: uv 的執行工具（Python 套件管理器）

功能: 直接執行工具而不需預先安裝

Showboat

開發者: Simon Willison

功能: 強制 AI 記錄測試過程

價值: 防止假裝測試成功

實戰應用

使用場景

AI 輔助開發:

AI 寫代碼
AI 自己執行 curl 測試 API
AI 用 Playwright 截圖檢查 UI
發現問題 → AI 自己修復
Showboat 記錄整個過程

工具鏈

# AI 自主測試
uvx curl http://localhost:3000/api/health
uvx playwright screenshot http://localhost:3000

# 強制記錄
showboat record "API 測試" -- curl http://localhost:3000/api/health