Token 省 76%、費用降 96%、快 4.6 倍——Anthropic Tool Use 實戰落地¶
來源:Washin API Benchmark
作者:Washin Village(和心村)
發布時間:2025-2026
語言:English | 繁體中文 | 日本語
摘要¶
Anthropic 發表 Advanced Tool Use,提出三個功能。和心村在日本鄉下經營 39 服務的 API 平台,讀完當天全部落地——還多做了四件他們沒做的事。
📊 全貌對照¶
Anthropic 三大功能¶
| Anthropic 功能 | 他們的數據 | 和心村實作 |
|---|---|---|
| Tool Search | 77K→8.7K tokens (85%↓) | 10.8KB→2.5KB,按需載入 (76%↓) |
| Tool Use Examples | 準確率 72%→90% | 11 個端點加真實 JSON 範例 |
| Programmatic Tool Calling | tokens 37%↓ | PTC 模式:$0.02 vs $0.49,省 96% |
和心村多做的四件事¶
| 創新功能 | 一句話說明 |
|---|---|
| 容錯鏈 (L2) | 選對也會掛,4 層 fallback 接住 |
| 考試路由 (P1-P4) | 持續考試驅動供應商排名 |
| 意圖路由 (L3) | 說人話,系統自己選工具 |
| 品質信號 (L4) | 給機器讀的結果品質分數 |
🏗️ 背景:痛點逼出來的四層架構¶
L1 Proxy — 純轉發(27 端點) $0-$0.01
L2 Smart Gateway — 多供應商容錯 + 策略路由 $0.006-$0.009
L3 Concierge — 自然語言 → 自動選工具 $0.02
L4 Task Engine — 規劃 → 執行 → 品質評估 $0.49-$2.99
不是先畫架構圖再蓋的。 每層都是一個痛點:
- L1:純轉發
- L2:Brave 掛了兩小時、客戶全拿 500 error 後加的容錯鏈
- L3:Agent 不知道叫 search 還是 news、也不知道要先翻日文後加的意圖路由
- L4:「比較三個翻譯 API 品質」這種多步驟任務搞不定後加的
🎯 三大核心技術對照¶
1️⃣ Tool Search → defer_loading(省 76%)¶
"With 200+ tools, the traditional approach consumed approximately 77K input tokens before any actual work began... With the Tool Search Tool, initial token consumption drops to approximately 8.7K."
和心村的實作:
/api/capabilities 一口氣回 10.8KB。讀到論文後當天拆成兩層:
範例回應:
{
"v": "2.0", "total": 39,
"services": [
{"id": "brave-search", "price": 0.002, "cat": "search", "L": 1},
{"id": "smart-search", "price": 0.009, "cat": "search", "L": 2},
{"id": "smart", "price": 0.02, "cat": "concierge", "L": 3},
{"id": "task", "price": 0.05, "cat": "orchestration", "L": 4}
],
"free": ["weather", "wikipedia", "exchange-rate", "ip-geo", "geocode"],
"detail": "/api/services/{id}"
}
成果對比:
| 之前 | 之後 | 節省 |
|---|---|---|
| 10.8KB (~2,700 tokens) | 2.5KB (~640 tokens) | 76% |
關鍵洞察:
Anthropic 在模型端(Claude 自己搜,用
defer_loading: true),我們在 API 端(Agent 自己載,拆成兩個端點)。他們的更優雅,我們的更直接。原理一樣:先給菜單,再上菜。
學到什麼:
- Anthropic 幫我們命名了問題(defer_loading)
- 量化了影響(85%↓ + Opus 4 準確率 49%→74%)
- 給了實作方向
- 「覺得太肥」跟「知道怎麼改」是兩回事
2️⃣ Tool Use Examples(準確率 +18%)¶
"Adding concrete examples to tool definitions improved accuracy from 72% to 90% on complex parameter handling."
問題: 文件有 URL 有參數——唯獨沒範例。Agent 在猜格式:
❌ 猜的:{"search": "renewable energy Japan"} ← 欄位名錯了
✅ 正確:{"query": "renewable energy Japan", "strategy": "fast"}
解法: 當天 11 個端點全加真實 JSON 請求+回應範例:
## POST /api/v2/search
### 請求範例:
{"query": "renewable energy Japan 2025", "strategy": "fast", "maxResults": 10}
### 回應範例:
{"results": [...], "provider": "brave", "responseTimeMs": 420, "cost": "$0.009"}
重點金句:
花幾個月蓋的容錯鏈,可能比不上花一天加的範例——範例從源頭減少錯誤呼叫。Agent 不打客服電話,只看文件。
3️⃣ Programmatic Tool Calling → PTC(省 96% 費用)¶
"Programmatic Tool Calling enables Claude to write and execute code that orchestrates multiple tool calls... On complex research tasks, this approach reduced average token usage from 43,588 to 27,297 — a 37% reduction."
和心村的 L4 PTC 模式:
Agent 自帶步驟,跳過 LLM 規劃:
// PTC Mode — Agent 自帶執行計畫
POST /api/v2/task
{
"goal": "Search and summarize AI news",
"steps": [
{"toolId": "smart-search", "params": {"query": "AI agent news 2026"}},
{"toolId": "smart-llm", "params": {"prompt": "Summarize"}, "dependsOn": [1]}
]
}
// 回傳
{
"success": true,
"mode": "ptc",
"synthesis": "...",
"meta": {
"price": 0.02,
"execution": [
{"step": 1, "tool": "smart-search", "responseTimeMs": 1408},
{"step": 2, "tool": "smart-llm", "responseTimeMs": 1292}
],
"totalTimeMs": 3979
}
}
成果對比:
| 場景 | Auto 模式 | PTC 模式 | 改善 |
|---|---|---|---|
| 單步查詢 | ~12s, $0.49 | 2.8s, $0.02 | 快 4x,省 96% |
| 搜尋+摘要 | ~18s, $0.49 | 3.9s, $0.02 | 快 4.6x,省 96% |
哲學差異:
Anthropic 讓 Claude 寫 Python 編排(更靈活)。我們讓 Agent 提交 JSON 步驟(更可靠,每步有 L2 容錯)。Agent 付了錢,要的是結果,不是一個可能會跑的 Python script。
🌟 我們多做的四件事¶
1️⃣ 容錯鏈——選對了也會掛¶
Anthropic 假設選對工具就會拿到結果。生產環境裡,選對了也會掛。
Agent 叫 POST /api/v2/search
→ Brave (8s) → Tavily (10s) → Firecrawl (20s) → Gemini (20s)
Agent 完全感知不到這條鏈。
真實案例:
- 沒有容錯鏈? 6 分鐘的 500 error
- 有容錯鏈?
provider從"brave"變"tavily",結果照回
2️⃣ 考試路由(P1-P4)——靜態範例會過時¶
Anthropic 說加範例準確率 +18%。但**靜態範例會過時。** 上個月最好的供應商,這個月可能降級了。
| 考試 | 問什麼 | 頻率 | 驅動什麼 |
|---|---|---|---|
| P1 | 端點活著嗎? | 每 6h | 移出死供應商 |
| P3 | 誰的結果最好? | 每週 | 驅動 L2 路由排名 |
| P4 | 長期穩定嗎? | 每月 | 決定 fallback 順序 |
真實發現:
P3 自動發現某供應商日文 query 相關性比英文高 15%。沒人設計這個——考試數據自己浮現。系統自動調整: - 日文搜尋偏好供應商 A - 英文偏好 B
手寫範例永遠找不到這種 pattern。
3️⃣ 意圖路由(L3)——Agent 不知道叫誰¶
Anthropic 假設呼叫者知道要用哪個工具。常常不成立。
「日本人怎麼看新幹線延伸?」
L3 (<500ms):搜尋(日文) → 翻譯 → 摘要。三步自動執行。
沒有 L3:Agent 試錯 → 4-5 次呼叫 → $0.03-0.05,8-15 秒
有 L3: 一句自然語言 → 3 次精準 → $0.009,3-5 秒
意圖解析 ~$0.0002/次,ROI 100-200 倍。
4️⃣ 品質信號(Phase 3)——怎麼知道結果好不好¶
Anthropic 優化「到執行前」的路徑。但**呼叫完之後呢?**
品質分數是**給機器讀的**。Agent 不用二選一(全信 or 全不信),可以**有條件地信任**——0.83 夠好,用這個寫初稿,但標註弱點部分需要再補。
🎭 哲學差異¶
| Anthropic | 和心村 | |
|---|---|---|
| 方向 | 模型更聰明地挑工具 | 工具更容易被挑到 |
| 控制權 | 模型側(Claude 決定) | API 側(Agent 決定) |
| 範圍 | Claude only | 任何 LLM/Agent |
| 定價 | 藏在 token 裡 | 每步透明(金額+時間) |
Anthropic 優化「模型怎麼挑工具」,我們優化「工具怎麼讓自己被挑到」。殊途同歸。
📈 數據總覽¶
| 指標 | 值 |
|---|---|
| 服務 | 39(L1×27 + L2×10 + L3 + L4) |
| 分類 | 15 |
| Defer Loading | 10.8KB → 2.5KB(76%↓) |
| PTC vs Auto | $0.02 vs $0.49(96%↓) |
| 考試週期 | P1 每 6h / P3 每週 / P4 每月 |
| 開發背景 | 7 個月,工程背景 零 |
💡 關鍵洞察¶
方向正確¶
獨立想到的架構,跟頂級實驗室一致。
應用層有空間¶
容錯鏈、考試路由、品質信號,模型層做不到。
讀了論文。學到東西。當天就做了。¶
📦 實作紀錄¶
一個下午,4 個 commit:
ca35575 feat: input_examples — 11 端點附範例
b31168c feat: defer_loading — 超輕索引 + 按需載入
9174e59 feat: dynamic filtering — 5 種篩選參數
8f4a50d feat: PTC — L4 支援自帶執行計畫
🔗 相關資源¶
- Anthropic 論文:Advanced Tool Use (2025)
- GitHub:
- Zero Engineer
- 112 Claude Code Skills
- crawl-share
- Confucius Debug
🦞 關於和心村(Washin Village)¶
位置:日本房總半島(Boso Peninsula)
身份:動物救援中心(28 隻貓狗)
團隊:工程背景零,7 個月做出 39 個服務
產品線: - Confucius Debug:AI 除錯知識庫(980+ 解決方案) - Washin API:39 服務的 AI 工具平台(L1-L4 架構) - AEO Scanner:網站 AI 友善度檢測
哲學:「不貳過」(孔子弟子顏回 - 從錯誤中學習,不重複犯錯)
Built with 🦞 in Boso Peninsula, Japan.