Token 省 76%、費用降 96%、快 4.6 倍——Anthropic Tool Use 實戰落地¶

來源：Washin API Benchmark
作者：Washin Village（和心村）
發布時間：2025-2026
語言：English | 繁體中文 | 日本語

摘要¶

Anthropic 發表 Advanced Tool Use，提出三個功能。和心村在日本鄉下經營 39 服務的 API 平台，讀完當天全部落地——還多做了四件他們沒做的事。

📊 全貌對照¶

Anthropic 三大功能¶

Anthropic 功能	他們的數據	和心村實作
Tool Search	77K→8.7K tokens (85%↓)	10.8KB→2.5KB，按需載入 (76%↓)
Tool Use Examples	準確率 72%→90%	11 個端點加真實 JSON 範例
Programmatic Tool Calling	tokens 37%↓	PTC 模式：$0.02 vs $0.49，省 96%

和心村多做的四件事¶

創新功能	一句話說明
容錯鏈 (L2)	選對也會掛，4 層 fallback 接住
考試路由 (P1-P4)	持續考試驅動供應商排名
意圖路由 (L3)	說人話，系統自己選工具
品質信號 (L4)	給機器讀的結果品質分數

🏗️ 背景：痛點逼出來的四層架構¶

L1  Proxy        — 純轉發（27 端點）         $0-$0.01
L2  Smart Gateway — 多供應商容錯 + 策略路由    $0.006-$0.009
L3  Concierge    — 自然語言 → 自動選工具      $0.02
L4  Task Engine  — 規劃 → 執行 → 品質評估     $0.49-$2.99

不是先畫架構圖再蓋的。 每層都是一個痛點：

L1：純轉發
L2：Brave 掛了兩小時、客戶全拿 500 error 後加的容錯鏈
L3：Agent 不知道叫 search 還是 news、也不知道要先翻日文後加的意圖路由
L4：「比較三個翻譯 API 品質」這種多步驟任務搞不定後加的

🎯 三大核心技術對照¶

1️⃣ Tool Search → defer_loading（省 76%）¶

"With 200+ tools, the traditional approach consumed approximately 77K input tokens before any actual work began... With the Tool Search Tool, initial token consumption drops to approximately 8.7K."

和心村的實作：

/api/capabilities 一口氣回 10.8KB。讀到論文後當天拆成兩層：

GET /api/services/brief     # 2.5KB 菜單
GET /api/services/{id}      # ~300B 按需

範例回應：

{
  "v": "2.0", "total": 39,
  "services": [
    {"id": "brave-search", "price": 0.002, "cat": "search", "L": 1},
    {"id": "smart-search", "price": 0.009, "cat": "search", "L": 2},
    {"id": "smart",        "price": 0.02,  "cat": "concierge", "L": 3},
    {"id": "task",         "price": 0.05,  "cat": "orchestration", "L": 4}
  ],
  "free": ["weather", "wikipedia", "exchange-rate", "ip-geo", "geocode"],
  "detail": "/api/services/{id}"
}

成果對比：

之前	之後	節省
10.8KB (~2,700 tokens)	2.5KB (~640 tokens)	76%

關鍵洞察：

Anthropic 在模型端（Claude 自己搜，用 defer_loading: true），我們在 API 端（Agent 自己載，拆成兩個端點）。他們的更優雅，我們的更直接。原理一樣：先給菜單，再上菜。

學到什麼： - Anthropic 幫我們命名了問題（defer_loading） - 量化了影響（85%↓ + Opus 4 準確率 49%→74%） - 給了實作方向 - 「覺得太肥」跟「知道怎麼改」是兩回事

2️⃣ Tool Use Examples（準確率 +18%）¶

"Adding concrete examples to tool definitions improved accuracy from 72% to 90% on complex parameter handling."

問題： 文件有 URL 有參數——唯獨沒範例。Agent 在猜格式：

❌ 猜的：{"search": "renewable energy Japan"}         ← 欄位名錯了
✅ 正確：{"query": "renewable energy Japan", "strategy": "fast"}

解法： 當天 11 個端點全加真實 JSON 請求+回應範例：

## POST /api/v2/search
### 請求範例：
{"query": "renewable energy Japan 2025", "strategy": "fast", "maxResults": 10}

### 回應範例：
{"results": [...], "provider": "brave", "responseTimeMs": 420, "cost": "$0.009"}

重點金句：

花幾個月蓋的容錯鏈，可能比不上花一天加的範例——範例從源頭減少錯誤呼叫。Agent 不打客服電話，只看文件。

3️⃣ Programmatic Tool Calling → PTC（省 96% 費用）¶

"Programmatic Tool Calling enables Claude to write and execute code that orchestrates multiple tool calls... On complex research tasks, this approach reduced average token usage from 43,588 to 27,297 — a 37% reduction."

和心村的 L4 PTC 模式：

Agent 自帶步驟，跳過 LLM 規劃：

// PTC Mode — Agent 自帶執行計畫
POST /api/v2/task
{
  "goal": "Search and summarize AI news",
  "steps": [
    {"toolId": "smart-search", "params": {"query": "AI agent news 2026"}},
    {"toolId": "smart-llm", "params": {"prompt": "Summarize"}, "dependsOn": [1]}
  ]
}

// 回傳
{
  "success": true,
  "mode": "ptc",
  "synthesis": "...",
  "meta": {
    "price": 0.02,
    "execution": [
      {"step": 1, "tool": "smart-search", "responseTimeMs": 1408},
      {"step": 2, "tool": "smart-llm",    "responseTimeMs": 1292}
    ],
    "totalTimeMs": 3979
  }
}

成果對比：

場景	Auto 模式	PTC 模式	改善
單步查詢	~12s, $0.49	2.8s, $0.02	快 4x，省 96%
搜尋+摘要	~18s, $0.49	3.9s, $0.02	快 4.6x，省 96%

哲學差異：

Anthropic 讓 Claude 寫 Python 編排（更靈活）。我們讓 Agent 提交 JSON 步驟（更可靠，每步有 L2 容錯）。Agent 付了錢，要的是結果，不是一個可能會跑的 Python script。

🌟 我們多做的四件事¶

1️⃣ 容錯鏈——選對了也會掛¶

Anthropic 假設選對工具就會拿到結果。生產環境裡，選對了也會掛。

Agent 叫 POST /api/v2/search
  → Brave (8s) → Tavily (10s) → Firecrawl (20s) → Gemini (20s)
  Agent 完全感知不到這條鏈。

真實案例：

14:25  Brave timeout → fallback Tavily → 成功，1200ms
14:31  Brave 恢復。客戶完全不知道。

沒有容錯鏈？ 6 分鐘的 500 error
有容錯鏈？ provider 從 "brave" 變 "tavily"，結果照回

2️⃣ 考試路由（P1-P4）——靜態範例會過時¶

Anthropic 說加範例準確率 +18%。但**靜態範例會過時。** 上個月最好的供應商，這個月可能降級了。

考試	問什麼	頻率	驅動什麼
P1	端點活著嗎？	每 6h	移出死供應商
P3	誰的結果最好？	每週	驅動 L2 路由排名
P4	長期穩定嗎？	每月	決定 fallback 順序

真實發現：

P3 自動發現某供應商日文 query 相關性比英文高 15%。沒人設計這個——考試數據自己浮現。系統自動調整： - 日文搜尋偏好供應商 A - 英文偏好 B

手寫範例永遠找不到這種 pattern。

3️⃣ 意圖路由（L3）——Agent 不知道叫誰¶

Anthropic 假設呼叫者知道要用哪個工具。常常不成立。

「日本人怎麼看新幹線延伸？」

L3 (<500ms)：搜尋(日文) → 翻譯 → 摘要。三步自動執行。

沒有 L3：Agent 試錯 → 4-5 次呼叫 → $0.03-0.05，8-15 秒
有 L3：  一句自然語言  → 3 次精準   → $0.009，3-5 秒

意圖解析 ~$0.0002/次，ROI 100-200 倍。

4️⃣ 品質信號（Phase 3）——怎麼知道結果好不好¶

Anthropic 優化「到執行前」的路徑。但**呼叫完之後呢？**

Phase 3 評估 → overall: 0.49（結果太舊）→ 自動重跑 → 0.83 ✅

品質分數是**給機器讀的**。Agent 不用二選一（全信 or 全不信），可以**有條件地信任**——0.83 夠好，用這個寫初稿，但標註弱點部分需要再補。

🎭 哲學差異¶

	Anthropic	和心村
方向	模型更聰明地挑工具	工具更容易被挑到
控制權	模型側（Claude 決定）	API 側（Agent 決定）
範圍	Claude only	任何 LLM/Agent
定價	藏在 token 裡	每步透明（金額+時間）

Anthropic 優化「模型怎麼挑工具」，我們優化「工具怎麼讓自己被挑到」。殊途同歸。

📈 數據總覽¶

指標	值
服務	39（L1×27 + L2×10 + L3 + L4）
分類	15
Defer Loading	10.8KB → 2.5KB（76%↓）
PTC vs Auto	$0.02 vs $0.49（96%↓）
考試週期	P1 每 6h / P3 每週 / P4 每月
開發背景	7 個月，工程背景零

💡 關鍵洞察¶

方向正確¶

獨立想到的架構，跟頂級實驗室一致。

應用層有空間¶

容錯鏈、考試路由、品質信號，模型層做不到。

讀了論文。學到東西。當天就做了。¶

📦 實作紀錄¶

一個下午，4 個 commit：

ca35575  feat: input_examples — 11 端點附範例
b31168c  feat: defer_loading — 超輕索引 + 按需載入
9174e59  feat: dynamic filtering — 5 種篩選參數
8f4a50d  feat: PTC — L4 支援自帶執行計畫

🔗 相關資源¶

Anthropic 論文：Advanced Tool Use (2025)
GitHub：
Zero Engineer
112 Claude Code Skills
crawl-share
Confucius Debug

🦞 關於和心村（Washin Village）¶

位置：日本房總半島（Boso Peninsula）
身份：動物救援中心（28 隻貓狗）
團隊：工程背景零，7 個月做出 39 個服務

產品線： - Confucius Debug：AI 除錯知識庫（980+ 解決方案） - Washin API：39 服務的 AI 工具平台（L1-L4 架構） - AEO Scanner：網站 AI 友善度檢測

哲學：「不貳過」（孔子弟子顏回 - 從錯誤中學習，不重複犯錯）

Built with 🦞 in Boso Peninsula, Japan.