跳轉到

Token 省 76%、費用降 96%、快 4.6 倍——Anthropic Tool Use 實戰落地

來源Washin API Benchmark
作者:Washin Village(和心村)
發布時間:2025-2026
語言English | 繁體中文 | 日本語


摘要

Anthropic 發表 Advanced Tool Use,提出三個功能。和心村在日本鄉下經營 39 服務的 API 平台,讀完當天全部落地——還多做了四件他們沒做的事。


📊 全貌對照

Anthropic 三大功能

Anthropic 功能 他們的數據 和心村實作
Tool Search 77K→8.7K tokens (85%↓) 10.8KB→2.5KB,按需載入 (76%↓)
Tool Use Examples 準確率 72%→90% 11 個端點加真實 JSON 範例
Programmatic Tool Calling tokens 37%↓ PTC 模式:$0.02 vs $0.49,省 96%

和心村多做的四件事

創新功能 一句話說明
容錯鏈 (L2) 選對也會掛,4 層 fallback 接住
考試路由 (P1-P4) 持續考試驅動供應商排名
意圖路由 (L3) 說人話,系統自己選工具
品質信號 (L4) 給機器讀的結果品質分數

🏗️ 背景:痛點逼出來的四層架構

L1  Proxy        — 純轉發(27 端點)         $0-$0.01
L2  Smart Gateway — 多供應商容錯 + 策略路由    $0.006-$0.009
L3  Concierge    — 自然語言 → 自動選工具      $0.02
L4  Task Engine  — 規劃 → 執行 → 品質評估     $0.49-$2.99

不是先畫架構圖再蓋的。 每層都是一個痛點:

  • L1:純轉發
  • L2:Brave 掛了兩小時、客戶全拿 500 error 後加的容錯鏈
  • L3:Agent 不知道叫 search 還是 news、也不知道要先翻日文後加的意圖路由
  • L4:「比較三個翻譯 API 品質」這種多步驟任務搞不定後加的

🎯 三大核心技術對照

1️⃣ Tool Search → defer_loading(省 76%)

"With 200+ tools, the traditional approach consumed approximately 77K input tokens before any actual work began... With the Tool Search Tool, initial token consumption drops to approximately 8.7K."

和心村的實作:

/api/capabilities 一口氣回 10.8KB。讀到論文後當天拆成兩層:

GET /api/services/brief     # 2.5KB 菜單
GET /api/services/{id}      # ~300B 按需

範例回應:

{
  "v": "2.0", "total": 39,
  "services": [
    {"id": "brave-search", "price": 0.002, "cat": "search", "L": 1},
    {"id": "smart-search", "price": 0.009, "cat": "search", "L": 2},
    {"id": "smart",        "price": 0.02,  "cat": "concierge", "L": 3},
    {"id": "task",         "price": 0.05,  "cat": "orchestration", "L": 4}
  ],
  "free": ["weather", "wikipedia", "exchange-rate", "ip-geo", "geocode"],
  "detail": "/api/services/{id}"
}

成果對比:

之前 之後 節省
10.8KB (~2,700 tokens) 2.5KB (~640 tokens) 76%

關鍵洞察:

Anthropic 在模型端(Claude 自己搜,用 defer_loading: true),我們在 API 端(Agent 自己載,拆成兩個端點)。他們的更優雅,我們的更直接。原理一樣:先給菜單,再上菜。

學到什麼: - Anthropic 幫我們命名了問題(defer_loading) - 量化了影響(85%↓ + Opus 4 準確率 49%→74%) - 給了實作方向 - 「覺得太肥」跟「知道怎麼改」是兩回事


2️⃣ Tool Use Examples(準確率 +18%)

"Adding concrete examples to tool definitions improved accuracy from 72% to 90% on complex parameter handling."

問題: 文件有 URL 有參數——唯獨沒範例。Agent 在猜格式:

❌ 猜的:{"search": "renewable energy Japan"}         ← 欄位名錯了
✅ 正確:{"query": "renewable energy Japan", "strategy": "fast"}

解法: 當天 11 個端點全加真實 JSON 請求+回應範例:

## POST /api/v2/search
### 請求範例:
{"query": "renewable energy Japan 2025", "strategy": "fast", "maxResults": 10}

### 回應範例:
{"results": [...], "provider": "brave", "responseTimeMs": 420, "cost": "$0.009"}

重點金句:

花幾個月蓋的容錯鏈,可能比不上花一天加的範例——範例從源頭減少錯誤呼叫。Agent 不打客服電話,只看文件。


3️⃣ Programmatic Tool Calling → PTC(省 96% 費用)

"Programmatic Tool Calling enables Claude to write and execute code that orchestrates multiple tool calls... On complex research tasks, this approach reduced average token usage from 43,588 to 27,297 — a 37% reduction."

和心村的 L4 PTC 模式:

Agent 自帶步驟,跳過 LLM 規劃:

// PTC Mode — Agent 自帶執行計畫
POST /api/v2/task
{
  "goal": "Search and summarize AI news",
  "steps": [
    {"toolId": "smart-search", "params": {"query": "AI agent news 2026"}},
    {"toolId": "smart-llm", "params": {"prompt": "Summarize"}, "dependsOn": [1]}
  ]
}

// 回傳
{
  "success": true,
  "mode": "ptc",
  "synthesis": "...",
  "meta": {
    "price": 0.02,
    "execution": [
      {"step": 1, "tool": "smart-search", "responseTimeMs": 1408},
      {"step": 2, "tool": "smart-llm",    "responseTimeMs": 1292}
    ],
    "totalTimeMs": 3979
  }
}

成果對比:

場景 Auto 模式 PTC 模式 改善
單步查詢 ~12s, $0.49 2.8s, $0.02 快 4x,省 96%
搜尋+摘要 ~18s, $0.49 3.9s, $0.02 快 4.6x,省 96%

哲學差異:

Anthropic 讓 Claude 寫 Python 編排(更靈活)。我們讓 Agent 提交 JSON 步驟(更可靠,每步有 L2 容錯)。Agent 付了錢,要的是結果,不是一個可能會跑的 Python script。


🌟 我們多做的四件事

1️⃣ 容錯鏈——選對了也會掛

Anthropic 假設選對工具就會拿到結果。生產環境裡,選對了也會掛。

Agent 叫 POST /api/v2/search
  → Brave (8s) → Tavily (10s) → Firecrawl (20s) → Gemini (20s)
  Agent 完全感知不到這條鏈。

真實案例:

14:25  Brave timeout → fallback Tavily → 成功,1200ms
14:31  Brave 恢復。客戶完全不知道。
  • 沒有容錯鏈? 6 分鐘的 500 error
  • 有容錯鏈? provider"brave""tavily",結果照回

2️⃣ 考試路由(P1-P4)——靜態範例會過時

Anthropic 說加範例準確率 +18%。但**靜態範例會過時。** 上個月最好的供應商,這個月可能降級了。

考試 問什麼 頻率 驅動什麼
P1 端點活著嗎? 每 6h 移出死供應商
P3 誰的結果最好? 每週 驅動 L2 路由排名
P4 長期穩定嗎? 每月 決定 fallback 順序

真實發現:

P3 自動發現某供應商日文 query 相關性比英文高 15%。沒人設計這個——考試數據自己浮現。系統自動調整: - 日文搜尋偏好供應商 A - 英文偏好 B

手寫範例永遠找不到這種 pattern。


3️⃣ 意圖路由(L3)——Agent 不知道叫誰

Anthropic 假設呼叫者知道要用哪個工具。常常不成立。

「日本人怎麼看新幹線延伸?」

L3 (<500ms):搜尋(日文) → 翻譯 → 摘要。三步自動執行。

沒有 L3:Agent 試錯 → 4-5 次呼叫 → $0.03-0.05,8-15 秒
有 L3:  一句自然語言  → 3 次精準   → $0.009,3-5 秒

意圖解析 ~$0.0002/次,ROI 100-200 倍。


4️⃣ 品質信號(Phase 3)——怎麼知道結果好不好

Anthropic 優化「到執行前」的路徑。但**呼叫完之後呢?**

Phase 3 評估 → overall: 0.49(結果太舊)→ 自動重跑 → 0.83 ✅

品質分數是**給機器讀的**。Agent 不用二選一(全信 or 全不信),可以**有條件地信任**——0.83 夠好,用這個寫初稿,但標註弱點部分需要再補。


🎭 哲學差異

Anthropic 和心村
方向 模型更聰明地挑工具 工具更容易被挑到
控制權 模型側(Claude 決定) API 側(Agent 決定)
範圍 Claude only 任何 LLM/Agent
定價 藏在 token 裡 每步透明(金額+時間)

Anthropic 優化「模型怎麼挑工具」,我們優化「工具怎麼讓自己被挑到」。殊途同歸。


📈 數據總覽

指標
服務 39(L1×27 + L2×10 + L3 + L4)
分類 15
Defer Loading 10.8KB → 2.5KB(76%↓)
PTC vs Auto $0.02 vs $0.49(96%↓)
考試週期 P1 每 6h / P3 每週 / P4 每月
開發背景 7 個月,工程背景

💡 關鍵洞察

方向正確

獨立想到的架構,跟頂級實驗室一致。

應用層有空間

容錯鏈、考試路由、品質信號,模型層做不到。

讀了論文。學到東西。當天就做了。


📦 實作紀錄

一個下午,4 個 commit:

ca35575  feat: input_examples — 11 端點附範例
b31168c  feat: defer_loading — 超輕索引 + 按需載入
9174e59  feat: dynamic filtering — 5 種篩選參數
8f4a50d  feat: PTC — L4 支援自帶執行計畫

🔗 相關資源


🦞 關於和心村(Washin Village)

位置:日本房總半島(Boso Peninsula)
身份:動物救援中心(28 隻貓狗)
團隊:工程背景零,7 個月做出 39 個服務

產品線: - Confucius Debug:AI 除錯知識庫(980+ 解決方案) - Washin API:39 服務的 AI 工具平台(L1-L4 架構) - AEO Scanner:網站 AI 友善度檢測

哲學:「不貳過」(孔子弟子顏回 - 從錯誤中學習,不重複犯錯)


Built with 🦞 in Boso Peninsula, Japan.