Claude Code 品質下降事件：真正該記住的是 agent observability 與產品層風險

這篇 Threads 轉述 Claude Code 2026 年 3–4 月品質下降事件：AMD AI 團隊資深總監 Stella Laurenzo 用大量 Claude Code session log 指出，Claude Code 在複雜工程任務上變得更淺、更急、更常不讀完整上下文就動手改。後來 Anthropic 在 4 月 23 日發布官方 postmortem，承認確實有三個產品層問題疊加，造成 Claude Code、Claude Agent SDK、Claude Cowork 的體驗下降；但官方也特別說明，Claude API / inference layer 沒有受影響。

這件事值得記錄，不只是因為「Claude Code 變笨」這個八卦，而是它暴露了 AI coding 工具的真正風險：模型本身可能沒變，但產品外圍的 reasoning effort、prompt、cache、context trimming、預設值，都足以讓同一個模型在實務工作中變成另一個人。

先拆事實。

Stella Laurenzo 在 GitHub issue #42796 裡提出的資料包含：

6,852 個 Claude Code session files
17,871 個 thinking blocks
234,760 次 tool calls
觀察到 2026 年 2–3 月後，Claude Code 在 complex engineering tasks 上明顯退化
讀碼行為從平均約 6.6 reads before edits，下降到約 2
stop-hook violations、過早停止、逃避責任、未完整研究就修改等行為增加
估算 Bedrock equivalent cost 從 2 月約 345 美元，3 月暴增到約 42,121 美元；部分原因是團隊同時擴大 concurrent agent sessions，但品質下降讓反覆修正成本放大

Threads 用「思考字數從 2,200 掉到 720」、「6.6 個關聯檔案變 2 個」、「帳單燒到 40,000 美元」來轉述，方向大致符合 GitHub issue / The Register 報導中的核心數據，但要注意一點：Anthropic 官方 postmortem 並沒有逐項承認 Stella 所有推論，也沒有說 API 受影響。官方確認的是產品層三個問題。

Anthropic 4 月 23 日 postmortem 的三個原因：

預設 reasoning effort 從 high 改成 medium

Anthropic 說，Opus 4.6 在 Claude Code 裡推出時，預設 reasoning effort 是 high。但有些使用者覺得 high mode 會想太久、UI 看起來像凍住，也會消耗更多 token。於是 Anthropic 在 3 月 4 日把 Claude Code 預設 reasoning effort 從 high 改成 medium，希望降低延遲與 token 使用。

官方後來承認：這是錯誤 tradeoff。使用者寧願預設更聰明，再自己對簡單任務調低 effort。這個變更在 4 月 7 日 revert，影響 Sonnet 4.6 與 Opus 4.6。

這裡的教訓很直接：AI coding 工具的預設值就是產品承諾。把 high 改 medium，不只是「省一點 latency」，而是在改變工程師以為自己正在使用的 agent 能力邊界。

thinking history cache / pruning bug 造成「健忘」

Anthropic 在 3 月 26 日做了一個效率優化：如果 session 閒置超過一小時，為了降低恢復 session 的成本，清掉舊 thinking sections。設計上應該只清一次，之後恢復正常送完整 reasoning history。

但實作有 bug：一旦 session 跨過 idle threshold，之後每一輪都會清 thinking history。結果 Claude 看不到自己前面為什麼做那些 tool calls / edits，就會變得 forgetful and repetitive。這在 4 月 10 日修復，影響 Sonnet 4.6 與 Opus 4.6。

這是整起事件最關鍵的工程點：agent 不是只靠模型智商工作，而是靠 history、tool traces、reasoning context、cache policy 共同構成工作記憶。清錯 context，就像把資深工程師的工作筆記每分鐘撕掉一次。

降低 verbose 的 system prompt 傷害 coding quality

Anthropic 在 4 月 16 日為了降低 Claude Code 太囉嗦的問題，在 system prompt 裡加入類似這樣的限制：

Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail.

這個限制在一般對話可能合理，但在 coding agent 場景會傷害品質。因為工程工作需要把假設、風險、檔案脈絡、修改理由、測試結果講清楚。Anthropic 後來做 ablation，發現相關 prompt line 對 Opus 4.6 / 4.7 評測造成約 3% drop，並在 4 月 20 日 revert。這影響 Sonnet 4.6、Opus 4.6、Opus 4.7。

這裡的教訓是：短不等於好。對 coding agent 來說，過度壓縮輸出可能讓模型少寫中間推理、少暴露不確定性、少提醒風險，反而讓工程師更難 review。

這件事對 AI coding 的啟發：

「模型沒變」不代表「工具能力沒變」

Anthropic 說 API / inference layer 未受影響，這句很重要。因為 Claude Code 品質下降不是單純模型權重變差，而是產品層變更：reasoning effort、thinking history、system prompt。對使用者來說，結果一樣是工具變差。

所以未來評估 AI coding 工具，不能只看模型名稱。要看：

預設 reasoning effort 是什麼
是否能固定 effort / model / tool behavior
session history 如何保留
cache / pruning policy 是否透明
system prompt 是否頻繁變更
是否有 changelog 與 rollback 機制

笨 agent 比聰明 agent 更貴

Threads 裡那句「笨的 AI，比聰明的 AI 昂貴得多」值得記。原因不是笨模型單次 token 貴，而是它會製造 retry cost、review cost、debug cost、錯誤 merge cost、信任崩壞成本。

Stella 的資料也指向這件事：當 agent 不完整讀碼、過早動手、反覆修錯，成本不是線性增加，而是會被工程師重試與多 agent 並行放大。

Agent observability 會變成必要基礎設施

Stella 團隊能把問題講清楚，是因為他們有 session logs、thinking blocks、tool calls、read/edit ratio、stop-hook violations。這代表成熟團隊使用 AI coding agent 時，不能只看「最後有沒有成功」，還要記錄：

每次修改前讀了哪些檔案
read/edit ratio 是否異常
thinking depth / reasoning effort 是否下降
是否反覆修改同一個 bug
是否有 premature stop
是否跳過測試或謊稱完成
每個任務實際 token / API / retry cost

沒有 observability，就很容易把工具退化誤判成「我 prompt 下不好」。

不要把雞蛋放在單一 agent 籃子裡

留言有人說，不要被 PUA 最好的方法就是雞蛋不要放在同一個籃子。這句在 AI coding 上很實用。當單一 vendor 的 agent 發生退化，如果團隊沒有替代模型、替代 CLI、替代 workflow，整個開發節奏會被綁架。

對 BigIntTech / Hermes / Forge 的實務建議：

重要任務不要只靠單一模型或單一 agent；保留 Codex、Claude Code、Hermes subagent、人工 review 的切換能力。
對高風險修改，要求 agent 先列出 read plan，再讀完關聯檔案，不能直接 edit。
建立 read/edit ratio、測試執行、diff size、重試次數等指標，作為 agent quality telemetry。
每次模型或 CLI 版本升級後，跑固定 regression tasks，而不是直接相信新版。
對自動 merge 的流程加防線：測試、lint、migration check、security scan、人工或第二 agent review。
對長 session / 多 turn 工作，特別注意 context pruning 與 cache 行為，避免 agent 忘記先前決策。

我的判斷：

這起事件不是「Anthropic 壞掉一次」而已，而是 AI agent 產品化後必然會遇到的系統風險。當 agent 能力來自模型、prompt、工具、cache、context、UI 預設值共同組成，任何一層小改動都可能讓高階工程任務退化。

真正成熟的 AI coding 團隊，不會只問「哪個模型最強」，而會建立自己的 agent observability、回歸測試、fallback vendor、審查制度與成本監控。

這也呼應 Allen KB 之前整理過的 Claude Code 高風險工程文章：高風險場景裡，最可怕的不是 AI 不會，而是它沒讀完整、想得太淺，卻仍然很自信地動手改。

參考來源：

Threads 原文：https://www.threads.com/@finlab.quant/post/DX1SBpFller
Anthropic Engineering: An update on recent Claude Code quality reports, 2026-04-23
GitHub issue: anthropics/claude-code #42796
The Register: Claude Code has become dumber, lazier: AMD director; Anthropic admits it dumbed down Claude when trying to make it better

原始來源：https://www.threads.com/@finlab.quant/post/DX1SBpFller?xmt=AQF0w2nmsOX1Y2RStuq0OgSvRfdarOHHg7KbMQOTsWba6u_8dBDhHA7mZKhqQEB3Q0bxG0uG&slof=1