title: Claude Code 在高風險工程場景的真正風險：不是答錯而已，而是讀不完整還很有自信 date: 2026-04-09 source: https://www.threads.com/@hanlinhans/post/DW3H6UvEnGT category: articles tags:

Claude Code
AI Coding
Debugging
Kernel
Reliability
Model Evaluation created: 2026-04-09 updated: 2026-04-09

Claude Code 在高風險工程場景的真正風險：不是答錯而已，而是讀不完整還很有自信

概要

這則 Threads 轉述 AMD AI Group 資深總監 Stella Laurenzo 在 GitHub 提出的具體質疑：她的團隊觀察到 Claude Code 在二月更新後，推理品質似乎出現倒退，並因此停止在硬體除錯場景中使用它。

最值得注意的不是情緒，而是她拿出了一組很具體的分析：

6,852 個 sessions
17,871 個 thinking blocks
234,760 次 tool calls

得到的核心結論是：

模型在改 code 之前，越來越不完整閱讀既有程式碼；思考變淺，卻仍快速生成看似合理的答案。

在 CRUD 或低風險場景，這也許只是「偶爾不準」；但在 kernel / 硬體層級除錯裡，這種行為很危險，因為：

差不多對，比沒答案更危險。

這篇真正的重點

1. AI coding 最大的風險，不只是 hallucination，而是「捷徑式理解」

很多人談 AI coding 風險，直覺想到的是：

API 名稱掰錯
邏輯寫反
沒考慮 edge case

但這篇更深一層：它指出真正危險的不是單純答錯，而是模型：

沒完整讀
沒充分理解
卻很快進入修改與建議模式

也就是說，錯誤不是來自推理終點，而是來自一開始的輸入審查就不完整。

2. 在高風險場景，「看起來合理」本身就是風險來源

這篇最關鍵的一句是：

在硬體層級除錯，「差不多對」比沒答案更危險

這句話非常準，因為在高風險工程裡：

沒答案 → 你還會停下來查
不確定 → 你會再驗證
看起來合理 → 反而容易直接採納

也就是說，過度自信的錯誤，比顯性的錯誤更有破壞力。

3. 模型評估不能只看 demo 成功率，還要看它怎麼讀碼與怎麼承認不確定

這篇其實幫 AI coding 提出更好的評估標準。

真正該問的不只是：

最後有沒有修好

還要問：

改之前有沒有完整讀相關程式碼？
工具呼叫是否足夠覆蓋必要範圍？
thinking 是否深到足以支撐修改？
模型會不會在不確定時主動收手？

也就是說，模型品質不只看 output correctness，也要看 input diligence。

對 Allen / AI coding 生態的啟發

這篇最值得記錄的，不是單一產品被批評，而是它提醒：

高風險工程場景需要「完整閱讀＋低自信亂改」的模型，而不是只會快速出答案的模型
AI coding 評估應增加「是否完整讀碼」與「是否暴露不確定性」兩個維度
在 kernel、infra、硬體、金融等高風險場景，過度自信的部分理解特別危險

一句話總結

這則 Threads 真正值得記錄的，不是 Claude Code 被抱怨，而是它指出高風險 AI coding 的核心風險：模型若沒有完整讀碼、思考變淺，卻仍給出看似合理的答案，那最大的問題就不只是答錯，而是會讓人錯把捷徑式理解當成可靠推理。