AI 寫程式的信任危機：Theorem 用數學證明解決

作者: @meow.coder
來源: Threads
觀看數: 1.3K
日期: 2026-03-03
標籤: #AI #形式化驗證 #FormalVerification #Theorem #程式碼安全 #軟體工程 #數學證明

TL;DR（極簡版）

🚨 問題：AI 每年生成數十億行程式碼，但誰來確認這些程式碼真的沒問題？
💰 新創：美國 Theorem 完成 600 萬美元融資
🔬 解法：用 AI 自動生成「數學證明」來驗證程式碼（形式化驗證 + AI）
⚡ 效率：原本需要博士級工程師耗費「數年」→ 縮短成「數週甚至數天」
🎯 核心技術：fractional proof decomposition（按比例分配驗證資源）
📊 實際案例：1,500 頁 PDF 規格書 → 16,000 行程式碼，無人工審查直接上線
⚠️ 創辦人警告：AI 超越人類軟體工程能力無法避免，需要更先進的驗證手段

核心問題：AI 寫程式的信任危機

問題規模

AI 每年生成數十億行程式碼，但誰來確認這些程式碼真的沒問題？

監管缺口：

AI 寫程式的速度狂奔
驗證速度卻像牛步
如果有人叫你審查 6 萬行程式碼，根本無從下手

不只是工程問題：

金融系統
電網
等關鍵基礎設施的重大威脅

Theorem：用數學證明解決信任問題

公司資訊

名稱：Theorem
融資：600 萬美元（最新一輪）
創辦人：Jason Gross
總部：美國

核心技術

形式化驗證（Formal Verification）+ AI：

形式化驗證：一種數學技術，能證明軟體行為完全符合規範
Theorem 用 AI 模型自動生成並檢查這些數學證明

效率提升：

原本需要博士級工程師耗費「數年」的工作，現在縮短成「數週甚至數天」。

形式化驗證的歷史與成本

傳統成本極高

成本比例：

每 1 行程式碼需要 8 行數學證明
只用在航空電子、核反應爐這種絕對不能出錯的領域

經典案例：

MIT 博士曾花 15 人年驗證 HTTPS 協議，可見傳統做法多昂貴。

應用限制：

成本太高，只用在最關鍵的領域
大部分軟體都無法負擔
需要博士級專家

Theorem 的核心技術：fractional proof decomposition

技術原理

簡單說：AI 不要全面測試每個行為，而是依據組件重要性，按比例分配驗證資源。

關鍵優勢：

效率提升：不需要全面驗證每一行程式碼
資源最佳化：重要組件分配更多驗證資源
突破限制：能處理跨檔案的複雜程式碼（突破「上下文窗口」限制）

實際成果

1. 抓到傳統測試沒發現的 Bug

在大型 AI 系統中抓到傳統測試沒發現的 Bug

2. SFBench 展示

成果：

1,276 個數學問題從 Rocq 翻譯成 Lean 語言
自動證明等效
人類團隊至少需要 2.7 人年

意義：

自動化程度極高
人類需要 2.7 人年的工作 → Theorem 可能只需數週

3. 突破上下文窗口限制

Theorem 的架構能處理跨檔案的複雜程式碼，突破了「上下文窗口」限制——這是大多數 AI 程式碼工具的痛點。

為什麼重要？

傳統 AI 工具（Copilot、Cursor）受限於上下文窗口（128K、200K tokens）
大型專案往往跨越數百個檔案、數萬行程式碼
Theorem 能處理這種規模的專案

實際案例：1,500 頁 PDF → 16,000 行程式碼

客戶需求

背景：

1,500 頁的 PDF 規格書
一套充滿記憶體洩漏、崩潰、隱性 Bug 的舊系統
目標：效能從 10 Mbps 提升到 1 Gbps（100 倍）
而且不能出錯

Theorem 的解決方案

成果：

AI 生成了 16,000 行正式程式碼
客戶「完全沒有人工審查」就直接部署上線

為什麼敢這麼做？

因為透過數學驗證，新程式碼與規格書的目標行為完全一致。幾百行程式碼就概括了 1,500 頁的內容。

這就是數學證明的威力。

關鍵洞察

信任來自數學證明，不是人工審查
效率提升：1,500 頁 → 幾百行數學證明 → 16,000 行程式碼
零風險部署：無人工審查直接上線
性能提升 100 倍：10 Mbps → 1 Gbps

創辦人 Jason Gross 的警告

不對稱防禦

當 AI 讓駭客攻擊成本大幅下降，防禦者需要明白「不對稱防禦」——防禦能力擴展不需要同等比例資源。

什麼是不對稱防禦？

攻擊者：用 AI 生成大量攻擊
防禦者：用數學證明一次性確保安全
不需要對每個攻擊逐一防禦

AI 超越人類無法避免

他警告：如果 AI 以指數級速度進步，某天超越人類的軟體工程能力將「無法避免」。

如果人類沒準備好：

❌ 沒有更先進的驗證手段
❌ 沒有改變監管方式
❌ 最終只會打造出連自己都無法控制的系統

第一波 vs 第二波

第一波 AI 程式輔助：

帶來生產力提升（Copilot、Cursor、Claude Code）
但缺乏驗證機制

第二波（Theorem 押注）：

用數學證明確保速度提升不以犧牲安全為代價。

技術深度解析

形式化驗證 vs 傳統測試

項目	傳統測試	形式化驗證
方法	執行測試案例	數學證明
覆蓋率	部分路徑	所有可能路徑
保證	無法保證	數學保證
成本	低	極高（傳統）
適用	一般軟體	關鍵系統
AI 加速	有限	Theorem 突破

Rocq vs Lean

Rocq（前身為 Coq）：

法國開發的證明助手
用於形式化驗證

Lean：

微軟研究院開發
更現代、更易用的證明語言

SFBench 展示：

1,276 個數學問題從 Rocq 翻譯成 Lean
自動證明等效
證明 Theorem 的跨語言能力

上下文窗口問題

傳統 AI 工具限制：

Claude：200K tokens
GPT-4：128K tokens
Gemini：1M tokens

大型專案挑戰：

數百個檔案
數萬行程式碼
複雜的依賴關係

Theorem 突破：

fractional proof decomposition
能處理跨檔案的複雜程式碼
不受上下文窗口限制

網友質疑（技術討論）

mazdashie 的質疑

生成的證明有 1% 是錯的會產生連鎖效應，這 1% 的錯誤放大到程式上面至少變成 10% 錯誤。

這是合理的技術討論：

如果數學證明本身有錯
會導致程式碼錯誤被放大

Theorem 的回應可能包括：

多層驗證機制
證明的證明（meta-verification）
人類專家最終審查（對關鍵部分）

應用場景

適合 Theorem 的領域

金融系統
- 交易邏輯
- 風控系統
- 清算系統
關鍵基礎設施
- 電網控制
- 交通管理
- 通訊協議
航空航天
- 飛控系統
- 導航系統
- 安全關鍵軟體
醫療設備
- 植入式裝置
- 手術機器人
- 診斷系統
加密貨幣 / 區塊鏈
- 智能合約
- 共識協議
- 錢包安全

不適合的領域

快速迭代的產品
- 驗證成本 > 驗證價值
- 更適合傳統測試
非關鍵應用
- 簡單的 CRUD 應用
- 內部工具
用戶體驗驅動
- UI/UX 設計
- 需要快速反饋

商業模式（推測）

可能的定價策略

按專案收費
- 類似案例：1,500 頁 PDF → 16,000 行程式碼
- 可能收費：$100,000 - $500,000
訂閱制
- 企業年費：$50,000 - $200,000
- 根據程式碼規模與複雜度
API 調用
- 按驗證次數收費
- 類似 AI API 定價模式

目標客戶

大型企業
- 金融機構（銀行、證券、保險）
- 科技巨頭（Google、Microsoft、Amazon）
- 航空航天（Boeing、Airbus、SpaceX）
政府機構
- 國防部門
- 關鍵基礎設施營運商
監管要求嚴格的產業
- 醫療設備製造商
- 核能營運商

競爭對手與市場定位

潛在競爭對手

傳統形式化驗證公司
- AdaCore（航空航天）
- Galois（國防、安全）
- TrustInSoft（C/C++ 驗證）
AI 程式碼工具
- GitHub Copilot
- Cursor
- Claude Code
- （但這些缺乏驗證機制）
測試自動化工具
- Selenium
- Appium
- （但無法提供數學保證）

Theorem 的獨特定位

交叉點：

形式化驗證的數學保證
AI 的效率與可擴展性
實際商業應用（不只是研究）

護城河：

技術難度極高（需要博士級專家）
fractional proof decomposition 專利技術（可能）
實際案例累積（16,000 行無人工審查上線）

產業影響

軟體工程典範轉移

過去：

寫程式碼 → 測試 → 部署
依賴人工審查
無法保證正確性

未來（Theorem 願景）：

寫規格書 → AI 生成程式碼 + 數學證明 → 直接部署
無需人工審查
數學保證正確性

對開發者的影響

技能需求轉變：

減少：手寫大量程式碼
增加：撰寫精確的規格書
新技能：理解形式化驗證、數學證明

工作流程改變：

從「寫程式碼」→「寫規格書」
從「測試」→「驗證」
從「人工審查」→「數學證明」

對監管的影響

Jason Gross 警告：

如果 AI 以指數級速度進步，某天超越人類的軟體工程能力將「無法避免」。人類如果沒準備好更先進的驗證手段，也沒改變監管方式，最終只會打造出連自己都無法控制的系統。

監管需要跟上：

要求形式化驗證（對關鍵系統）
建立驗證標準
培養驗證專家

關鍵教訓

1. AI 生成程式碼的信任問題無法迴避

現狀：

AI 每年生成數十億行程式碼
驗證速度遠遠跟不上

後果：

金融系統、電網等關鍵基礎設施的重大威脅

💡 教訓：監管缺口需要填補。

2. 數學證明 > 人工審查

Theorem 案例：

16,000 行程式碼無人工審查直接上線
因為數學證明提供絕對保證

💡 教訓：信任來自數學，不是人類。

3. 形式化驗證成本大幅降低

過去：

MIT 博士 15 人年驗證 HTTPS
每 1 行程式碼需 8 行數學證明

現在（Theorem）：

數年 → 數週甚至數天
AI 自動生成並檢查證明

💡 教訓：AI 讓形式化驗證從「奢侈品」變「必需品」。

4. 不對稱防禦是關鍵

攻防不對稱：

攻擊者：AI 生成大量攻擊（成本低）
防禦者：數學證明一次性確保安全（成本高，但有效）

💡 教訓：防禦能力擴展不需要同等比例資源。

5. AI 超越人類無法避免

Jason Gross 警告：

AI 以指數級速度進步
某天超越人類軟體工程能力無法避免

人類需要準備：

更先進的驗證手段
改變監管方式
否則無法控制自己打造的系統

💡 教訓：技術進步需要配套的驗證與監管。

總結

核心問題：

AI 每年生成數十億行程式碼，但誰來確認這些程式碼真的沒問題？

Theorem 的解法：

形式化驗證 + AI
fractional proof decomposition
數學證明取代人工審查

實際成果：

1,500 頁 PDF → 16,000 行程式碼，無人工審查直接上線
效能提升 100 倍（10 Mbps → 1 Gbps）
傳統需數年 → 現在數週甚至數天

創辦人警告：

AI 超越人類軟體工程能力無法避免
需要更先進的驗證手段與監管方式
否則最終打造出無法控制的系統

第二波 AI 程式：

用數學證明確保速度提升不以犧牲安全為代價。

你覺得這個方向對嗎？ 🤔

下一步行動：

關注 Theorem 的發展
了解形式化驗證基礎知識
思考自己的專案是否需要更嚴格的驗證
準備迎接「寫規格書」時代

#AI #形式化驗證 #FormalVerification #Theorem #程式碼安全 #軟體工程 #數學證明 #JasonGross #不對稱防禦