避開黃磚路:AI 應用新創的護城河在工作系統
把高性能模型接上 Google Drive、Slack、Salesforce、Notion、GitHub 等通用工具,再包一層代理編排。這類低步驟、水平化、可由模型能力直接改善的任務,正是 OpenAI、Anthropic 等實驗室最有資源、毛利與分發優勢的地帶。
法律、保險、金融、銷售、客服、財務等場景往往有多步驟、多角色審核、舊系統整合、不可容忍的錯誤,以及合規與稽核責任。價值不只來自模型,而來自模型周圍的軟體、流程、資料與治理。
真正有價值的資料常不是公開網頁,而是企業內部的部落知識、例外處理、未寫成文件的標準、主管覆核邏輯與客戶特有偏好。垂直產品長期跑在工作流裡,能累積跨客戶的問題型態,以及單一客戶內部的決策理由。
模型實驗室會不斷推出新模型,但客戶不想每次都重新校準 prompt、eval、成本與邊界。應用公司可以成為控管層:跨供應商選模、重跑評測、灰度升級、保證生產環境不被模型更新打壞。
所有任務都丟給最貴 frontier model 會直接吃掉毛利。好的工作系統會把複雜判斷交給大模型,把重複、窄域、可驗證任務交給中小模型、微調模型或確定性程式,賣的是「達成特定業務結果所需的最低智能成本」。
企業端付費買的不只是生成結果,而是誰能讓 agent 做什麼、每一步做了什麼、是否可稽核、是否符合 HIPAA、SEC、FINRA、保險法規、律師倫理或客戶內控。這些 guardrails 必須依產業與用例設計,水平工具很難一次做到。
| 判斷測試 | 如果答案偏左 | 如果答案偏右 |
|---|---|---|
| 工具與步驟測試 | 單一步驟、單一工具、錯了可重問:容易被水平模型功能化。 | 多步驟、多系統、多角色審核、錯誤成本高:適合垂直工作系統。 |
| 系統測試 | 產品只是疊在既有工作流上的工具。 | 產品掌握資料擷取、流程編排、權限、紀錄與實際作業。 |
| P&L 測試 | 客戶買的是通用能力或「更聰明的模型」。 | 客戶衡量的是成交、核保、紅線審查、客服解決率、成本下降等損益表指標。 |
a16z 文中引用 11x CEO 的觀點:銷售 AI 的目標不是生成漂亮 email,而是端到端產生 pipeline。這牽涉客戶訊號、名單擴充、CRM 狀態、帳戶研究、訊息生成、資格判定、送達率、合規話術與回覆處理。很多價值其實是非 agentic 的確定性軟體工程。
FurtherAI 的保險觀點更直接:核保決策不是模型從零推理,而是 carrier 的 SOP、風險偏好、升級條件、外部資料、主管覆核與文件化要求共同形成的工作記憶。每次人工修正與例外處理,都是下一輪系統改善的訓練訊號。
- 產品是否擁有一段客戶不可或缺的「系統 of action」,而不只是建議層或聊天層?
- 是否有模型大廠拿不到的流程資料、例外分類、人工覆核紀錄與垂直 eval set?
- 是否能清楚拆出哪些任務需要 agent,哪些應該用確定性工程、規則、佇列、審批或人類覆核?
- 是否能在模型升級時吸收風險,而不是把遷移成本丟給客戶?
- 是否能用客戶 P&L 指標證明價值,而不是只用 SWE-Bench、MMLU 或 demo 效果說故事?
- Threads 整理與討論:Kobayashi:AI 應用層是否會被模型實驗室吃掉?
- a16z 原文:Joe Schmidt, “Avoiding Death on the Yellow Brick Road”
- 相關脈絡:OpenAI / Anthropic 企業端 forward-deployed joint ventures,反映通用模型仍需要大量企業場景客製與部署工程。