AI 工作流真正常卡住的不是模型，而是 PDF parsing：Fire-PDF 的價值，在於把文件前處理從脆弱的抽字流程升級成可進生產線的 ingestion 層

這則 Threads 在介紹 Firecrawl 推出的 Fire-PDF。作者的切入點很準：很多 AI 工作流看起來是模型問題，實際上真正卡住的地方常常在更前面——PDF parsing。

1. PDF 的難，不是抽到字，而是抽到「還有結構的內容」

真正麻煩的是：轉 markdown 時段落結構常亂掉、表格抽不完整、公式與符號破碎、頁面區塊順序錯亂、多欄版面被讀成錯誤流向。模型真正拿到的，常常不是原文，而是一份已經被前處理污染過的半成品。

如果一個 parsing engine 能比較穩地做到更完整的 markdown 保留、更好的表格抽取、對公式更少破壞、更少需要前期調參，那它實際上做的，是把文件 ingestion 從「偶爾可用的工具鏈」往「可以接上生產流程的基礎層」推進。

很多討論都把注意力放在模型、agent 或 context window，但如果文件在第一步就被錯讀，後面整條鏈都只是精緻地處理錯誤資料。想提升結果品質，很多時候該優先優化的不是 prompt，而是 ingestion pipeline。

Fire-PDF 真正有價值的，不只是又一個 parsing 工具，而是它把『文件前處理』這個常被忽略的脆弱環節，重新拉回 AI workflow 的核心位置。