PDF OCR 表格能力比較：Mistral OCR、pdf2md、pdfplumber、MarkItDown、Google Vision、Firecrawl

Document AI / Threads Ingestion / 2026-06-20

貼文用表格能力排序 PDF 辨識工具：Mistral OCR 表格最強且可處理掃描圖；本地工具 pdf2md 快、pdfplumber 精準但需自寫 parser，MarkItDown 表格弱。

整理原則：此文由 Threads 社群貼文整理而來；涉及投資、金融、法律、醫療、商譽或未驗證技術 claims 時，均視為線索與判斷框架，不直接等同官方確認或投資建議。

核心內容

這篇可直接當文件管線選型備忘。作者結論是：若重點是表格結構，Mistral OCR 表現突出；Google Vision 偏純文字 OCR，不理解結構；Firecrawl 與 MarkItDown 對表格較弱；pdfplumber 精準但工程成本高。對 Kate 的文件任務，遇到表格 PDF 不應只用單一抽文字工具，應依文件型態切換管線。

查證結果

查證狀態：已查證 / 部分查證成立（verified / partially verified）

Mistral 官方明確宣稱 Mistral OCR 可從 PDF/圖片抽取文字、表格與方程式；MarkItDown 支援多格式轉 Markdown，保留結構供 LLM 分析；pdfplumber 可解析 PDF 字元、線條與表格但非 OCR；Google Vision 支援 PDF/TIFF OCR；Firecrawl 主要是網頁 scrape。比較時應按 OCR、表格、Markdown、網頁抓取分層，不宜混為同類工具。

查證來源

來源

Threads：@cyh.289