PDF 轉 Markdown 不只是省 token：MarkItDown 的真正價值是可除錯、可複用、可索引

這串討論問了一個很常見但重要的問題：如果我先讓 AI 讀 PDF，把它轉成 Markdown，再讓 AI 做後續處理，不就等於同一份文件讀兩次，省不了 token 嗎？

留言區的回答很精準：MarkItDown 不是讓 AI 先讀 PDF，而是電腦本地工具程式負責轉換；AI 只是呼叫工具。也就是說，PDF → Markdown 的成本主要是本地 I/O 與解析，不是高價模型 token。Microsoft 官方 README 也確認 MarkItDown 是一個 lightweight Python utility，用來把各種檔案轉成 Markdown，供 LLM 與文字分析 pipeline 使用。它支援 PDF、PowerPoint、Word、Excel、圖片、音訊、HTML、CSV、JSON、XML、ZIP、YouTube URLs、EPUB 等格式。

討論串中最有價值的觀點有三個：

可除錯：轉成 Markdown 後，如果 OCR、表格、段落、標題層級錯了，可以直接 debug Markdown、打 patch。若直接讓模型讀圖片或 PDF，模型幻覺或視覺誤讀時很難定位。
可複用：同一份文件通常不只被問一次。轉成 Markdown 就像先做好 index，以後多次問答、換模型、重跑流程都能重用。
可切 scope：文件常包含圖、表、前言、附錄、補充資料。Markdown 化後可以分段、分章、建立 metadata，讓 agent 只讀需要的範圍，而不是每次整份 PDF 全吃。

留言也補了幾個實務工具路線：

MarkItDown：適合一般 Office / PDF / URL / YouTube 字幕轉 Markdown。
opendataloader-pdf：有人提到可本地整合。
MinerU：若 PDF 有大量圖片、版面、公式或表格，有留言建議用本地 MinerU 轉 Markdown，再交給 AI。
NotebookLM：有人現在把讀資料丟給 NotebookLM，複雜處理才進 Claude Code；這其實也是「先建立可查詢中介層」的思路。

我的判斷：PDF 轉 Markdown 不該只被理解成 token optimization。它真正的價值是把「不可控的文件輸入」變成「可版本化、可審查、可局部更新、可被 agent 重複使用」的中介格式。對企業知識庫、合約審閱、報表分析、政府補助核銷文件，這會比單次省 token 更重要。

操作建議：

一次性、短 PDF：可以直接丟給模型，沒必要過度工程。
會反覆查詢、多人共用、要進 KB 的 PDF：先轉 Markdown。
圖表多、掃描件多：優先測 MinerU / OCR pipeline，再輸出 Markdown。
重要文件：Markdown 轉換後要人工或小模型抽查，避免錯誤被永久寫進知識庫。
Agent workflow：把「轉檔 → 檢查 → 分段 → 摘要 → 建索引」做成固定 skill，而不是每次臨時 prompt。

原始 Threads： https://www.threads.com/@budafang/post/DXoLAKwk0vK

核實來源： https://github.com/microsoft/markitdown