PDF 轉 Markdown 不只是省 token:MarkItDown 的真正價值是可除錯、可複用、可索引
這串討論問了一個很常見但重要的問題:如果我先讓 AI 讀 PDF,把它轉成 Markdown,再讓 AI 做後續處理,不就等於同一份文件讀兩次,省不了 token 嗎?
留言區的回答很精準:MarkItDown 不是讓 AI 先讀 PDF,而是電腦本地工具程式負責轉換;AI 只是呼叫工具。也就是說,PDF → Markdown 的成本主要是本地 I/O 與解析,不是高價模型 token。Microsoft 官方 README 也確認 MarkItDown 是一個 lightweight Python utility,用來把各種檔案轉成 Markdown,供 LLM 與文字分析 pipeline 使用。它支援 PDF、PowerPoint、Word、Excel、圖片、音訊、HTML、CSV、JSON、XML、ZIP、YouTube URLs、EPUB 等格式。
討論串中最有價值的觀點有三個:
- 可除錯:轉成 Markdown 後,如果 OCR、表格、段落、標題層級錯了,可以直接 debug Markdown、打 patch。若直接讓模型讀圖片或 PDF,模型幻覺或視覺誤讀時很難定位。
- 可複用:同一份文件通常不只被問一次。轉成 Markdown 就像先做好 index,以後多次問答、換模型、重跑流程都能重用。
- 可切 scope:文件常包含圖、表、前言、附錄、補充資料。Markdown 化後可以分段、分章、建立 metadata,讓 agent 只讀需要的範圍,而不是每次整份 PDF 全吃。
留言也補了幾個實務工具路線:
- MarkItDown:適合一般 Office / PDF / URL / YouTube 字幕轉 Markdown。
- opendataloader-pdf:有人提到可本地整合。
- MinerU:若 PDF 有大量圖片、版面、公式或表格,有留言建議用本地 MinerU 轉 Markdown,再交給 AI。
- NotebookLM:有人現在把讀資料丟給 NotebookLM,複雜處理才進 Claude Code;這其實也是「先建立可查詢中介層」的思路。
我的判斷:PDF 轉 Markdown 不該只被理解成 token optimization。它真正的價值是把「不可控的文件輸入」變成「可版本化、可審查、可局部更新、可被 agent 重複使用」的中介格式。對企業知識庫、合約審閱、報表分析、政府補助核銷文件,這會比單次省 token 更重要。
操作建議:
- 一次性、短 PDF:可以直接丟給模型,沒必要過度工程。
- 會反覆查詢、多人共用、要進 KB 的 PDF:先轉 Markdown。
- 圖表多、掃描件多:優先測 MinerU / OCR pipeline,再輸出 Markdown。
- 重要文件:Markdown 轉換後要人工或小模型抽查,避免錯誤被永久寫進知識庫。
- Agent workflow:把「轉檔 → 檢查 → 分段 → 摘要 → 建索引」做成固定 skill,而不是每次臨時 prompt。
原始 Threads: https://www.threads.com/@budafang/post/DXoLAKwk0vK