多模態 RAG：從 OCR/STT 前處理，走向原生跨模態檢索與可查證引用

AI / Multimodal RAG / Vector Search

Threads 貼文主張：RAG 正從純文字檢索邁向原生多模態檢索；透過 Gemini Embedding 與 Claude Code，可把文字、圖像、PDF、影音等非結構化資料封裝進統一向量資料庫。官方 Google 資料可核對到兩個關鍵進展：Gemini Embedding 2 是 natively multimodal embedding model，能把 text、images、video、audio、documents 放進 single embedding space；Gemini API File Search 則新增 multimodal support、custom metadata 與 page-level citations。

保守修正：「30 分鐘建完商業級多模態知識庫」應視為 demo / prototype 敘事，不是 production 承諾。多模態 RAG 真正難的是資料切分、metadata、召回率、引用追溯、權限、成本、更新與評估。

傳統 Text RAG

圖片、影片與音訊通常先經 OCR / STT 轉成文字，再嵌入與檢索。優點是工程簡單；缺點是視覺版面、圖像語意、時間軸與多模態關係容易在轉換中流失。

原生多模態 Embedding

Gemini Embedding 2 官方描述為把文字、圖片、影片、音訊與文件映射到 single embedding space，使跨媒體 retrieval 與 classification 成為同一套相似度問題。

File Search 的產品化方向

Gemini API File Search 的官方更新重點是 multimodal support、custom metadata、page-level citations。這表示多模態 RAG 不只要「找得到」，還要能篩選、驗證與追溯來源。

層級	工程選擇	驗收重點
資料攝取	文字、PDF、圖片、影音、metadata 同步進管線。	檔案版本、權限、來源 URL、頁碼/時間戳不能丟。
Embedding	使用多模態 embedding 或分模態 embedding + fusion。	跨模態查詢是否真的召回正確圖/段落/時間點。
Vector DB	Pinecone / pgvector / Weaviate / Milvus 等。	metadata filter、namespace、更新/刪除、成本與延遲。
生成回答	LLM 讀回收片段與媒體引用後回答。	必須附 citation；沒有可追溯來源就不能算可驗收。
前端呈現	圖文混合、PDF 原圖、圖片放大、影音片段。	使用者能回到原圖、原頁或原時間戳核對。

實作前檢查：

定義 query 類型：以文搜圖、以圖搜文、PDF 問答、影片片段檢索，各自測 recall。
metadata 先設計：tenant、source、page、timestamp、permission、file version。
建立 evaluation set：每種模態至少準備已知答案與應召回來源。
citation 要到 page-level / timestamp-level；只回文件名不夠。
Claude Code / vibe coding 可加速 prototype，但 production 仍需 code review、測試、權限與成本監控。

來源：
Threads 原文：https://www.threads.com/@tech.pulse.ai.tw/post/DYwex82Eb1s
Google：Gemini Embedding 2
Google：Gemini API File Search is now multimodal