Allenai開源多模態(tài)的文檔智能解析大模型（Olmocr）方法、效果淺析

作者：余俊暉 2025-02-27 01:00:00

如果是下游rag文檔的元素不是特別復(fù)雜可以用一用這個端到端的多模態(tài)模型，如果版式元素豐富，還是老實進行文檔解析吧。但通過pdfparser工具結(jié)合prompt結(jié)合的方式值得一看。

先說結(jié)論，實際體驗一般，如果是下游rag文檔的元素不是特別復(fù)雜可以用一用這個端到端的多模態(tài)模型，如果版式元素豐富，還是老實進行文檔解析吧。但通過pdfparser工具結(jié)合prompt結(jié)合的方式值得一看。

在線demo：https://olmocr.allenai.org/
開源權(quán)重地址：https://huggingface.co/allenai/olmOCR-7B-0225-preview
paper：Efficient PDF Text Extraction with Vision Language Models，https://arxiv.org/pdf/2502.18443v1
code：https://github.com/allenai/olmocr

筆者測試case：

原圖

OLMOCR解析后，紅色框表格缺失部分

核心問題與背景

PDF文檔蘊含海量高質(zhì)量文本數(shù)據(jù)，但因其復(fù)雜的視覺布局（多欄、表格、公式等）和元數(shù)據(jù)缺失，傳統(tǒng)OCR工具難以準(zhǔn)確提取內(nèi)容?，F(xiàn)有解決方案存在以下痛點：

pipline系統(tǒng)

圖片

Prompt Prompt

如：原圖：通過pdfpaser得到元數(shù)據(jù)拼接提示詞得到：

圖片

兼容性：對無元數(shù)據(jù)的掃描文檔仍保持高精度，僅依賴圖像輸入。
元數(shù)據(jù)提取：通過pypdf庫解析PDF結(jié)構(gòu)，提取關(guān)鍵元素的位置信息，動態(tài)注入模型提示（Prompt）。
多模態(tài)輸入融合（通過提示詞）：同時利用PDF原生元數(shù)據(jù)（文本塊坐標(biāo)、圖像位置）和頁面圖像，顯著減少模型幻覺。

模型架構(gòu)：基于Qwen2-VL-7B-Instruct微調(diào)，支持Markdown結(jié)構(gòu)化輸出（公式LaTeX、表格Markdown）。
訓(xùn)練數(shù)據(jù)：構(gòu)建olmOCR-mix-0225數(shù)據(jù)集（26萬頁PDF），涵蓋學(xué)術(shù)論文、法律文件、手冊等多樣化來源（表1-2）。