自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Allenai開源多模態(tài)的文檔智能解析大模型(Olmocr)方法、效果淺析

人工智能
如果是下游rag文檔的元素不是特別復(fù)雜可以用一用這個端到端的多模態(tài)模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結(jié)合prompt結(jié)合的方式值得一看。

先說結(jié)論,實際體驗一般,如果是下游rag文檔的元素不是特別復(fù)雜可以用一用這個端到端的多模態(tài)模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結(jié)合prompt結(jié)合的方式值得一看。

  • 在線demo:https://olmocr.allenai.org/
  • 開源權(quán)重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview
  • paper:Efficient PDF Text Extraction with Vision Language Models,https://arxiv.org/pdf/2502.18443v1
  • code:https://github.com/allenai/olmocr

筆者測試case:

原圖原圖

OLMOCR解析后,紅色框表格缺失部分OLMOCR解析后,紅色框表格缺失部分

核心問題與背景

PDF文檔蘊含海量高質(zhì)量文本數(shù)據(jù),但因其復(fù)雜的視覺布局(多欄、表格、公式等)和元數(shù)據(jù)缺失,傳統(tǒng)OCR工具難以準(zhǔn)確提取內(nèi)容?,F(xiàn)有解決方案存在以下痛點:

  • pipline系統(tǒng)(如Grobid)依賴多組件串聯(lián),對復(fù)雜布局泛化性差;

pipline系統(tǒng)pipline系統(tǒng)

  • 端到端模型(如Nougat)僅依賴圖像輸入,忽略PDF原生元數(shù)據(jù),成本高昂(如GPT-4o處理百萬頁需$6,200);
  • 數(shù)據(jù)稀缺:缺乏大規(guī)模、多樣化的PDF訓(xùn)練數(shù)據(jù)。

OLMOCR創(chuàng)新點

  1. DOCUMENT-ANCHORING技術(shù)

圖片圖片

PromptPrompt

如:原圖:圖片通過pdfpaser得到元數(shù)據(jù)拼接提示詞得到:

圖片圖片

  • 兼容性:對無元數(shù)據(jù)的掃描文檔仍保持高精度,僅依賴圖像輸入。
  • 元數(shù)據(jù)提取:通過pypdf庫解析PDF結(jié)構(gòu),提取關(guān)鍵元素的位置信息,動態(tài)注入模型提示(Prompt)。
  • 多模態(tài)輸入融合(通過提示詞):同時利用PDF原生元數(shù)據(jù)(文本塊坐標(biāo)、圖像位置)和頁面圖像,顯著減少模型幻覺。
  1. 蒸餾模型
  • 模型架構(gòu):基于Qwen2-VL-7B-Instruct微調(diào),支持Markdown結(jié)構(gòu)化輸出(公式LaTeX、表格Markdown)。
  • 訓(xùn)練數(shù)據(jù):構(gòu)建olmOCR-mix-0225數(shù)據(jù)集(26萬頁PDF),涵蓋學(xué)術(shù)論文、法律文件、手冊等多樣化來源(表1-2)。圖片

實驗結(jié)果

與教師模型GPT-4o的文本對齊度達87.5%,優(yōu)于GPT-4o mini(83.3%)。溫度(τ=0.8)下對齊度略降(85.9%),但減少生成重復(fù)。

圖片圖片

在2,017份PDF的對比測試中,OLMOCR以ELO 1800+顯著優(yōu)于Marker、MinerU等工具(圖6)。使用OLMOCR數(shù)據(jù)微調(diào)OLMo-2模型,在MMLU、ARC等基準(zhǔn)上平均提升1.3%。

圖片圖片


責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2024-12-12 00:25:09

2025-01-08 08:21:16

2023-08-14 07:20:10

2024-03-25 12:40:19

訓(xùn)練模型

2024-01-22 13:59:00

模型訓(xùn)練

2023-05-28 23:26:16

多模態(tài)機器學(xué)習(xí)大腦

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-03-19 09:30:00

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2024-10-28 08:55:19

2024-09-10 12:11:18

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-07-12 11:35:20

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-05-17 16:02:00

2023-12-25 13:24:00

模型OCR頁面

2024-09-25 14:53:00

2025-04-25 02:30:00

機械臂大模型多模態(tài)
點贊
收藏

51CTO技術(shù)棧公眾號