自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型 原創(chuàng)

發(fā)布于 2025-1-17 10:34
瀏覽
0收藏

編者按: 每天我們都在與各種格式的文檔打交道,如何快速準(zhǔn)確地從這些文檔中提取有價值的信息,如何讓 AI 理解文檔中的表格、公式和圖表,成為擺在我們面前的一道難題。

特別是對于從事數(shù)據(jù)分析、學(xué)術(shù)研究或法律工作的專業(yè)人士來說,手動處理和整理這些文檔不僅耗時耗力,還容易出錯。一份技術(shù)報告中的復(fù)雜數(shù)學(xué)公式,一篇論文中的多層嵌套表格,或是一份合同中的關(guān)鍵條款,都需要我們投入大量精力去理解和提取。

本文深入剖析了當(dāng)前文檔解析技術(shù)的兩大主流方向:模塊化 pipeline 系統(tǒng)和基于大型視覺-語言模型的端到端處理方法。作者不僅詳細(xì)介紹了從布局分析、OCR 到數(shù)學(xué)公式識別、圖表處理的各個技術(shù)模塊,還對包括 Nougat、Fox、OmniParser 在內(nèi)的多個前沿模型進(jìn)行了深入介紹。

作者 | Florian June

編譯 | 岳揚(yáng)

眾多文檔,如技術(shù)手冊、歷史檔案、學(xué)術(shù)論文和法律文件,往往以掃描件或圖片形式存在。這對檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)、內(nèi)容提取以及文檔解讀等后續(xù)處理工作構(gòu)成了極大的挑戰(zhàn)。

文檔解析技術(shù)應(yīng)運(yùn)而生,它能夠識別并提取文檔中的多種元素,如文字、公式、表格和圖片,同時保持它們之間的結(jié)構(gòu)聯(lián)系。提取后的內(nèi)容可轉(zhuǎn)換成 Markdown、HTML 或 JSON 等結(jié)構(gòu)化格式,從而實現(xiàn)與下游任務(wù)的無縫集成。

01 Overview

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 1:文檔解析方法概述。來源:Document Parsing Unveiled[1]

文檔解析技術(shù)主要分為兩大類:模塊化 pipeline 系統(tǒng)和基于大型視覺-語言模型的端到端處理方法。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 2:兩種文檔解析方法。來源:Document Parsing Unveiled[1]

模塊化 pipeline 系統(tǒng)[2]將文檔解析任務(wù)拆分為多個獨(dú)立階段,每個階段針對特定的功能和任務(wù)。這些模塊通常包括:

  • 布局分析:它通過識別文本塊、標(biāo)題、圖片、表格和數(shù)學(xué)表達(dá)式等元素,以及它們在文檔中的空間布局和閱讀順序,來檢測文檔布局結(jié)構(gòu)。
  • 內(nèi)容提取:這一步驟涉及多個關(guān)鍵流程,例如文本提取、數(shù)學(xué)公式提取、表格數(shù)據(jù)提取和結(jié)構(gòu)提取,以及圖表識別。
  • 關(guān)系整合:在保持元素間空間和語義關(guān)系的基礎(chǔ)上,將提取的文本、表格和圖表等元素進(jìn)行整合。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 3:基于模塊化 pipeline 方法的概覽圖,此圖由作者提供

而端到端視覺-語言模型(VLMs)則致力于通過多模態(tài)大模型統(tǒng)一處理任務(wù),從而簡化文檔解析流程。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 4:端到端視覺-語言模型(VLMs)的概覽圖,此圖由作者提供

02 模塊化 pipeline 系統(tǒng):布局分析

布局分析(Layout analysis)是識別文檔結(jié)構(gòu)的關(guān)鍵步驟,它能夠精確地定位文本塊、圖片和表格,從而實現(xiàn)信息的準(zhǔn)確提取。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 5:文檔布局分析 (DLA) 算法概覽。來源:Document Parsing Unveiled[1]

布局分析采用的方法包括使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來捕捉視覺特征,以及 Transformers 和基于圖的網(wǎng)絡(luò)來處理元素間的空間與語義關(guān)系。

通過引入多模態(tài)模型,如 LayoutLM,布局分析得以同時結(jié)合文檔的布局和文本信息,進(jìn)一步提升了文檔解析的準(zhǔn)確性。

用于布局分析的主流數(shù)據(jù)集如圖 6 所示。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 6:DLA 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]

這些數(shù)據(jù)集分為合成數(shù)據(jù)集、真實數(shù)據(jù)集和混合數(shù)據(jù)集,覆蓋了從歷史文獻(xiàn)、學(xué)術(shù)論文到收據(jù)等多種文檔類型。

早期數(shù)據(jù)集,例如 IMPACT 和 GW20,主要關(guān)注歷史文件,而像 PubLayNet 這樣的新數(shù)據(jù)集則更注重復(fù)雜的印刷布局。ICDAR 等競賽提供的帶有高質(zhì)量標(biāo)注的標(biāo)準(zhǔn)化數(shù)據(jù)集,對于模型評估和基準(zhǔn)測試至關(guān)重要。

03 模塊化 pipeline 系統(tǒng):光學(xué)字符識別技術(shù)(OCR)

光學(xué)字符識別(Optical Character Recognition, OCR)技術(shù)是將文檔圖像轉(zhuǎn)換為機(jī)器可讀文本的核心,它為多種后續(xù)處理任務(wù)提供了基礎(chǔ)支持。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 7:OCR 算法概覽。來源:Document Parsing Unveiled[1]

文本檢測是首個步驟,采用了包括 YOLO 等單階段回歸模型和 Faster R-CNN 等兩階段提議方法來定位文本區(qū)域。

緊隨其后的文本識別步驟,則通過 CRNN 等基于 CTC loss 的模型和基于 Transformer 的序列到序列(sequence-to-sequence)方法,將識別出的文本轉(zhuǎn)換為結(jié)構(gòu)化格式。

最新的研究進(jìn)展通過整合語義信息,顯著提高了對復(fù)雜和不規(guī)則文本的識別精度。

端到端的文本定位模型將檢測與識別合二為一,通過共享特征表示提升了操作的效率和準(zhǔn)確性。

OCR 使用的主流數(shù)據(jù)集如圖 8 所示。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 8:OCR 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]

這些 OCR 數(shù)據(jù)集既包含印刷文本也包含自然場景文本,其中 ICDAR 競賽提供的數(shù)據(jù)集(如 ICDAR2013 和 ICDAR2015 )在自然場景文本檢測評估中尤為突出。專門針對復(fù)雜場景下不規(guī)則文本的數(shù)據(jù)集,如 Street View Text Perspective 和 MSRA-TD500,也是研究的重要資源。SynthText 和 SynthAdd 等合成數(shù)據(jù)集則為文本檢測和識別提供了大量訓(xùn)練數(shù)據(jù)。端到端 OCR 任務(wù)得益于 ICDAR2015 和 ICDAR2019 等帶有區(qū)域和文本注釋的數(shù)據(jù)集的支持。

04 模塊化 pipeline 系統(tǒng):數(shù)學(xué)表達(dá)式的檢測和識別

數(shù)學(xué)表達(dá)式的識別與檢測旨在識別和解釋文檔中的數(shù)學(xué)符號,包括獨(dú)立表達(dá)式和內(nèi)聯(lián)表達(dá)式。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 9:數(shù)學(xué)表達(dá)式識別與檢測的全景圖。來源:Document Parsing Unveiled[1]

4.1 檢測過程

這一過程著重于在文檔中搜尋并確定數(shù)學(xué)表達(dá)式的位置,使其與周圍的文字區(qū)分開來。

最初,這一領(lǐng)域依賴于基于規(guī)則的方法,但現(xiàn)在,深度學(xué)習(xí)技術(shù)的應(yīng)用,如使用邊界框和圖像分割,極大地提升了檢測的精確度和速度。卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初為這一領(lǐng)域帶來了定位能力,而 DS-YOLOv5 和 R-CNN 等新算法更是將這一能力推向了新的高度。

4.2 識別過程

而識別的任務(wù)則是解讀那些被檢測到的數(shù)學(xué)表達(dá)式的含義,將其中的符號和結(jié)構(gòu)轉(zhuǎn)換成 LaTeX 或 MathML 等編碼格式。

編碼器-解碼器模型負(fù)責(zé)將數(shù)學(xué)圖像轉(zhuǎn)換成 LaTeX 等格式,這通常涉及到使用 CNN 來提取圖像的局部特征,以及使用 Transformer 來處理復(fù)雜的依賴關(guān)系。

在數(shù)學(xué)表達(dá)式識別(MER)領(lǐng)域,使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)和 Transformer 模型來進(jìn)行序列處理,這與 OCR 領(lǐng)域類似。帶有注意力機(jī)制的 RNN 擅長處理嵌套和層次化的結(jié)構(gòu),而 GRU 等先進(jìn)設(shè)計則提升了處理效率。樹形結(jié)構(gòu)和 Transformer 解碼器解決了梯度消失和計算成本高等問題,因此它們在處理復(fù)雜公式時更為得心應(yīng)手。

4.3 數(shù)據(jù)集

數(shù)學(xué)表達(dá)檢測(MED)和識別(MER)數(shù)據(jù)集對于提高印刷和手寫數(shù)學(xué)表達(dá)式的識別準(zhǔn)確率至關(guān)重要。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 10:MED 和 MER 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]

重要數(shù)據(jù)集,例如 UW-III、InftyCDB-1 和 Marmot,支持各種文檔類型的檢測、提取和定位等任務(wù)。ICDAR 系列數(shù)據(jù)集對此領(lǐng)域貢獻(xiàn)頗大,尤其是 ICDAR-2017 POD 和 ICDAR-2021 IBEM,它們針對的是更為復(fù)雜的場景。同時,F(xiàn)ormulaNet 和 ArxivFormula 等大型數(shù)據(jù)集則專注于從圖片中提取數(shù)學(xué)公式。

盡管現(xiàn)有資源豐富,但為了更好地支持多格式識別和提高模型的穩(wěn)健性,數(shù)據(jù)集的進(jìn)一步開發(fā)仍然十分必要。

05 模塊化 pipeline 系統(tǒng):圖表處理

常見的圖表類型包括折線圖、條形圖、面積圖、餅圖和散點圖,每種圖表都在傳達(dá)關(guān)鍵信息方面發(fā)揮著重要作用。

圖表處理任務(wù)包括圖表分類、元素識別和數(shù)據(jù)提取等,目的是將圖表中的視覺信息轉(zhuǎn)化為表格或 JSON 等易于分析和訪問的結(jié)構(gòu)化數(shù)據(jù)格式。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 13:文檔中與圖表相關(guān)的任務(wù)概覽。來源:Document Parsing Unveiled[1]

圖表分類是區(qū)分不同圖表類型(如條形圖、折線圖、餅圖等)的關(guān)鍵,利用 CNN 和Vision Transformer技術(shù),Swin-Chart 等模型在處理復(fù)雜和相似的圖表方面表現(xiàn)卓越。

圖表檢測和元素識別則需要布局檢測算法來定位圖表區(qū)域、匹配標(biāo)題和分割復(fù)合圖表,這通常需要借助 YOLO 和 Faster R-CNN 等目標(biāo)檢測模型實現(xiàn)。

圖表感知技術(shù)(chart perception)能夠從圖表中提取數(shù)據(jù)結(jié)構(gòu)和文本信息。ChartDETR 等先進(jìn)方法結(jié)合了 CNN 和 Transformer,實現(xiàn)了端到端的數(shù)據(jù)提取,而 FR-DETR 等模型則優(yōu)化了流程圖和樹狀圖的結(jié)構(gòu)提取,但處理復(fù)雜連接線的挑戰(zhàn)依然存在。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 14:圖表相關(guān)任務(wù)常用數(shù)據(jù)集匯總。來源:Document Parsing Unveiled[1]

DeepChart、VIEW 和 ReVision 等成熟數(shù)據(jù)集支持圖表分類研究,提供了豐富的圖表類型。對于數(shù)據(jù)提取和結(jié)構(gòu)提取,UB-PMC 和 Synth 等自定義數(shù)據(jù)集提供了寶貴但有限的資源。UB-PMC 包含真實的科學(xué)圖表,而 Synth 則是生成的模擬圖表。LineEX430k 和 OneChart 等最新數(shù)據(jù)集專注于更高級的任務(wù),如信息提取、問答和推理。

06 大模型助力文檔解析

大型文檔提取模型(DELMs)采用基于 Transformer 的架構(gòu),能夠?qū)⑽谋?、圖像、表格等多模態(tài)信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),這對于深入解析復(fù)雜文檔極為關(guān)鍵。

早期的模型,例如 LLaVA-Next 和 Qwen-VL,雖然為多模態(tài)信息處理奠定了基礎(chǔ),但在處理專業(yè)文檔時,它們在光學(xué)字符識別(OCR)和文檔結(jié)構(gòu)理解方面的精細(xì)度不足。

隨后開發(fā)的模型,如 Nougat[3] 和 Vary[4],則在 OCR、結(jié)構(gòu)化信息提取以及頁面布局編排方面進(jìn)行了優(yōu)化,有效應(yīng)對了技術(shù)文檔處理中的難題。

2024 年,F(xiàn)ox 模型[5]在處理多頁文檔方面取得了突破,能夠在不同頁面間整合視覺與文本數(shù)據(jù),且無需調(diào)整模型權(quán)重。Detect-Order-Construct 模型[6]通過將文檔結(jié)構(gòu)解析分解為檢測、排序和構(gòu)建三個步驟,進(jìn)一步提高了分層解析的精度。OmniParser[7] 等模型則朝著集成化框架邁進(jìn),提升了文本與表格的識別能力。而 GOT 模型[8]則開創(chuàng)了一種全能的 OCR 方法,能夠應(yīng)對包括樂譜和復(fù)雜布局在內(nèi)的多種文檔類型。

這些進(jìn)步預(yù)示著大型文檔提取模型(DELMs)解決方案正在更加全面地發(fā)展,為學(xué)術(shù)研究到專業(yè)領(lǐng)域的文檔處理帶來了速度與準(zhǔn)確性的雙重提升。

07 開源文檔解析工具及其評估

7.1 Tools

以下是一些廣受歡迎的開源工具。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 15:在 GitHub 上獲得超過 1000 個星標(biāo)的開源文檔解析工具。來源:Document Parsing Unveiled[1]

在 OCR 工具方面,Tesseract 和 PaddleOCR 以其高精確度、高速度以及多語言支持而處于領(lǐng)先地位。Tesseract 適合處理大規(guī)模的任務(wù),而 PaddleOCR 在應(yīng)對復(fù)雜情況時尤為出色。

對于那些結(jié)構(gòu)較為復(fù)雜的文檔,Unstructured[9] 和 Zerox 等專業(yè)框架展現(xiàn)出了卓越的性能,它們能夠高效地提取出嵌套表格和混合內(nèi)容。

包括 Nougat[3]、Fox[5]、Vary[4] 和 GOT[8] 在內(nèi)的先進(jìn)大模型,提供了專項解析功能。Nougat 特別適合解析含有公式的科學(xué)文檔,F(xiàn)ox 擅長整合多模態(tài)信息,Vary 能夠處理文本與圖像混合的多種格式,而 GOT 憑借其統(tǒng)一架構(gòu),在處理表格、幾何圖形等不同內(nèi)容類型時表現(xiàn)優(yōu)異。

GPT-4 和 LLaMA 系列等多模態(tài)模型也在一定程度上支持文檔解析任務(wù)。

7.2 Evaluation

此外,本研究還對 10 種熱門 PDF 解析工具在 6 個不同文檔類別中的表現(xiàn)進(jìn)行了評估和對比。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 16:文本和表格提取工具概覽。這些工具的主要提取功能包括圖像(I)、文本(T)、元數(shù)據(jù)(M)、目錄(TOC)以及表格(TB)。大多數(shù)工具采用的是基于規(guī)則(RB)的技術(shù),部分工具還提供了光學(xué)字符識別(OCR)功能。需要注意,Nougat 和 Table Transformers 并不是本研究的主要重點。來源:A Comparative Study of PDF Parsing Tools[10]

以下是基于 DocLayNet 數(shù)據(jù)集的 PDF 解析器評估結(jié)果的簡明摘要。

在文本提取方面,不同文檔類型間的性能差異頗為顯著。PyMuPDF 和 pypdfium 在 Financial、 Tender、Law 和 Manual 類別中表現(xiàn)尤為出色,尤其是在保留單詞結(jié)構(gòu)方面。而在 visual transformer 模型 Nougat 的對比下,基于規(guī)則的解析器在文本提取上的表現(xiàn)則略顯遜色。

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型-AI.x社區(qū)

圖 17:基于規(guī)則的解析器與 Nougat 在科學(xué)文檔文本提取能力的對比。來源:A Comparative Study of PDF Parsing Tools[10]

在表格提取方面,基于規(guī)則的工具在某些特定類別中表現(xiàn)不俗,Camelot 在 Tender 類別中領(lǐng)先,Tabula 則在 Manual、Scientific 和 Patent 類別中表現(xiàn)優(yōu)異。不過,TATR[11] 在多數(shù)類別中展現(xiàn)出了穩(wěn)定而全面的表現(xiàn),尤其是在 Scientific 類別中(召回率超過0.9),盡管在 Manual 和 Tender 類別中它稍遜于 PyMuPDF 和 Camelot。

基于規(guī)則的方法,如 PyMuPDF 和 pdfplumber,在處理結(jié)構(gòu)較為簡單的文檔時表現(xiàn)良好。但當(dāng)遇到科學(xué)和專利文檔時,基于學(xué)習(xí)的方法,如 Nougat 和 TATR,由于能夠更好地處理復(fù)雜的布局和結(jié)構(gòu),因此表現(xiàn)更為出色。

08 Thoughts and Insights

8.1 實際應(yīng)用現(xiàn)狀

據(jù)我所知,目前模塊化 pipeline 系統(tǒng)在實際應(yīng)用中得到了廣泛應(yīng)用,而端到端的大模型在實際應(yīng)用中仍面臨一些限制。

盡管如此,端到端的大模型展現(xiàn)出了發(fā)展的巨大潛力。

8.2 文檔解析的挑戰(zhàn)

模塊化 pipeline 系統(tǒng)面臨的挑戰(zhàn)包括:

  • 文檔布局分析(DLA)需要更深入地理解嵌套式布局。
  • 光學(xué)字符識別(OCR)在處理密集文本和多字體文本時存在難題。
  • 表格識別需要能夠處理那些邊界不清晰或跨多頁的表格。
  • 數(shù)學(xué)表達(dá)式識別需要加強(qiáng)對不同表達(dá)形式的處理能力。
  • 圖表提取缺乏統(tǒng)一的標(biāo)準(zhǔn)定義。

端到端的大模型雖然規(guī)避了模塊化系統(tǒng)的復(fù)雜性,并提升了文檔結(jié)構(gòu)理解的深度,但仍面臨以下挑戰(zhàn):

  • 大多數(shù)用于文檔解析的大模型并未在所有方面超越模塊化 pipeline 系統(tǒng)。
  • 由于參數(shù)固定,OCR 功能受限。
  • 資源消耗大,處理密集文檔效率不高,以及在大規(guī)模數(shù)據(jù)上圖像與文本特征對齊的難題。

8.3 復(fù)雜文件的文檔解析

當(dāng)前的研究往往聚焦于結(jié)構(gòu)簡單的文檔類型(如科學(xué)論文),而忽視了更為復(fù)雜的文件類型(例如簡歷)。

我們需要更加多樣化的數(shù)據(jù)集。

8.4 文檔類型的影響

評估結(jié)果顯示,文檔類型對解析器性能有著顯著影響,因此工具的選擇應(yīng)符合具體的任務(wù)要求。

8.5 模型的可解釋性與反饋循環(huán)

隨著文檔解析在法律和金融文件處理等關(guān)鍵領(lǐng)域的應(yīng)用越來越重要,模型的可解釋性變得不可或缺。能夠提供透明度的技術(shù)(比如解釋為何某些行或單元格被特定方式分組或標(biāo)記)具有極其重要的價值。

展望未來,如果能夠?qū)⒂脩舻姆答佈h(huán)納入系統(tǒng),讓用戶糾正錯誤的解釋,可以為模型的自我優(yōu)化開辟一條新的路徑。這些模型將通過學(xué)習(xí)人類的糾正行為來動態(tài)地改進(jìn)文檔解析的預(yù)測結(jié)果。

09 Conclusion

本文深入評述和分析了文檔解析技術(shù),探討了這一快速發(fā)展的領(lǐng)域中所采用的各種方法和技術(shù)。文章最后,作者分享了一些個人的思考和見解。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Florian June

AI researcher, focusing on LLMs, RAG, Agent, Document AI.

END

本期互動內(nèi)容 ??

?『技術(shù)之辯』模塊化 pipeline vs 端到端大模型,你更看好哪種方案?為什么?

??文中鏈接??

[1]??https://arxiv.org/pdf/2410.21169v2??

[2]??https://ai.gopubby.com/demystifying-pdf-parsing-02-pipeline-based-method-82619dbcbddf??

[3]??https://ai.gopubby.com/demystifying-pdf-parsing-03-ocr-free-small-model-based-method-c71310988129??

[4]??https://ai.gopubby.com/demystifying-pdf-parsing-04-ocr-free-large-multimodal-model-based-method-0fdab50db048??

[5]??https://arxiv.org/pdf/2405.14295v1??

[6]??https://arxiv.org/pdf/2401.11874v2??

[7]??https://arxiv.org/pdf/2403.19128v1??

[8]??https://pub.towardsai.net/demystifying-pdf-parsing-05-unifying-separate-tasks-into-a-small-model-d3739db021f7??

[9]??https://pub.towardsai.net/advanced-rag-02-unveiling-pdf-parsing-b84ae866344e??

[10]??https://arxiv.org/pdf/2410.09871v1??

[11]??https://arxiv.org/pdf/2110.00061v3??

原文鏈接:

??https://pub.towardsai.net/unlocking-key-technologies-in-document-parsing-81bfe20d741b??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦