自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型

人工智能
隨著文檔解析在法律和金融文件處理等關(guān)鍵領(lǐng)域的應(yīng)用越來越重要,模型的可解釋性變得不可或缺。能夠提供透明度的技術(shù)(比如解釋為何某些行或單元格被特定方式分組或標(biāo)記)具有極其重要的價值。

眾多文檔,如技術(shù)手冊、歷史檔案、學(xué)術(shù)論文和法律文件,往往以掃描件或圖片形式存在。這對檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)、內(nèi)容提取以及文檔解讀等后續(xù)處理工作構(gòu)成了極大的挑戰(zhàn)。

文檔解析技術(shù)應(yīng)運(yùn)而生,它能夠識別并提取文檔中的多種元素,如文字、公式、表格和圖片,同時保持它們之間的結(jié)構(gòu)聯(lián)系。提取后的內(nèi)容可轉(zhuǎn)換成 Markdown、HTML 或 JSON 等結(jié)構(gòu)化格式,從而實(shí)現(xiàn)與下游任務(wù)的無縫集成。

1.Overview

圖 1:文檔解析方法概述。來源:Document Parsing Unveiled[1]圖 1:文檔解析方法概述。來源:Document Parsing Unveiled[1]

文檔解析技術(shù)主要分為兩大類:模塊化 pipeline 系統(tǒng)和基于大型視覺-語言模型的端到端處理方法。

圖 2:兩種文檔解析方法。來源:Document Parsing Unveiled[1]圖 2:兩種文檔解析方法。來源:Document Parsing Unveiled[1]

模塊化 pipeline 系統(tǒng)[2]將文檔解析任務(wù)拆分為多個獨(dú)立階段,每個階段針對特定的功能和任務(wù)。這些模塊通常包括:

  • 布局分析:它通過識別文本塊、標(biāo)題、圖片、表格和數(shù)學(xué)表達(dá)式等元素,以及它們在文檔中的空間布局和閱讀順序,來檢測文檔布局結(jié)構(gòu)。
  • 內(nèi)容提?。哼@一步驟涉及多個關(guān)鍵流程,例如文本提取、數(shù)學(xué)公式提取、表格數(shù)據(jù)提取和結(jié)構(gòu)提取,以及圖表識別。
  • 關(guān)系整合:在保持元素間空間和語義關(guān)系的基礎(chǔ)上,將提取的文本、表格和圖表等元素進(jìn)行整合。

而端到端視覺-語言模型(VLMs)則致力于通過多模態(tài)大模型統(tǒng)一處理任務(wù),從而簡化文檔解析流程。

圖 3:基于模塊化 pipeline 方法的概覽圖,此圖由作者提供圖 3:基于模塊化 pipeline 方法的概覽圖,此圖由作者提供

圖 4:端到端視覺-語言模型(VLMs)的概覽圖,此圖由作者提供圖 4:端到端視覺-語言模型(VLMs)的概覽圖,此圖由作者提供

2.模塊化 pipeline 系統(tǒng):布局分析

布局分析(Layout analysis)是識別文檔結(jié)構(gòu)的關(guān)鍵步驟,它能夠精確地定位文本塊、圖片和表格,從而實(shí)現(xiàn)信息的準(zhǔn)確提取。

圖 5:文檔布局分析 (DLA) 算法概覽。來源:Document Parsing Unveiled圖 5:文檔布局分析 (DLA) 算法概覽。來源:Document Parsing Unveiled

布局分析采用的方法包括使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來捕捉視覺特征,以及 Transformers 和基于圖的網(wǎng)絡(luò)來處理元素間的空間與語義關(guān)系。

通過引入多模態(tài)模型,如 LayoutLM,布局分析得以同時結(jié)合文檔的布局和文本信息,進(jìn)一步提升了文檔解析的準(zhǔn)確性。

用于布局分析的主流數(shù)據(jù)集如圖 6 所示。

圖 6:DLA 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]圖 6:DLA 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]

這些數(shù)據(jù)集分為合成數(shù)據(jù)集、真實(shí)數(shù)據(jù)集和混合數(shù)據(jù)集,覆蓋了從歷史文獻(xiàn)、學(xué)術(shù)論文到收據(jù)等多種文檔類型。

早期數(shù)據(jù)集,例如 IMPACT 和 GW20,主要關(guān)注歷史文件,而像 PubLayNet 這樣的新數(shù)據(jù)集則更注重復(fù)雜的印刷布局。ICDAR 等競賽提供的帶有高質(zhì)量標(biāo)注的標(biāo)準(zhǔn)化數(shù)據(jù)集,對于模型評估和基準(zhǔn)測試至關(guān)重要。

3.模塊化 pipeline 系統(tǒng):光學(xué)字符識別技術(shù)(OCR)

光學(xué)字符識別(Optical Character Recognition, OCR)技術(shù)是將文檔圖像轉(zhuǎn)換為機(jī)器可讀文本的核心,它為多種后續(xù)處理任務(wù)提供了基礎(chǔ)支持。

圖 7:OCR 算法概覽。來源:Document Parsing Unveiled[1]圖 7:OCR 算法概覽。來源:Document Parsing Unveiled[1]

文本檢測是首個步驟,采用了包括 YOLO 等單階段回歸模型和 Faster R-CNN 等兩階段提議方法來定位文本區(qū)域。

緊隨其后的文本識別步驟,則通過 CRNN 等基于 CTC loss 的模型和基于 Transformer 的序列到序列(sequence-to-sequence)方法,將識別出的文本轉(zhuǎn)換為結(jié)構(gòu)化格式。

最新的研究進(jìn)展通過整合語義信息,顯著提高了對復(fù)雜和不規(guī)則文本的識別精度。

端到端的文本定位模型將檢測與識別合二為一,通過共享特征表示提升了操作的效率和準(zhǔn)確性。

OCR 使用的主流數(shù)據(jù)集如圖 8 所示。

圖 8:OCR 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]圖 8:OCR 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]

這些 OCR 數(shù)據(jù)集既包含印刷文本也包含自然場景文本,其中 ICDAR 競賽提供的數(shù)據(jù)集(如 ICDAR2013 和 ICDAR2015 )在自然場景文本檢測評估中尤為突出。專門針對復(fù)雜場景下不規(guī)則文本的數(shù)據(jù)集,如 Street View Text Perspective 和 MSRA-TD500,也是研究的重要資源。SynthText 和 SynthAdd 等合成數(shù)據(jù)集則為文本檢測和識別提供了大量訓(xùn)練數(shù)據(jù)。端到端 OCR 任務(wù)得益于 ICDAR2015 和 ICDAR2019 等帶有區(qū)域和文本注釋的數(shù)據(jù)集的支持。

4.模塊化 pipeline 系統(tǒng):數(shù)學(xué)表達(dá)式的檢測和識別

數(shù)學(xué)表達(dá)式的識別與檢測旨在識別和解釋文檔中的數(shù)學(xué)符號,包括獨(dú)立表達(dá)式和內(nèi)聯(lián)表達(dá)式。

圖 9:數(shù)學(xué)表達(dá)式識別與檢測的全景圖。來源:Document Parsing Unveiled[1]圖 9:數(shù)學(xué)表達(dá)式識別與檢測的全景圖。來源:Document Parsing Unveiled[1]

4.1 檢測過程

這一過程著重于在文檔中搜尋并確定數(shù)學(xué)表達(dá)式的位置,使其與周圍的文字區(qū)分開來。

最初,這一領(lǐng)域依賴于基于規(guī)則的方法,但現(xiàn)在,深度學(xué)習(xí)技術(shù)的應(yīng)用,如使用邊界框和圖像分割,極大地提升了檢測的精確度和速度。卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初為這一領(lǐng)域帶來了定位能力,而 DS-YOLOv5 和 R-CNN 等新算法更是將這一能力推向了新的高度。

4.2 識別過程

而識別的任務(wù)則是解讀那些被檢測到的數(shù)學(xué)表達(dá)式的含義,將其中的符號和結(jié)構(gòu)轉(zhuǎn)換成 LaTeX 或 MathML 等編碼格式。

編碼器-解碼器模型負(fù)責(zé)將數(shù)學(xué)圖像轉(zhuǎn)換成 LaTeX 等格式,這通常涉及到使用 CNN 來提取圖像的局部特征,以及使用 Transformer 來處理復(fù)雜的依賴關(guān)系。

在數(shù)學(xué)表達(dá)式識別(MER)領(lǐng)域,使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)和 Transformer 模型來進(jìn)行序列處理,這與 OCR 領(lǐng)域類似。帶有注意力機(jī)制的 RNN 擅長處理嵌套和層次化的結(jié)構(gòu),而 GRU 等先進(jìn)設(shè)計(jì)則提升了處理效率。樹形結(jié)構(gòu)和 Transformer 解碼器解決了梯度消失和計(jì)算成本高等問題,因此它們在處理復(fù)雜公式時更為得心應(yīng)手。

4.3 數(shù)據(jù)集

數(shù)學(xué)表達(dá)檢測(MED)和識別(MER)數(shù)據(jù)集對于提高印刷和手寫數(shù)學(xué)表達(dá)式的識別準(zhǔn)確率至關(guān)重要。

圖 10:MED 和 MER 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveile圖 10:MED 和 MER 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveile

重要數(shù)據(jù)集,例如 UW-III、InftyCDB-1 和 Marmot,支持各種文檔類型的檢測、提取和定位等任務(wù)。ICDAR 系列數(shù)據(jù)集對此領(lǐng)域貢獻(xiàn)頗大,尤其是 ICDAR-2017 POD 和 ICDAR-2021 IBEM,它們針對的是更為復(fù)雜的場景。同時,F(xiàn)ormulaNet 和 ArxivFormula 等大型數(shù)據(jù)集則專注于從圖片中提取數(shù)學(xué)公式。

盡管現(xiàn)有資源豐富,但為了更好地支持多格式識別和提高模型的穩(wěn)健性,數(shù)據(jù)集的進(jìn)一步開發(fā)仍然十分必要。

5.模塊化 pipeline 系統(tǒng):圖表處理

常見的圖表類型包括折線圖、條形圖、面積圖、餅圖和散點(diǎn)圖,每種圖表都在傳達(dá)關(guān)鍵信息方面發(fā)揮著重要作用。

圖表處理任務(wù)包括圖表分類、元素識別和數(shù)據(jù)提取等,目的是將圖表中的視覺信息轉(zhuǎn)化為表格或 JSON 等易于分析和訪問的結(jié)構(gòu)化數(shù)據(jù)格式。

圖 13:文檔中與圖表相關(guān)的任務(wù)概覽。來源:Document Parsing Unveiled[1]圖 13:文檔中與圖表相關(guān)的任務(wù)概覽。來源:Document Parsing Unveiled[1]

圖表分類是區(qū)分不同圖表類型(如條形圖、折線圖、餅圖等)的關(guān)鍵,利用 CNN 和Vision Transformer技術(shù),Swin-Chart 等模型在處理復(fù)雜和相似的圖表方面表現(xiàn)卓越。

圖表檢測和元素識別則需要布局檢測算法來定位圖表區(qū)域、匹配標(biāo)題和分割復(fù)合圖表,這通常需要借助 YOLO 和 Faster R-CNN 等目標(biāo)檢測模型實(shí)現(xiàn)。

圖表感知技術(shù)(chart perception)能夠從圖表中提取數(shù)據(jù)結(jié)構(gòu)和文本信息。ChartDETR 等先進(jìn)方法結(jié)合了 CNN 和 Transformer,實(shí)現(xiàn)了端到端的數(shù)據(jù)提取,而 FR-DETR 等模型則優(yōu)化了流程圖和樹狀圖的結(jié)構(gòu)提取,但處理復(fù)雜連接線的挑戰(zhàn)依然存在。

圖 14:圖表相關(guān)任務(wù)常用數(shù)據(jù)集匯總。來源:Document Parsing Unveiled[1]圖 14:圖表相關(guān)任務(wù)常用數(shù)據(jù)集匯總。來源:Document Parsing Unveiled[1]

DeepChart、VIEW 和 ReVision 等成熟數(shù)據(jù)集支持圖表分類研究,提供了豐富的圖表類型。對于數(shù)據(jù)提取和結(jié)構(gòu)提取,UB-PMC 和 Synth 等自定義數(shù)據(jù)集提供了寶貴但有限的資源。UB-PMC 包含真實(shí)的科學(xué)圖表,而 Synth 則是生成的模擬圖表。LineEX430k 和 OneChart 等最新數(shù)據(jù)集專注于更高級的任務(wù),如信息提取、問答和推理。

6.大模型助力文檔解析

大型文檔提取模型(DELMs)采用基于 Transformer 的架構(gòu),能夠?qū)⑽谋?、圖像、表格等多模態(tài)信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),這對于深入解析復(fù)雜文檔極為關(guān)鍵。

早期的模型,例如 LLaVA-Next 和 Qwen-VL,雖然為多模態(tài)信息處理奠定了基礎(chǔ),但在處理專業(yè)文檔時,它們在光學(xué)字符識別(OCR)和文檔結(jié)構(gòu)理解方面的精細(xì)度不足。

隨后開發(fā)的模型,如 Nougat[3] 和 Vary[4],則在 OCR、結(jié)構(gòu)化信息提取以及頁面布局編排方面進(jìn)行了優(yōu)化,有效應(yīng)對了技術(shù)文檔處理中的難題。

2024 年,F(xiàn)ox 模型[5]在處理多頁文檔方面取得了突破,能夠在不同頁面間整合視覺與文本數(shù)據(jù),且無需調(diào)整模型權(quán)重。Detect-Order-Construct 模型[6]通過將文檔結(jié)構(gòu)解析分解為檢測、排序和構(gòu)建三個步驟,進(jìn)一步提高了分層解析的精度。OmniParser[7] 等模型則朝著集成化框架邁進(jìn),提升了文本與表格的識別能力。而 GOT 模型[8]則開創(chuàng)了一種全能的 OCR 方法,能夠應(yīng)對包括樂譜和復(fù)雜布局在內(nèi)的多種文檔類型。

這些進(jìn)步預(yù)示著大型文檔提取模型(DELMs)解決方案正在更加全面地發(fā)展,為學(xué)術(shù)研究到專業(yè)領(lǐng)域的文檔處理帶來了速度與準(zhǔn)確性的雙重提升。

7.開源文檔解析工具及其評估

7.1 Tools

以下是一些廣受歡迎的開源工具。

圖 15:在 GitHub 上獲得超過 1000 個星標(biāo)的開源文檔解析工具。來源:Document 圖 15:在 GitHub 上獲得超過 1000 個星標(biāo)的開源文檔解析工具。來源:Document

在 OCR 工具方面,Tesseract 和 PaddleOCR 以其高精確度、高速度以及多語言支持而處于領(lǐng)先地位。Tesseract 適合處理大規(guī)模的任務(wù),而 PaddleOCR 在應(yīng)對復(fù)雜情況時尤為出色。

對于那些結(jié)構(gòu)較為復(fù)雜的文檔,Unstructured[9] 和 Zerox 等專業(yè)框架展現(xiàn)出了卓越的性能,它們能夠高效地提取出嵌套表格和混合內(nèi)容。

包括 Nougat[3]、Fox[5]、Vary[4] 和 GOT[8] 在內(nèi)的先進(jìn)大模型,提供了專項(xiàng)解析功能。Nougat 特別適合解析含有公式的科學(xué)文檔,F(xiàn)ox 擅長整合多模態(tài)信息,Vary 能夠處理文本與圖像混合的多種格式,而 GOT 憑借其統(tǒng)一架構(gòu),在處理表格、幾何圖形等不同內(nèi)容類型時表現(xiàn)優(yōu)異。

GPT-4 和 LLaMA 系列等多模態(tài)模型也在一定程度上支持文檔解析任務(wù)。

7.2 Evaluation

此外,本研究還對 10 種熱門 PDF 解析工具在 6 個不同文檔類別中的表現(xiàn)進(jìn)行了評估和對比。

圖片圖片

圖 16:文本和表格提取工具概覽。這些工具的主要提取功能包括圖像(I)、文本(T)、元數(shù)據(jù)(M)、目錄(TOC)以及表格(TB)。大多數(shù)工具采用的是基于規(guī)則(RB)的技術(shù),部分工具還提供了光學(xué)字符識別(OCR)功能。需要注意,Nougat 和 Table Transformers 并不是本研究的主要重點(diǎn)。來源:A Comparative Study of PDF Parsing Tools[10]

以下是基于 DocLayNet 數(shù)據(jù)集的 PDF 解析器評估結(jié)果的簡明摘要。

在文本提取方面,不同文檔類型間的性能差異頗為顯著。PyMuPDF 和 pypdfium 在 Financial、 Tender、Law 和 Manual 類別中表現(xiàn)尤為出色,尤其是在保留單詞結(jié)構(gòu)方面。而在 visual transformer 模型 Nougat 的對比下,基于規(guī)則的解析器在文本提取上的表現(xiàn)則略顯遜色。

圖片圖片

圖 17:基于規(guī)則的解析器與 Nougat 在科學(xué)文檔文本提取能力的對比。來源:A Comparative Study of PDF Parsing Tools[10]

在表格提取方面,基于規(guī)則的工具在某些特定類別中表現(xiàn)不俗,Camelot 在 Tender 類別中領(lǐng)先,Tabula 則在 Manual、Scientific 和 Patent 類別中表現(xiàn)優(yōu)異。不過,TATR[11] 在多數(shù)類別中展現(xiàn)出了穩(wěn)定而全面的表現(xiàn),尤其是在 Scientific 類別中(召回率超過0.9),盡管在 Manual 和 Tender 類別中它稍遜于 PyMuPDF 和 Camelot。

基于規(guī)則的方法,如 PyMuPDF 和 pdfplumber,在處理結(jié)構(gòu)較為簡單的文檔時表現(xiàn)良好。但當(dāng)遇到科學(xué)和專利文檔時,基于學(xué)習(xí)的方法,如 Nougat 和 TATR,由于能夠更好地處理復(fù)雜的布局和結(jié)構(gòu),因此表現(xiàn)更為出色。

8.Thoughts and Insights

8.1 實(shí)際應(yīng)用現(xiàn)狀

據(jù)我所知,目前模塊化 pipeline 系統(tǒng)在實(shí)際應(yīng)用中得到了廣泛應(yīng)用,而端到端的大模型在實(shí)際應(yīng)用中仍面臨一些限制。

盡管如此,端到端的大模型展現(xiàn)出了發(fā)展的巨大潛力。

8.2 文檔解析的挑戰(zhàn)

模塊化 pipeline 系統(tǒng)面臨的挑戰(zhàn)包括:

  • 文檔布局分析(DLA)需要更深入地理解嵌套式布局。
  • 光學(xué)字符識別(OCR)在處理密集文本和多字體文本時存在難題。
  • 表格識別需要能夠處理那些邊界不清晰或跨多頁的表格。
  • 數(shù)學(xué)表達(dá)式識別需要加強(qiáng)對不同表達(dá)形式的處理能力。
  • 圖表提取缺乏統(tǒng)一的標(biāo)準(zhǔn)定義。

端到端的大模型雖然規(guī)避了模塊化系統(tǒng)的復(fù)雜性,并提升了文檔結(jié)構(gòu)理解的深度,但仍面臨以下挑戰(zhàn):

  • 大多數(shù)用于文檔解析的大模型并未在所有方面超越模塊化 pipeline 系統(tǒng)。
  • 由于參數(shù)固定,OCR 功能受限。
  • 資源消耗大,處理密集文檔效率不高,以及在大規(guī)模數(shù)據(jù)上圖像與文本特征對齊的難題。

8.3 復(fù)雜文件的文檔解析

當(dāng)前的研究往往聚焦于結(jié)構(gòu)簡單的文檔類型(如科學(xué)論文),而忽視了更為復(fù)雜的文件類型(例如簡歷)。

我們需要更加多樣化的數(shù)據(jù)集。

8.4 文檔類型的影響

評估結(jié)果顯示,文檔類型對解析器性能有著顯著影響,因此工具的選擇應(yīng)符合具體的任務(wù)要求。

8.5 模型的可解釋性與反饋循環(huán)

隨著文檔解析在法律和金融文件處理等關(guān)鍵領(lǐng)域的應(yīng)用越來越重要,模型的可解釋性變得不可或缺。能夠提供透明度的技術(shù)(比如解釋為何某些行或單元格被特定方式分組或標(biāo)記)具有極其重要的價值。

展望未來,如果能夠?qū)⒂脩舻姆答佈h(huán)納入系統(tǒng),讓用戶糾正錯誤的解釋,可以為模型的自我優(yōu)化開辟一條新的路徑。這些模型將通過學(xué)習(xí)人類的糾正行為來動態(tài)地改進(jìn)文檔解析的預(yù)測結(jié)果。

9.Conclusion

本文深入評述和分析了文檔解析技術(shù),探討了這一快速發(fā)展的領(lǐng)域中所采用的各種方法和技術(shù)。

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2024-07-17 09:03:56

2021-06-30 09:00:00

測試Web軟件

2025-03-20 07:01:40

2025-03-28 07:50:00

端到端測試Go語言

2023-03-16 14:29:48

Vue.js測試

2024-09-10 12:11:18

2024-02-19 16:06:53

人工智能AI聲音克隆Python

2025-04-07 03:00:00

自動駕駛

2023-02-20 10:15:00

云協(xié)同邊緣

2013-06-17 10:37:54

產(chǎn)品設(shè)計(jì)移動設(shè)計(jì)產(chǎn)品規(guī)劃

2019-06-18 09:09:31

C端B端產(chǎn)品設(shè)計(jì)

2023-09-28 10:47:35

NFS協(xié)議端VFS

2022-09-02 10:20:44

網(wǎng)絡(luò)切片網(wǎng)絡(luò)5G

2020-10-26 13:51:11

Kafka數(shù)據(jù)端到端

2021-05-27 14:23:50

加密端到端加密加密技術(shù)

2023-02-27 17:54:55

2024-06-27 09:50:56

2024-02-21 09:14:32

端到端自動駕駛

2010-01-26 11:06:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號