文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

作者：追求卓越的 2025-01-16 10:11:58

隨著文檔解析在法律和金融文件處理等關(guān)鍵領(lǐng)域的應(yīng)用越來越重要，模型的可解釋性變得不可或缺。能夠提供透明度的技術(shù)（比如解釋為何某些行或單元格被特定方式分組或標(biāo)記）具有極其重要的價值。

眾多文檔，如技術(shù)手冊、歷史檔案、學(xué)術(shù)論文和法律文件，往往以掃描件或圖片形式存在。這對檢索增強(qiáng)生成（Retrieval-Augmented Generation, RAG）、內(nèi)容提取以及文檔解讀等后續(xù)處理工作構(gòu)成了極大的挑戰(zhàn)。

文檔解析技術(shù)應(yīng)運(yùn)而生，它能夠識別并提取文檔中的多種元素，如文字、公式、表格和圖片，同時保持它們之間的結(jié)構(gòu)聯(lián)系。提取后的內(nèi)容可轉(zhuǎn)換成 Markdown、HTML 或 JSON 等結(jié)構(gòu)化格式，從而實(shí)現(xiàn)與下游任務(wù)的無縫集成。

1.Overview

圖 1：文檔解析方法概述。來源：Document Parsing Unveiled[1]

文檔解析技術(shù)主要分為兩大類：模塊化 pipeline 系統(tǒng)和基于大型視覺-語言模型的端到端處理方法。

圖 2：兩種文檔解析方法。來源：Document Parsing Unveiled[1]

模塊化 pipeline 系統(tǒng)[2]將文檔解析任務(wù)拆分為多個獨(dú)立階段，每個階段針對特定的功能和任務(wù)。這些模塊通常包括：

布局分析：它通過識別文本塊、標(biāo)題、圖片、表格和數(shù)學(xué)表達(dá)式等元素，以及它們在文檔中的空間布局和閱讀順序，來檢測文檔布局結(jié)構(gòu)。
內(nèi)容提?。哼@一步驟涉及多個關(guān)鍵流程，例如文本提取、數(shù)學(xué)公式提取、表格數(shù)據(jù)提取和結(jié)構(gòu)提取，以及圖表識別。
關(guān)系整合：在保持元素間空間和語義關(guān)系的基礎(chǔ)上，將提取的文本、表格和圖表等元素進(jìn)行整合。

而端到端視覺-語言模型（VLMs）則致力于通過多模態(tài)大模型統(tǒng)一處理任務(wù)，從而簡化文檔解析流程。

圖 3：基于模塊化 pipeline 方法的概覽圖，此圖由作者提供

圖 4：端到端視覺-語言模型（VLMs）的概覽圖，此圖由作者提供

2.模塊化 pipeline 系統(tǒng)：布局分析

布局分析（Layout analysis）是識別文檔結(jié)構(gòu)的關(guān)鍵步驟，它能夠精確地定位文本塊、圖片和表格，從而實(shí)現(xiàn)信息的準(zhǔn)確提取。

圖 5：文檔布局分析 (DLA) 算法概覽。來源：Document Parsing Unveiled

布局分析采用的方法包括使用卷積神經(jīng)網(wǎng)絡(luò)（CNNs）來捕捉視覺特征，以及 Transformers 和基于圖的網(wǎng)絡(luò)來處理元素間的空間與語義關(guān)系。

通過引入多模態(tài)模型，如 LayoutLM，布局分析得以同時結(jié)合文檔的布局和文本信息，進(jìn)一步提升了文檔解析的準(zhǔn)確性。

用于布局分析的主流數(shù)據(jù)集如圖 6 所示。

圖 6：DLA 常用數(shù)據(jù)集摘要。來源：Document Parsing Unveiled[1]

這些數(shù)據(jù)集分為合成數(shù)據(jù)集、真實(shí)數(shù)據(jù)集和混合數(shù)據(jù)集，覆蓋了從歷史文獻(xiàn)、學(xué)術(shù)論文到收據(jù)等多種文檔類型。

早期數(shù)據(jù)集，例如 IMPACT 和 GW20，主要關(guān)注歷史文件，而像 PubLayNet 這樣的新數(shù)據(jù)集則更注重復(fù)雜的印刷布局。ICDAR 等競賽提供的帶有高質(zhì)量標(biāo)注的標(biāo)準(zhǔn)化數(shù)據(jù)集，對于模型評估和基準(zhǔn)測試至關(guān)重要。

3.模塊化 pipeline 系統(tǒng)：光學(xué)字符識別技術(shù)（OCR）

光學(xué)字符識別（Optical Character Recognition, OCR）技術(shù)是將文檔圖像轉(zhuǎn)換為機(jī)器可讀文本的核心，它為多種后續(xù)處理任務(wù)提供了基礎(chǔ)支持。

圖 7：OCR 算法概覽。來源：Document Parsing Unveiled[1]

文本檢測是首個步驟，采用了包括 YOLO 等單階段回歸模型和 Faster R-CNN 等兩階段提議方法來定位文本區(qū)域。

緊隨其后的文本識別步驟，則通過 CRNN 等基于 CTC loss 的模型和基于 Transformer 的序列到序列（sequence-to-sequence）方法，將識別出的文本轉(zhuǎn)換為結(jié)構(gòu)化格式。

最新的研究進(jìn)展通過整合語義信息，顯著提高了對復(fù)雜和不規(guī)則文本的識別精度。

端到端的文本定位模型將檢測與識別合二為一，通過共享特征表示提升了操作的效率和準(zhǔn)確性。

OCR 使用的主流數(shù)據(jù)集如圖 8 所示。

圖 8：OCR 常用數(shù)據(jù)集摘要。來源：Document Parsing Unveiled[1]

這些 OCR 數(shù)據(jù)集既包含印刷文本也包含自然場景文本，其中 ICDAR 競賽提供的數(shù)據(jù)集（如 ICDAR2013 和 ICDAR2015 ）在自然場景文本檢測評估中尤為突出。專門針對復(fù)雜場景下不規(guī)則文本的數(shù)據(jù)集，如 Street View Text Perspective 和 MSRA-TD500，也是研究的重要資源。SynthText 和 SynthAdd 等合成數(shù)據(jù)集則為文本檢測和識別提供了大量訓(xùn)練數(shù)據(jù)。端到端 OCR 任務(wù)得益于 ICDAR2015 和 ICDAR2019 等帶有區(qū)域和文本注釋的數(shù)據(jù)集的支持。

4.模塊化 pipeline 系統(tǒng)：數(shù)學(xué)表達(dá)式的檢測和識別

數(shù)學(xué)表達(dá)式的識別與檢測旨在識別和解釋文檔中的數(shù)學(xué)符號，包括獨(dú)立表達(dá)式和內(nèi)聯(lián)表達(dá)式。

圖 9：數(shù)學(xué)表達(dá)式識別與檢測的全景圖。來源：Document Parsing Unveiled[1]

4.1 檢測過程

這一過程著重于在文檔中搜尋并確定數(shù)學(xué)表達(dá)式的位置，使其與周圍的文字區(qū)分開來。

最初，這一領(lǐng)域依賴于基于規(guī)則的方法，但現(xiàn)在，深度學(xué)習(xí)技術(shù)的應(yīng)用，如使用邊界框和圖像分割，極大地提升了檢測的精確度和速度。卷積神經(jīng)網(wǎng)絡(luò)（CNN）最初為這一領(lǐng)域帶來了定位能力，而 DS-YOLOv5 和 R-CNN 等新算法更是將這一能力推向了新的高度。

4.2 識別過程

而識別的任務(wù)則是解讀那些被檢測到的數(shù)學(xué)表達(dá)式的含義，將其中的符號和結(jié)構(gòu)轉(zhuǎn)換成 LaTeX 或 MathML 等編碼格式。

編碼器-解碼器模型負(fù)責(zé)將數(shù)學(xué)圖像轉(zhuǎn)換成 LaTeX 等格式，這通常涉及到使用 CNN 來提取圖像的局部特征，以及使用 Transformer 來處理復(fù)雜的依賴關(guān)系。

在數(shù)學(xué)表達(dá)式識別（MER）領(lǐng)域，使用遞歸神經(jīng)網(wǎng)絡(luò)（RNNs）和 Transformer 模型來進(jìn)行序列處理，這與 OCR 領(lǐng)域類似。帶有注意力機(jī)制的 RNN 擅長處理嵌套和層次化的結(jié)構(gòu)，而 GRU 等先進(jìn)設(shè)計(jì)則提升了處理效率。樹形結(jié)構(gòu)和 Transformer 解碼器解決了梯度消失和計(jì)算成本高等問題，因此它們在處理復(fù)雜公式時更為得心應(yīng)手。

4.3 數(shù)據(jù)集

數(shù)學(xué)表達(dá)檢測（MED）和識別（MER）數(shù)據(jù)集對于提高印刷和手寫數(shù)學(xué)表達(dá)式的識別準(zhǔn)確率至關(guān)重要。

圖 10：MED 和 MER 常用數(shù)據(jù)集摘要。來源：Document Parsing Unveile

重要數(shù)據(jù)集，例如 UW-III、InftyCDB-1 和 Marmot，支持各種文檔類型的檢測、提取和定位等任務(wù)。ICDAR 系列數(shù)據(jù)集對此領(lǐng)域貢獻(xiàn)頗大，尤其是 ICDAR-2017 POD 和 ICDAR-2021 IBEM，它們針對的是更為復(fù)雜的場景。同時，F(xiàn)ormulaNet 和 ArxivFormula 等大型數(shù)據(jù)集則專注于從圖片中提取數(shù)學(xué)公式。

盡管現(xiàn)有資源豐富，但為了更好地支持多格式識別和提高模型的穩(wěn)健性，數(shù)據(jù)集的進(jìn)一步開發(fā)仍然十分必要。

5.模塊化 pipeline 系統(tǒng)：圖表處理

常見的圖表類型包括折線圖、條形圖、面積圖、餅圖和散點(diǎn)圖，每種圖表都在傳達(dá)關(guān)鍵信息方面發(fā)揮著重要作用。

圖表處理任務(wù)包括圖表分類、元素識別和數(shù)據(jù)提取等，目的是將圖表中的視覺信息轉(zhuǎn)化為表格或 JSON 等易于分析和訪問的結(jié)構(gòu)化數(shù)據(jù)格式。

圖 13：文檔中與圖表相關(guān)的任務(wù)概覽。來源：Document Parsing Unveiled[1]

圖表分類是區(qū)分不同圖表類型（如條形圖、折線圖、餅圖等）的關(guān)鍵，利用 CNN 和Vision Transformer技術(shù)，Swin-Chart 等模型在處理復(fù)雜和相似的圖表方面表現(xiàn)卓越。

圖表檢測和元素識別則需要布局檢測算法來定位圖表區(qū)域、匹配標(biāo)題和分割復(fù)合圖表，這通常需要借助 YOLO 和 Faster R-CNN 等目標(biāo)檢測模型實(shí)現(xiàn)。

圖表感知技術(shù)（chart perception）能夠從圖表中提取數(shù)據(jù)結(jié)構(gòu)和文本信息。ChartDETR 等先進(jìn)方法結(jié)合了 CNN 和 Transformer，實(shí)現(xiàn)了端到端的數(shù)據(jù)提取，而 FR-DETR 等模型則優(yōu)化了流程圖和樹狀圖的結(jié)構(gòu)提取，但處理復(fù)雜連接線的挑戰(zhàn)依然存在。

圖 14：圖表相關(guān)任務(wù)常用數(shù)據(jù)集匯總。來源：Document Parsing Unveiled[1]

DeepChart、VIEW 和 ReVision 等成熟數(shù)據(jù)集支持圖表分類研究，提供了豐富的圖表類型。對于數(shù)據(jù)提取和結(jié)構(gòu)提取，UB-PMC 和 Synth 等自定義數(shù)據(jù)集提供了寶貴但有限的資源。UB-PMC 包含真實(shí)的科學(xué)圖表，而 Synth 則是生成的模擬圖表。LineEX430k 和 OneChart 等最新數(shù)據(jù)集專注于更高級的任務(wù)，如信息提取、問答和推理。

6.大模型助力文檔解析

大型文檔提取模型（DELMs）采用基于 Transformer 的架構(gòu)，能夠?qū)⑽谋?、圖像、表格等多模態(tài)信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)，這對于深入解析復(fù)雜文檔極為關(guān)鍵。

早期的模型，例如 LLaVA-Next 和 Qwen-VL，雖然為多模態(tài)信息處理奠定了基礎(chǔ)，但在處理專業(yè)文檔時，它們在光學(xué)字符識別（OCR）和文檔結(jié)構(gòu)理解方面的精細(xì)度不足。

隨后開發(fā)的模型，如 Nougat[3] 和 Vary[4]，則在 OCR、結(jié)構(gòu)化信息提取以及頁面布局編排方面進(jìn)行了優(yōu)化，有效應(yīng)對了技術(shù)文檔處理中的難題。

2024 年，F(xiàn)ox 模型[5]在處理多頁文檔方面取得了突破，能夠在不同頁面間整合視覺與文本數(shù)據(jù)，且無需調(diào)整模型權(quán)重。Detect-Order-Construct 模型[6]通過將文檔結(jié)構(gòu)解析分解為檢測、排序和構(gòu)建三個步驟，進(jìn)一步提高了分層解析的精度。OmniParser[7] 等模型則朝著集成化框架邁進(jìn)，提升了文本與表格的識別能力。而 GOT 模型[8]則開創(chuàng)了一種全能的 OCR 方法，能夠應(yīng)對包括樂譜和復(fù)雜布局在內(nèi)的多種文檔類型。

這些進(jìn)步預(yù)示著大型文檔提取模型（DELMs）解決方案正在更加全面地發(fā)展，為學(xué)術(shù)研究到專業(yè)領(lǐng)域的文檔處理帶來了速度與準(zhǔn)確性的雙重提升。

7.開源文檔解析工具及其評估

7.1 Tools

以下是一些廣受歡迎的開源工具。

圖 15：在 GitHub 上獲得超過 1000 個星標(biāo)的開源文檔解析工具。來源：Document

在 OCR 工具方面，Tesseract 和 PaddleOCR 以其高精確度、高速度以及多語言支持而處于領(lǐng)先地位。Tesseract 適合處理大規(guī)模的任務(wù)，而 PaddleOCR 在應(yīng)對復(fù)雜情況時尤為出色。

對于那些結(jié)構(gòu)較為復(fù)雜的文檔，Unstructured[9] 和 Zerox 等專業(yè)框架展現(xiàn)出了卓越的性能，它們能夠高效地提取出嵌套表格和混合內(nèi)容。

包括 Nougat[3]、Fox[5]、Vary[4] 和 GOT[8] 在內(nèi)的先進(jìn)大模型，提供了專項(xiàng)解析功能。Nougat 特別適合解析含有公式的科學(xué)文檔，F(xiàn)ox 擅長整合多模態(tài)信息，Vary 能夠處理文本與圖像混合的多種格式，而 GOT 憑借其統(tǒng)一架構(gòu)，在處理表格、幾何圖形等不同內(nèi)容類型時表現(xiàn)優(yōu)異。

GPT-4 和 LLaMA 系列等多模態(tài)模型也在一定程度上支持文檔解析任務(wù)。

7.2 Evaluation

此外，本研究還對 10 種熱門 PDF 解析工具在 6 個不同文檔類別中的表現(xiàn)進(jìn)行了評估和對比。

圖片

圖 16：文本和表格提取工具概覽。這些工具的主要提取功能包括圖像（I）、文本（T）、元數(shù)據(jù)（M）、目錄（TOC）以及表格（TB）。大多數(shù)工具采用的是基于規(guī)則（RB）的技術(shù)，部分工具還提供了光學(xué)字符識別（OCR）功能。需要注意，Nougat 和 Table Transformers 并不是本研究的主要重點(diǎn)。來源：A Comparative Study of PDF Parsing Tools[10]

以下是基于 DocLayNet 數(shù)據(jù)集的 PDF 解析器評估結(jié)果的簡明摘要。

在文本提取方面，不同文檔類型間的性能差異頗為顯著。PyMuPDF 和 pypdfium 在 Financial、 Tender、Law 和 Manual 類別中表現(xiàn)尤為出色，尤其是在保留單詞結(jié)構(gòu)方面。而在 visual transformer 模型 Nougat 的對比下，基于規(guī)則的解析器在文本提取上的表現(xiàn)則略顯遜色。

圖片

圖 17：基于規(guī)則的解析器與 Nougat 在科學(xué)文檔文本提取能力的對比。來源：A Comparative Study of PDF Parsing Tools[10]

在表格提取方面，基于規(guī)則的工具在某些特定類別中表現(xiàn)不俗，Camelot 在 Tender 類別中領(lǐng)先，Tabula 則在 Manual、Scientific 和 Patent 類別中表現(xiàn)優(yōu)異。不過，TATR[11] 在多數(shù)類別中展現(xiàn)出了穩(wěn)定而全面的表現(xiàn)，尤其是在 Scientific 類別中（召回率超過0.9），盡管在 Manual 和 Tender 類別中它稍遜于 PyMuPDF 和 Camelot。

基于規(guī)則的方法，如 PyMuPDF 和 pdfplumber，在處理結(jié)構(gòu)較為簡單的文檔時表現(xiàn)良好。但當(dāng)遇到科學(xué)和專利文檔時，基于學(xué)習(xí)的方法，如 Nougat 和 TATR，由于能夠更好地處理復(fù)雜的布局和結(jié)構(gòu)，因此表現(xiàn)更為出色。