文檔解析技術(shù)指南:從傳統(tǒng)Pipeline到端到端大模型
眾多文檔,如技術(shù)手冊、歷史檔案、學(xué)術(shù)論文和法律文件,往往以掃描件或圖片形式存在。這對檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)、內(nèi)容提取以及文檔解讀等后續(xù)處理工作構(gòu)成了極大的挑戰(zhàn)。
文檔解析技術(shù)應(yīng)運(yùn)而生,它能夠識別并提取文檔中的多種元素,如文字、公式、表格和圖片,同時保持它們之間的結(jié)構(gòu)聯(lián)系。提取后的內(nèi)容可轉(zhuǎn)換成 Markdown、HTML 或 JSON 等結(jié)構(gòu)化格式,從而實(shí)現(xiàn)與下游任務(wù)的無縫集成。
1.Overview
圖 1:文檔解析方法概述。來源:Document Parsing Unveiled[1]
文檔解析技術(shù)主要分為兩大類:模塊化 pipeline 系統(tǒng)和基于大型視覺-語言模型的端到端處理方法。
圖 2:兩種文檔解析方法。來源:Document Parsing Unveiled[1]
模塊化 pipeline 系統(tǒng)[2]將文檔解析任務(wù)拆分為多個獨(dú)立階段,每個階段針對特定的功能和任務(wù)。這些模塊通常包括:
- 布局分析:它通過識別文本塊、標(biāo)題、圖片、表格和數(shù)學(xué)表達(dá)式等元素,以及它們在文檔中的空間布局和閱讀順序,來檢測文檔布局結(jié)構(gòu)。
- 內(nèi)容提?。哼@一步驟涉及多個關(guān)鍵流程,例如文本提取、數(shù)學(xué)公式提取、表格數(shù)據(jù)提取和結(jié)構(gòu)提取,以及圖表識別。
- 關(guān)系整合:在保持元素間空間和語義關(guān)系的基礎(chǔ)上,將提取的文本、表格和圖表等元素進(jìn)行整合。
而端到端視覺-語言模型(VLMs)則致力于通過多模態(tài)大模型統(tǒng)一處理任務(wù),從而簡化文檔解析流程。
圖 3:基于模塊化 pipeline 方法的概覽圖,此圖由作者提供
圖 4:端到端視覺-語言模型(VLMs)的概覽圖,此圖由作者提供
2.模塊化 pipeline 系統(tǒng):布局分析
布局分析(Layout analysis)是識別文檔結(jié)構(gòu)的關(guān)鍵步驟,它能夠精確地定位文本塊、圖片和表格,從而實(shí)現(xiàn)信息的準(zhǔn)確提取。
圖 5:文檔布局分析 (DLA) 算法概覽。來源:Document Parsing Unveiled
布局分析采用的方法包括使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來捕捉視覺特征,以及 Transformers 和基于圖的網(wǎng)絡(luò)來處理元素間的空間與語義關(guān)系。
通過引入多模態(tài)模型,如 LayoutLM,布局分析得以同時結(jié)合文檔的布局和文本信息,進(jìn)一步提升了文檔解析的準(zhǔn)確性。
用于布局分析的主流數(shù)據(jù)集如圖 6 所示。
圖 6:DLA 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]
這些數(shù)據(jù)集分為合成數(shù)據(jù)集、真實(shí)數(shù)據(jù)集和混合數(shù)據(jù)集,覆蓋了從歷史文獻(xiàn)、學(xué)術(shù)論文到收據(jù)等多種文檔類型。
早期數(shù)據(jù)集,例如 IMPACT 和 GW20,主要關(guān)注歷史文件,而像 PubLayNet 這樣的新數(shù)據(jù)集則更注重復(fù)雜的印刷布局。ICDAR 等競賽提供的帶有高質(zhì)量標(biāo)注的標(biāo)準(zhǔn)化數(shù)據(jù)集,對于模型評估和基準(zhǔn)測試至關(guān)重要。
3.模塊化 pipeline 系統(tǒng):光學(xué)字符識別技術(shù)(OCR)
光學(xué)字符識別(Optical Character Recognition, OCR)技術(shù)是將文檔圖像轉(zhuǎn)換為機(jī)器可讀文本的核心,它為多種后續(xù)處理任務(wù)提供了基礎(chǔ)支持。
圖 7:OCR 算法概覽。來源:Document Parsing Unveiled[1]
文本檢測是首個步驟,采用了包括 YOLO 等單階段回歸模型和 Faster R-CNN 等兩階段提議方法來定位文本區(qū)域。
緊隨其后的文本識別步驟,則通過 CRNN 等基于 CTC loss 的模型和基于 Transformer 的序列到序列(sequence-to-sequence)方法,將識別出的文本轉(zhuǎn)換為結(jié)構(gòu)化格式。
最新的研究進(jìn)展通過整合語義信息,顯著提高了對復(fù)雜和不規(guī)則文本的識別精度。
端到端的文本定位模型將檢測與識別合二為一,通過共享特征表示提升了操作的效率和準(zhǔn)確性。
OCR 使用的主流數(shù)據(jù)集如圖 8 所示。
圖 8:OCR 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveiled[1]
這些 OCR 數(shù)據(jù)集既包含印刷文本也包含自然場景文本,其中 ICDAR 競賽提供的數(shù)據(jù)集(如 ICDAR2013 和 ICDAR2015 )在自然場景文本檢測評估中尤為突出。專門針對復(fù)雜場景下不規(guī)則文本的數(shù)據(jù)集,如 Street View Text Perspective 和 MSRA-TD500,也是研究的重要資源。SynthText 和 SynthAdd 等合成數(shù)據(jù)集則為文本檢測和識別提供了大量訓(xùn)練數(shù)據(jù)。端到端 OCR 任務(wù)得益于 ICDAR2015 和 ICDAR2019 等帶有區(qū)域和文本注釋的數(shù)據(jù)集的支持。
4.模塊化 pipeline 系統(tǒng):數(shù)學(xué)表達(dá)式的檢測和識別
數(shù)學(xué)表達(dá)式的識別與檢測旨在識別和解釋文檔中的數(shù)學(xué)符號,包括獨(dú)立表達(dá)式和內(nèi)聯(lián)表達(dá)式。
圖 9:數(shù)學(xué)表達(dá)式識別與檢測的全景圖。來源:Document Parsing Unveiled[1]
4.1 檢測過程
這一過程著重于在文檔中搜尋并確定數(shù)學(xué)表達(dá)式的位置,使其與周圍的文字區(qū)分開來。
最初,這一領(lǐng)域依賴于基于規(guī)則的方法,但現(xiàn)在,深度學(xué)習(xí)技術(shù)的應(yīng)用,如使用邊界框和圖像分割,極大地提升了檢測的精確度和速度。卷積神經(jīng)網(wǎng)絡(luò)(CNN)最初為這一領(lǐng)域帶來了定位能力,而 DS-YOLOv5 和 R-CNN 等新算法更是將這一能力推向了新的高度。
4.2 識別過程
而識別的任務(wù)則是解讀那些被檢測到的數(shù)學(xué)表達(dá)式的含義,將其中的符號和結(jié)構(gòu)轉(zhuǎn)換成 LaTeX 或 MathML 等編碼格式。
編碼器-解碼器模型負(fù)責(zé)將數(shù)學(xué)圖像轉(zhuǎn)換成 LaTeX 等格式,這通常涉及到使用 CNN 來提取圖像的局部特征,以及使用 Transformer 來處理復(fù)雜的依賴關(guān)系。
在數(shù)學(xué)表達(dá)式識別(MER)領(lǐng)域,使用遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)和 Transformer 模型來進(jìn)行序列處理,這與 OCR 領(lǐng)域類似。帶有注意力機(jī)制的 RNN 擅長處理嵌套和層次化的結(jié)構(gòu),而 GRU 等先進(jìn)設(shè)計(jì)則提升了處理效率。樹形結(jié)構(gòu)和 Transformer 解碼器解決了梯度消失和計(jì)算成本高等問題,因此它們在處理復(fù)雜公式時更為得心應(yīng)手。
4.3 數(shù)據(jù)集
數(shù)學(xué)表達(dá)檢測(MED)和識別(MER)數(shù)據(jù)集對于提高印刷和手寫數(shù)學(xué)表達(dá)式的識別準(zhǔn)確率至關(guān)重要。
圖 10:MED 和 MER 常用數(shù)據(jù)集摘要。來源:Document Parsing Unveile
重要數(shù)據(jù)集,例如 UW-III、InftyCDB-1 和 Marmot,支持各種文檔類型的檢測、提取和定位等任務(wù)。ICDAR 系列數(shù)據(jù)集對此領(lǐng)域貢獻(xiàn)頗大,尤其是 ICDAR-2017 POD 和 ICDAR-2021 IBEM,它們針對的是更為復(fù)雜的場景。同時,F(xiàn)ormulaNet 和 ArxivFormula 等大型數(shù)據(jù)集則專注于從圖片中提取數(shù)學(xué)公式。
盡管現(xiàn)有資源豐富,但為了更好地支持多格式識別和提高模型的穩(wěn)健性,數(shù)據(jù)集的進(jìn)一步開發(fā)仍然十分必要。
5.模塊化 pipeline 系統(tǒng):圖表處理
常見的圖表類型包括折線圖、條形圖、面積圖、餅圖和散點(diǎn)圖,每種圖表都在傳達(dá)關(guān)鍵信息方面發(fā)揮著重要作用。
圖表處理任務(wù)包括圖表分類、元素識別和數(shù)據(jù)提取等,目的是將圖表中的視覺信息轉(zhuǎn)化為表格或 JSON 等易于分析和訪問的結(jié)構(gòu)化數(shù)據(jù)格式。
圖 13:文檔中與圖表相關(guān)的任務(wù)概覽。來源:Document Parsing Unveiled[1]
圖表分類是區(qū)分不同圖表類型(如條形圖、折線圖、餅圖等)的關(guān)鍵,利用 CNN 和Vision Transformer技術(shù),Swin-Chart 等模型在處理復(fù)雜和相似的圖表方面表現(xiàn)卓越。
圖表檢測和元素識別則需要布局檢測算法來定位圖表區(qū)域、匹配標(biāo)題和分割復(fù)合圖表,這通常需要借助 YOLO 和 Faster R-CNN 等目標(biāo)檢測模型實(shí)現(xiàn)。
圖表感知技術(shù)(chart perception)能夠從圖表中提取數(shù)據(jù)結(jié)構(gòu)和文本信息。ChartDETR 等先進(jìn)方法結(jié)合了 CNN 和 Transformer,實(shí)現(xiàn)了端到端的數(shù)據(jù)提取,而 FR-DETR 等模型則優(yōu)化了流程圖和樹狀圖的結(jié)構(gòu)提取,但處理復(fù)雜連接線的挑戰(zhàn)依然存在。
圖 14:圖表相關(guān)任務(wù)常用數(shù)據(jù)集匯總。來源:Document Parsing Unveiled[1]
DeepChart、VIEW 和 ReVision 等成熟數(shù)據(jù)集支持圖表分類研究,提供了豐富的圖表類型。對于數(shù)據(jù)提取和結(jié)構(gòu)提取,UB-PMC 和 Synth 等自定義數(shù)據(jù)集提供了寶貴但有限的資源。UB-PMC 包含真實(shí)的科學(xué)圖表,而 Synth 則是生成的模擬圖表。LineEX430k 和 OneChart 等最新數(shù)據(jù)集專注于更高級的任務(wù),如信息提取、問答和推理。
6.大模型助力文檔解析
大型文檔提取模型(DELMs)采用基于 Transformer 的架構(gòu),能夠?qū)⑽谋?、圖像、表格等多模態(tài)信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),這對于深入解析復(fù)雜文檔極為關(guān)鍵。
早期的模型,例如 LLaVA-Next 和 Qwen-VL,雖然為多模態(tài)信息處理奠定了基礎(chǔ),但在處理專業(yè)文檔時,它們在光學(xué)字符識別(OCR)和文檔結(jié)構(gòu)理解方面的精細(xì)度不足。
隨后開發(fā)的模型,如 Nougat[3] 和 Vary[4],則在 OCR、結(jié)構(gòu)化信息提取以及頁面布局編排方面進(jìn)行了優(yōu)化,有效應(yīng)對了技術(shù)文檔處理中的難題。
2024 年,F(xiàn)ox 模型[5]在處理多頁文檔方面取得了突破,能夠在不同頁面間整合視覺與文本數(shù)據(jù),且無需調(diào)整模型權(quán)重。Detect-Order-Construct 模型[6]通過將文檔結(jié)構(gòu)解析分解為檢測、排序和構(gòu)建三個步驟,進(jìn)一步提高了分層解析的精度。OmniParser[7] 等模型則朝著集成化框架邁進(jìn),提升了文本與表格的識別能力。而 GOT 模型[8]則開創(chuàng)了一種全能的 OCR 方法,能夠應(yīng)對包括樂譜和復(fù)雜布局在內(nèi)的多種文檔類型。
這些進(jìn)步預(yù)示著大型文檔提取模型(DELMs)解決方案正在更加全面地發(fā)展,為學(xué)術(shù)研究到專業(yè)領(lǐng)域的文檔處理帶來了速度與準(zhǔn)確性的雙重提升。
7.開源文檔解析工具及其評估
7.1 Tools
以下是一些廣受歡迎的開源工具。
圖 15:在 GitHub 上獲得超過 1000 個星標(biāo)的開源文檔解析工具。來源:Document
在 OCR 工具方面,Tesseract 和 PaddleOCR 以其高精確度、高速度以及多語言支持而處于領(lǐng)先地位。Tesseract 適合處理大規(guī)模的任務(wù),而 PaddleOCR 在應(yīng)對復(fù)雜情況時尤為出色。
對于那些結(jié)構(gòu)較為復(fù)雜的文檔,Unstructured[9] 和 Zerox 等專業(yè)框架展現(xiàn)出了卓越的性能,它們能夠高效地提取出嵌套表格和混合內(nèi)容。
包括 Nougat[3]、Fox[5]、Vary[4] 和 GOT[8] 在內(nèi)的先進(jìn)大模型,提供了專項(xiàng)解析功能。Nougat 特別適合解析含有公式的科學(xué)文檔,F(xiàn)ox 擅長整合多模態(tài)信息,Vary 能夠處理文本與圖像混合的多種格式,而 GOT 憑借其統(tǒng)一架構(gòu),在處理表格、幾何圖形等不同內(nèi)容類型時表現(xiàn)優(yōu)異。
GPT-4 和 LLaMA 系列等多模態(tài)模型也在一定程度上支持文檔解析任務(wù)。
7.2 Evaluation
此外,本研究還對 10 種熱門 PDF 解析工具在 6 個不同文檔類別中的表現(xiàn)進(jìn)行了評估和對比。
圖片
圖 16:文本和表格提取工具概覽。這些工具的主要提取功能包括圖像(I)、文本(T)、元數(shù)據(jù)(M)、目錄(TOC)以及表格(TB)。大多數(shù)工具采用的是基于規(guī)則(RB)的技術(shù),部分工具還提供了光學(xué)字符識別(OCR)功能。需要注意,Nougat 和 Table Transformers 并不是本研究的主要重點(diǎn)。來源:A Comparative Study of PDF Parsing Tools[10]
以下是基于 DocLayNet 數(shù)據(jù)集的 PDF 解析器評估結(jié)果的簡明摘要。
在文本提取方面,不同文檔類型間的性能差異頗為顯著。PyMuPDF 和 pypdfium 在 Financial、 Tender、Law 和 Manual 類別中表現(xiàn)尤為出色,尤其是在保留單詞結(jié)構(gòu)方面。而在 visual transformer 模型 Nougat 的對比下,基于規(guī)則的解析器在文本提取上的表現(xiàn)則略顯遜色。
圖片
圖 17:基于規(guī)則的解析器與 Nougat 在科學(xué)文檔文本提取能力的對比。來源:A Comparative Study of PDF Parsing Tools[10]
在表格提取方面,基于規(guī)則的工具在某些特定類別中表現(xiàn)不俗,Camelot 在 Tender 類別中領(lǐng)先,Tabula 則在 Manual、Scientific 和 Patent 類別中表現(xiàn)優(yōu)異。不過,TATR[11] 在多數(shù)類別中展現(xiàn)出了穩(wěn)定而全面的表現(xiàn),尤其是在 Scientific 類別中(召回率超過0.9),盡管在 Manual 和 Tender 類別中它稍遜于 PyMuPDF 和 Camelot。
基于規(guī)則的方法,如 PyMuPDF 和 pdfplumber,在處理結(jié)構(gòu)較為簡單的文檔時表現(xiàn)良好。但當(dāng)遇到科學(xué)和專利文檔時,基于學(xué)習(xí)的方法,如 Nougat 和 TATR,由于能夠更好地處理復(fù)雜的布局和結(jié)構(gòu),因此表現(xiàn)更為出色。
8.Thoughts and Insights
8.1 實(shí)際應(yīng)用現(xiàn)狀
據(jù)我所知,目前模塊化 pipeline 系統(tǒng)在實(shí)際應(yīng)用中得到了廣泛應(yīng)用,而端到端的大模型在實(shí)際應(yīng)用中仍面臨一些限制。
盡管如此,端到端的大模型展現(xiàn)出了發(fā)展的巨大潛力。
8.2 文檔解析的挑戰(zhàn)
模塊化 pipeline 系統(tǒng)面臨的挑戰(zhàn)包括:
- 文檔布局分析(DLA)需要更深入地理解嵌套式布局。
- 光學(xué)字符識別(OCR)在處理密集文本和多字體文本時存在難題。
- 表格識別需要能夠處理那些邊界不清晰或跨多頁的表格。
- 數(shù)學(xué)表達(dá)式識別需要加強(qiáng)對不同表達(dá)形式的處理能力。
- 圖表提取缺乏統(tǒng)一的標(biāo)準(zhǔn)定義。
端到端的大模型雖然規(guī)避了模塊化系統(tǒng)的復(fù)雜性,并提升了文檔結(jié)構(gòu)理解的深度,但仍面臨以下挑戰(zhàn):
- 大多數(shù)用于文檔解析的大模型并未在所有方面超越模塊化 pipeline 系統(tǒng)。
- 由于參數(shù)固定,OCR 功能受限。
- 資源消耗大,處理密集文檔效率不高,以及在大規(guī)模數(shù)據(jù)上圖像與文本特征對齊的難題。
8.3 復(fù)雜文件的文檔解析
當(dāng)前的研究往往聚焦于結(jié)構(gòu)簡單的文檔類型(如科學(xué)論文),而忽視了更為復(fù)雜的文件類型(例如簡歷)。
我們需要更加多樣化的數(shù)據(jù)集。
8.4 文檔類型的影響
評估結(jié)果顯示,文檔類型對解析器性能有著顯著影響,因此工具的選擇應(yīng)符合具體的任務(wù)要求。
8.5 模型的可解釋性與反饋循環(huán)
隨著文檔解析在法律和金融文件處理等關(guān)鍵領(lǐng)域的應(yīng)用越來越重要,模型的可解釋性變得不可或缺。能夠提供透明度的技術(shù)(比如解釋為何某些行或單元格被特定方式分組或標(biāo)記)具有極其重要的價值。
展望未來,如果能夠?qū)⒂脩舻姆答佈h(huán)納入系統(tǒng),讓用戶糾正錯誤的解釋,可以為模型的自我優(yōu)化開辟一條新的路徑。這些模型將通過學(xué)習(xí)人類的糾正行為來動態(tài)地改進(jìn)文檔解析的預(yù)測結(jié)果。
9.Conclusion
本文深入評述和分析了文檔解析技術(shù),探討了這一快速發(fā)展的領(lǐng)域中所采用的各種方法和技術(shù)。