自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元 精華

發(fā)布于 2024-9-9 00:16
瀏覽
0收藏

OCR-Free多頁文檔理解的挑戰(zhàn)與進(jìn)展

在現(xiàn)代信息時(shí)代,多頁文檔的自動(dòng)理解和處理變得尤為重要。這些文檔可能包括書籍、報(bào)告、學(xué)術(shù)論文等,它們通常包含大量的文本、圖表和其他視覺元素。傳統(tǒng)的文檔理解方法依賴于光學(xué)字符識(shí)別(OCR)技術(shù)將圖像轉(zhuǎn)換為文本數(shù)據(jù)。然而,OCR過程不僅耗時(shí),而且在處理高分辨率或多頁文檔時(shí),容易出現(xiàn)錯(cuò)誤,尤其是在文檔格式復(fù)雜或字體多樣的情況下。

隨著深度學(xué)習(xí)技術(shù)的發(fā)展,OCR-Free的文檔理解方法逐漸受到關(guān)注。這類方法直接從文檔圖像中提取信息,無需轉(zhuǎn)換為文本格式,從而避免了OCR過程中可能出現(xiàn)的錯(cuò)誤。然而,這種方法面臨的主要挑戰(zhàn)之一是如何有效處理和理解高分辨率的多頁文檔圖像。高分辨率圖像通常意味著更多的視覺信息和更大的數(shù)據(jù)量,這對(duì)計(jì)算資源(如GPU內(nèi)存)和處理速度提出了更高的要求。

為了應(yīng)對(duì)這些挑戰(zhàn),研究人員提出了多種策略。一種有效的策略是開發(fā)高分辨率文檔壓縮模塊,該模塊能夠?qū)⒚總€(gè)高分辨率文檔圖像壓縮成更少的視覺標(biāo)記(tokens),同時(shí)保留布局和大部分文本信息。例如,mPLUG-DocOwl2模型采用了一種高分辨率文檔壓縮器,通過跨注意力機(jī)制,以全局低分辨率視覺特征為指導(dǎo),將文檔圖像壓縮成324個(gè)視覺標(biāo)記。這種方法不僅顯著減少了GPU內(nèi)存的使用和推理時(shí)間,而且在多頁文檔理解基準(zhǔn)測(cè)試中設(shè)定了新的最高標(biāo)準(zhǔn)。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

此外,為了進(jìn)一步提升模型的多頁文檔理解能力,研究人員還開發(fā)了三階段訓(xùn)練框架,包括單圖像預(yù)訓(xùn)練、多圖像連續(xù)預(yù)訓(xùn)練和多任務(wù)微調(diào)。這種訓(xùn)練策略有助于模型在處理單頁和多頁文檔時(shí)都能達(dá)到較高的性能,同時(shí)保持較高的標(biāo)記效率和問題回答性能的平衡。

總之,OCR-Free多頁文檔理解技術(shù)的發(fā)展為自動(dòng)文檔處理領(lǐng)域帶來了新的進(jìn)展。通過高效的圖像壓縮技術(shù)和精細(xì)的訓(xùn)練策略,現(xiàn)代模型能夠在保持高效率的同時(shí),提供準(zhǔn)確的文檔內(nèi)容理解,這對(duì)于信息檢索、內(nèi)容管理等應(yīng)用場(chǎng)景具有重要意義。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

論文概覽

1. 標(biāo)題
MPLUG-DOCOWL2: HIGH-RESOLUTION COMPRESSING FOR OCR-FREE MULTI-PAGE DOCUMENT UNDERSTANDING

2. 作者
Anwen Hu1, Haiyang Xu1*, Ji Zhang1, Qin Jin2, Liang Zhang2, Fei Huang1, Jiabo Ye1, Jingren Zhou1, Ming Yan1*

3. 機(jī)構(gòu)

  1. Alibaba Group
  2. Renmin University of China

4. 鏈接
???https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2??

高分辨率文檔圖像的挑戰(zhàn)

在處理高分辨率文檔圖像時(shí),多模態(tài)大型語言模型(MLLMs)面臨著一系列挑戰(zhàn)。隨著文檔圖像分辨率的提高,模型需要生成數(shù)千個(gè)視覺令牌來理解單一文檔圖像,這不僅增加了GPU內(nèi)存的消耗,也導(dǎo)致了推理速度的降低,特別是在多頁文檔理解的場(chǎng)景中。

1. 視覺令牌的過多生成

高分辨率圖像處理通常會(huì)產(chǎn)生大量的視覺令牌。例如,InternVL 2模型在單頁文檔理解基準(zhǔn)測(cè)試中平均需要約3000個(gè)視覺令牌。這種大量的視覺令牌不僅導(dǎo)致長(zhǎng)時(shí)間的推理延遲,還占用了大量的GPU內(nèi)存,從而限制了模型在完整文檔或視頻理解方面的應(yīng)用。

2. 壓縮視覺特征的挑戰(zhàn)

為了解決視覺令牌過多的問題,研究者們嘗試了多種壓縮方法。然而,現(xiàn)有的壓縮架構(gòu)往往難以在保留信息和提高令牌效率之間取得平衡。例如,獨(dú)立壓縮文檔圖像的每個(gè)部分可以減少每個(gè)子圖像的視覺令牌數(shù)量,但在所有子圖像連接后,總的視覺令牌數(shù)量仍然很長(zhǎng)。此外,使用可學(xué)習(xí)的查詢或選定的令牌作為壓縮指導(dǎo)可能會(huì)忽略整體布局信息,這對(duì)于文檔圖像的視覺特征壓縮至關(guān)重要。

3. 布局感知的壓縮架構(gòu)

為了更有效地壓縮文檔圖像中的視覺特征,本研究提出了一種布局感知的壓縮架構(gòu)——高分辨率DocCompressor。這種架構(gòu)利用全局低分辨率圖像的視覺特征作為壓縮指導(dǎo),通過交叉注意力機(jī)制將高分辨率文檔圖像壓縮為更少的令牌,同時(shí)保留了布局和大部分文本信息。具體來說,每個(gè)來自全局特征圖的查詢?cè)谧⒁饬C(jī)制中只關(guān)注原始高分辨率圖像中相對(duì)位置相同的一組高分辨率特征,從而在壓縮過程中減少計(jì)算復(fù)雜性并保留重要的文本語義。

通過這種方法,我們的模型DocOwl2在多頁文檔理解基準(zhǔn)測(cè)試中設(shè)定了新的最高標(biāo)準(zhǔn),并且在首個(gè)令牌延遲方面實(shí)現(xiàn)了超過50%的減少,展示了在多頁問答、證據(jù)頁解釋和跨頁結(jié)構(gòu)理解方面的先進(jìn)能力。此外,與在類似數(shù)據(jù)上訓(xùn)練的單圖像MLLMs相比,DocOwl2在使用的視覺令牌數(shù)量上減少了超過80%,同時(shí)保持了可比的單頁文檔理解性能。

DocOwl2模型架構(gòu)解析

DocOwl2模型是為了解決多頁文檔理解中的挑戰(zhàn)而設(shè)計(jì)的,特別是在處理高分辨率文檔圖像時(shí),傳統(tǒng)的多模態(tài)大型語言模型(MLLMs)往往需要生成大量的視覺令牌,這不僅消耗大量GPU內(nèi)存,還會(huì)導(dǎo)致推理速度變慢。為了優(yōu)化這一過程,DocOwl2采用了一種高效的壓縮模塊,即高分辨率DocCompressor,以及一個(gè)三階段的訓(xùn)練框架,包括單圖像預(yù)訓(xùn)練、多圖像連續(xù)預(yù)訓(xùn)練和多任務(wù)微調(diào)。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

1. 高分辨率DocCompressor壓縮模塊

高分辨率DocCompressor是DocOwl2中的核心組件,它能夠?qū)⒚總€(gè)高分辨率文檔圖像壓縮成324個(gè)令牌。這一壓縮是通過低分辨率的全局視覺特征來引導(dǎo)的,這些全局視覺特征能夠捕捉到文檔的整體布局信息。具體來說,DocCompressor使用跨注意力機(jī)制,將高分辨率特征映射到較少的令牌上,同時(shí)保留布局和大部分文本信息。

2. 三階段訓(xùn)練框架

為了充分發(fā)揮DocOwl2模型在多頁文檔理解上的能力,開發(fā)團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三階段的訓(xùn)練框架:

  • 單圖像預(yù)訓(xùn)練:在這一階段,模型首先在單頁文檔圖像上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)如何有效地壓縮視覺特征并保留重要的文本信息。
  • 多圖像連續(xù)預(yù)訓(xùn)練:隨后,模型在多頁文檔圖像上進(jìn)行預(yù)訓(xùn)練,這有助于模型學(xué)習(xí)如何處理和理解多個(gè)相關(guān)聯(lián)的圖像。
  • 多任務(wù)微調(diào):最后,通過在具體的多頁文檔理解任務(wù)上進(jìn)行微調(diào),進(jìn)一步優(yōu)化模型的性能,使其能夠更好地應(yīng)對(duì)實(shí)際應(yīng)用中的挑戰(zhàn)。

通過這種方法,DocOwl2不僅顯著提高了處理速度,減少了GPU內(nèi)存的使用,還在多頁文檔理解基準(zhǔn)測(cè)試中達(dá)到了新的最佳性能。此外,與類似數(shù)據(jù)訓(xùn)練的單圖像MLLMs相比,DocOwl2在單頁理解性能上也表現(xiàn)出色,但使用的視覺令牌數(shù)量不到20%。

實(shí)驗(yàn)設(shè)計(jì)與基準(zhǔn)測(cè)試

在進(jìn)行多頁文檔理解的研究中,我們?cè)O(shè)計(jì)了一種高分辨率文檔壓縮模塊(High-resolution DocCompressor),旨在通過低分辨率全局視覺特征的引導(dǎo),將每個(gè)高分辨率文檔圖像壓縮為324個(gè)視覺標(biāo)記。這種方法不僅提高了處理速度,而且顯著減少了GPU內(nèi)存的使用。

1. 壓縮模塊的設(shè)計(jì)

我們提出的高分辨率DocCompressor模塊基于交叉注意力機(jī)制,利用全局低分辨率圖像捕獲的布局信息作為壓縮指導(dǎo)。這種布局感知的壓縮對(duì)于文檔圖像非常重要,因?yàn)槲臋n中的文本通常在布局區(qū)域內(nèi)語義連貫,更易于概括。例如,在一個(gè)雙欄的論文中,屬于“相關(guān)工作”部分的文本與同一行但屬于“方法”部分的文本難以概括在一起。

2. 訓(xùn)練框架

為了充分利用這種壓縮方法,我們開發(fā)了DocOwl2模型,并在三階段訓(xùn)練框架下進(jìn)行訓(xùn)練:?jiǎn)螆D像預(yù)訓(xùn)練、多圖像連續(xù)預(yù)訓(xùn)練和多任務(wù)微調(diào)。這種訓(xùn)練策略旨在平衡標(biāo)記效率和問答性能,從而加強(qiáng)多頁文檔理解能力。

3. 基準(zhǔn)測(cè)試

我們?cè)趩雾摵投囗撐臋n理解基準(zhǔn)測(cè)試中對(duì)DocOwl2進(jìn)行了測(cè)試。結(jié)果顯示,DocOwl2在多頁文檔理解任務(wù)中設(shè)定了新的最先進(jìn)水平,并且在首個(gè)標(biāo)記延遲方面實(shí)現(xiàn)了超過50%的減少,證明了其在多頁問答、帶證據(jù)頁的解釋以及跨頁結(jié)構(gòu)理解方面的先進(jìn)能力。此外,與在類似數(shù)據(jù)上訓(xùn)練的單圖像MLLMs相比,我們的DocOwl2在單頁理解性能上具有可比性,但視覺標(biāo)記數(shù)量減少了80%以上。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

通過這些實(shí)驗(yàn)和基準(zhǔn)測(cè)試,我們驗(yàn)證了高分辨率DocCompressor在壓縮視覺特征和保持文檔圖像文本語義方面的有效性,以及三階段訓(xùn)練框架在提升單頁和多頁文檔理解性能方面的優(yōu)勢(shì)。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀(jì)元-AI.x社區(qū)

模型性能分析與討論

1. 性能概述

DocOwl2模型在多頁文檔理解方面設(shè)定了新的行業(yè)標(biāo)準(zhǔn)。通過引入高分辨率DocCompressor模塊,該模型能夠?qū)⒚總€(gè)高分辨率文檔圖像壓縮為324個(gè)視覺令牌,同時(shí)保留了布局和大部分文本信息。這種壓縮顯著提高了模型在多頁文檔理解任務(wù)中的效率,減少了首個(gè)令牌的延遲時(shí)間超過50%,并且與單頁文檔理解性能相當(dāng),僅使用不到20%的視覺令牌。

2. 性能對(duì)比

與其他多模態(tài)大型語言模型(MLLMs)相比,DocOwl2在單頁和多頁文檔理解基準(zhǔn)測(cè)試中均展現(xiàn)出優(yōu)越性能。尤其是在處理高分辨率圖像時(shí),DocOwl2通過有效減少視覺令牌的數(shù)量,能夠在保持高性能的同時(shí),顯著減少GPU內(nèi)存的使用和推理時(shí)間。例如,在DocVQA基準(zhǔn)測(cè)試中,DocOwl2的表現(xiàn)與使用更多視覺令牌的模型相當(dāng),但其首個(gè)令牌延遲(First Token Latency)顯著更低。

3. 訓(xùn)練與優(yōu)化

DocOwl2的訓(xùn)練過程包括單圖像預(yù)訓(xùn)練、多圖像連續(xù)預(yù)訓(xùn)練和多任務(wù)微調(diào)三個(gè)階段。這種三階段訓(xùn)練框架的設(shè)計(jì)旨在平衡令牌效率和問題回答性能。通過在多圖像理解任務(wù)中引入結(jié)構(gòu)感知的多頁文檔解析數(shù)據(jù)集,模型能夠更好地理解和關(guān)聯(lián)多個(gè)圖像之間的內(nèi)容,從而提高了在復(fù)雜文檔理解任務(wù)中的表現(xiàn)。

4. 應(yīng)用場(chǎng)景與前景

DocOwl2模型不僅在學(xué)術(shù)界引起了重視,其在工業(yè)界的應(yīng)用前景也非常廣泛。從法律文件的自動(dòng)解析到醫(yī)療記錄的信息提取,再到新聞視頻的內(nèi)容理解,DocOwl2的高效、準(zhǔn)確的多頁文檔理解能力都是極具價(jià)值的。此外,模型的開源性質(zhì)也為廣大研究人員和開發(fā)者提供了進(jìn)一步探索和優(yōu)化的可能。

通過這些詳細(xì)的性能分析和討論,我們可以看到DocOwl2模型在OCR-free多頁文檔理解領(lǐng)域的重要進(jìn)展和潛力。未來的研究可以進(jìn)一步探索如何優(yōu)化模型結(jié)構(gòu)和訓(xùn)練策略,以適應(yīng)更多樣化的應(yīng)用場(chǎng)景。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦