自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法 原創(chuàng)

發(fā)布于 2025-2-11 10:51
瀏覽
0收藏

筆者在前期一個系列分享了各種文檔智能相關(guān)的技術(shù)方法,可以參考《??文檔智能系列欄目??》,涵蓋各種常見方法。

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

下面直接看看這個端到端的文檔智能結(jié)構(gòu)化方法,供參考。

方法

一、架構(gòu)

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

紅色三部分組成的模型結(jié)構(gòu)

ECLAIR 采用了一個較大的視覺編碼器(657M 參數(shù)-ViT-H/16)和一個較輕量級的解碼器(279M 參數(shù)-mBART)組成端到端的模型,主要為了在推理時提高效率。ECLAIR 包括以下幾個組件:

視覺編碼器(Vision Encoder)

ECLAIR 的視覺編碼器是從 RADIO 模型初始化的,該模型基于 ViT-H/16 架構(gòu)。

  • 輸入:視覺編碼器的輸入是一張圖像,表示為 ,其中  和  分別是圖像的高度和寬度,3 表示 RGB 通道。
  • 輸出:編碼器將圖像映射到一個潛在表示 ,其中  是序列長度, 是隱藏維度。

通過視覺編碼器,圖像被轉(zhuǎn)換為一個序列化的特征向量。

頸部(Neck)

這部分主要是做降維操作,通常使用卷積或其他變換來壓縮特征表示,以便更好地適應(yīng)解碼器的輸入要求。

解碼器(Decoder)

ECLAIR 使用 mBART 解碼器,這是一個多語言的 Transformer 解碼器。

  • 輸入:解碼器通過條件化于編碼器的潛在表示  和上下文  來預(yù)測文本標(biāo)記 。這里的  是編碼器的輸出, 是提示標(biāo)記, 是提示增強后的序列長度。
  • 輸出:解碼器預(yù)測文本標(biāo)記,這些標(biāo)記可以是格式化的文本、邊界框和語義類別。

二、提示設(shè)計

Prompt機制是用于指導(dǎo)模型輸出特定類型信息的關(guān)鍵組成部分。用戶可以通過提示指定模型輸出的格式和內(nèi)容,實現(xiàn)靈活的輸出控制。

ECLAIR的提示是一個三元組(文章中附上了數(shù)據(jù)合成的方法,感興趣可以看看,這里不再展開),包含三個選項,每個選項可以有八種可能的組合(忽略沒有輸出的情況以及請求語義類別但沒有相應(yīng)邊界框的情況)。

提示的組成
  1. 輸出格式
  • <structured_text>:以 Markdown 格式輸出文本,內(nèi)聯(lián)公式以 LaTeX 格式表示。
  • <plain_text>:以純文本格式輸出所有內(nèi)容。
  • <no_text>:不輸出文本。
  1. 邊界框
  • < bbox > :輸出文本塊的邊界框坐標(biāo)。
  • <no_bbox>:不輸出邊界框。
  1. 語義類別
  • < classes >:輸出每個文本塊的語義類別。
  • < no_classes >:不輸出語義類別。
提示的組合

通過不同的組合,ECLAIR 可以生成多種類型的輸出。例如:

  • 最大信息提示(MIP):同時輸出結(jié)構(gòu)化文本、邊界框和語義類別。這是最詳細(xì)的輸出形式。
  • 僅文本提示:只輸出結(jié)構(gòu)化文本或純文本,不輸出邊界框和語義類別。
  • 僅邊界框提示:輸出邊界框和相應(yīng)的文本,但不輸出語義類別。
  • 最小信息提示:只輸出文本,不輸出邊界框和語義類別。
提示的使用

在訓(xùn)練過程中,ECLAIR 在預(yù)訓(xùn)練階段使用最大信息提示進行訓(xùn)練,以確保模型能夠處理所有可能的輸出類型。在微調(diào)階段,可以通過減少信息密度來適應(yīng)具有部分標(biāo)注的數(shù)據(jù)集。這種方法允許模型利用多樣化的視覺數(shù)據(jù)進行訓(xùn)練,即使這些數(shù)據(jù)集的標(biāo)注不完全。

實驗效果

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取,并集成閱讀順序方法-AI.x社區(qū)

參考文獻(xiàn)

ECLAIR – Extracting Content and Layout with Integrated Reading Order for Documents,https://arxiv.org/pdf/2502.04223v1

注:代碼未開源,基準(zhǔn)評價數(shù)據(jù)集也未開放。


本文轉(zhuǎn)載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/eQ5h0VWPKQVfPDqlhDZDAA??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-2-11 14:42:34修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦