自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-2-11 10:51

瀏覽

0收藏

筆者在前期一個系列分享了各種文檔智能相關(guān)的技術(shù)方法，可以參考《??文檔智能系列欄目??》，涵蓋各種常見方法。

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

下面直接看看這個端到端的文檔智能結(jié)構(gòu)化方法，供參考。

方法

一、架構(gòu)

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

紅色三部分組成的模型結(jié)構(gòu)

ECLAIR 采用了一個較大的視覺編碼器（657M 參數(shù)-ViT-H/16）和一個較輕量級的解碼器（279M 參數(shù)-mBART）組成端到端的模型，主要為了在推理時提高效率。ECLAIR 包括以下幾個組件：

視覺編碼器（Vision Encoder）

ECLAIR 的視覺編碼器是從 RADIO 模型初始化的，該模型基于 ViT-H/16 架構(gòu)。

輸入：視覺編碼器的輸入是一張圖像，表示為，其中和分別是圖像的高度和寬度，3 表示 RGB 通道。
輸出：編碼器將圖像映射到一個潛在表示，其中是序列長度，是隱藏維度。

通過視覺編碼器，圖像被轉(zhuǎn)換為一個序列化的特征向量。

頸部（Neck）

這部分主要是做降維操作，通常使用卷積或其他變換來壓縮特征表示，以便更好地適應(yīng)解碼器的輸入要求。

解碼器（Decoder）

ECLAIR 使用 mBART 解碼器，這是一個多語言的 Transformer 解碼器。

輸入：解碼器通過條件化于編碼器的潛在表示和上下文來預(yù)測文本標(biāo)記。這里的是編碼器的輸出，是提示標(biāo)記，是提示增強后的序列長度。
輸出：解碼器預(yù)測文本標(biāo)記，這些標(biāo)記可以是格式化的文本、邊界框和語義類別。

二、提示設(shè)計

Prompt機制是用于指導(dǎo)模型輸出特定類型信息的關(guān)鍵組成部分。用戶可以通過提示指定模型輸出的格式和內(nèi)容，實現(xiàn)靈活的輸出控制。

ECLAIR的提示是一個三元組（文章中附上了數(shù)據(jù)合成的方法，感興趣可以看看，這里不再展開），包含三個選項，每個選項可以有八種可能的組合（忽略沒有輸出的情況以及請求語義類別但沒有相應(yīng)邊界框的情況）。

提示的組成

輸出格式：

<structured_text>：以 Markdown 格式輸出文本，內(nèi)聯(lián)公式以 LaTeX 格式表示。
<plain_text>：以純文本格式輸出所有內(nèi)容。
<no_text>：不輸出文本。

邊界框：

< bbox > ：輸出文本塊的邊界框坐標(biāo)。
<no_bbox>：不輸出邊界框。

語義類別：

< classes >：輸出每個文本塊的語義類別。
< no_classes >：不輸出語義類別。

提示的組合

通過不同的組合，ECLAIR 可以生成多種類型的輸出。例如：

最大信息提示（MIP）：同時輸出結(jié)構(gòu)化文本、邊界框和語義類別。這是最詳細(xì)的輸出形式。
僅文本提示：只輸出結(jié)構(gòu)化文本或純文本，不輸出邊界框和語義類別。
僅邊界框提示：輸出邊界框和相應(yīng)的文本，但不輸出語義類別。
最小信息提示：只輸出文本，不輸出邊界框和語義類別。

提示的使用

在訓(xùn)練過程中，ECLAIR 在預(yù)訓(xùn)練階段使用最大信息提示進行訓(xùn)練，以確保模型能夠處理所有可能的輸出類型。在微調(diào)階段，可以通過減少信息密度來適應(yīng)具有部分標(biāo)注的數(shù)據(jù)集。這種方法允許模型利用多樣化的視覺數(shù)據(jù)進行訓(xùn)練，即使這些數(shù)據(jù)集的標(biāo)注不完全。

實驗效果

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法-AI.x社區(qū)

參考文獻(xiàn)

ECLAIR – Extracting Content and Layout with Integrated Reading Order for Documents，https://arxiv.org/pdf/2502.04223v1

注：代碼未開源，基準(zhǔn)評價數(shù)據(jù)集也未開放。

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/eQ5h0VWPKQVfPDqlhDZDAA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

已于2025-2-11 14:42:34修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

AI重塑社交，誰才是C端敘事正解？

liutao988 ? 1913瀏覽 ? 0回復(fù)
擊敗SDXL登頂SOTA | CoMat:端到端的擴散模型微調(diào)策略

angel ? 3450瀏覽 ? 0回復(fù)
英偉達(dá)股價暴跌！或與 Llama 3 發(fā)布有關(guān)？

開發(fā)者阿橙 ? 3068瀏覽 ? 0回復(fù)
英偉達(dá)開源大模型對齊框架—NeMo-Aligner

Aceryt ? 2748瀏覽 ? 0回復(fù)
華科等提出VIMTS：零樣本視頻端到端識別新SOTA

duhorse ? 2699瀏覽 ? 0回復(fù)
TinyAgent：邊緣端的功能調(diào)用

AIGC最前線 ? 2954瀏覽 ? 0回復(fù)
復(fù)旦和騰訊優(yōu)圖發(fā)布端到端人像動畫生成器VividPose！

angel ? 3994瀏覽 ? 0回復(fù)
OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2

angel ? 2902瀏覽 ? 0回復(fù)
借助HuggingFace輕松實施一個端到端項目

51CTO內(nèi)容精選 ? 2713瀏覽 ? 0回復(fù)
南理工&InstantX&小紅書發(fā)布CSGO:簡單高效的端到端風(fēng)格遷移框架

angel ? 2353瀏覽 ? 0回復(fù)
使用Concrete ML為模型訓(xùn)練和推理確保端到端隱私

51CTO內(nèi)容精選 ? 1710瀏覽 ? 0回復(fù)
什么是端到端(end to end)大模型，它和傳統(tǒng)的大模型有什么區(qū)別？其優(yōu)勢與劣勢是什么？

AI探索時代 ? 3754瀏覽 ? 0回復(fù)
AI 推理市場全景解析：戰(zhàn)火從云端到邊緣端

Syrupup ? 2146瀏覽 ? 0回復(fù)
Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 2434瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 2328瀏覽 ? 0回復(fù)
手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建議收藏！

玄姐聊AGI ? 1.0w瀏覽 ? 0回復(fù)
基于代理知識蒸餾技術(shù)克服文檔提取和RAG策略失敗問題?

51CTO內(nèi)容精選 ? 1015瀏覽 ? 0回復(fù)
英偉達(dá) GTC 2025：從芯片到機器人，AI 未來已來，市場為何不買賬？

Halo咯咯 ? 1369瀏覽 ? 0回復(fù)
VAE與擴散模型迎來端到端聯(lián)合訓(xùn)練：REPA-E讓VAE自我進化！

angel ? 747瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： “幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證

下一篇： DeepSeek中的多頭潛在注意力（MLA）淺嘗

社區(qū)精華內(nèi)容

目錄

<style id="1ysfp"></style>