自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="i0iog"></style>

<blockquote id="i0iog"></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理原創(chuàng)

大模型自然語言處理

發(fā)布于 2024-12-6 14:30

瀏覽

0收藏

本文單獨(dú)來看看檢索部分的多模態(tài)嵌入部分。

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

（a）傳統(tǒng)方法；（b）本文方法

局限性：現(xiàn)有的檢索范式缺乏跨模態(tài)的統(tǒng)一編碼過程，導(dǎo)致兩個問題：

預(yù)處理工作繁瑣：需要專門的處理來應(yīng)對各種文檔類型和內(nèi)容模態(tài)，而這些處理往往不完美。例如，HTML文件由于其多樣的結(jié)構(gòu)，復(fù)雜性較高，使得單一工具難以準(zhǔn)確解析所有信息。同樣，ppt和PDF通常需要OCR模型來提取文本并分別處理其他內(nèi)容類型，如表格和圖表。處理這些長尾問題較為復(fù)雜。
破壞文檔原始布局信息：解析過程可能導(dǎo)致文檔布局信息丟失。文檔的視覺呈現(xiàn)可以傳達(dá)通過內(nèi)容提取難以捕捉的關(guān)鍵信息。例如，除了文本和圖像的內(nèi)容外，這些元素在文檔中的大小和位置可能編碼了一些信息。

解決手段：提出了文檔截圖嵌入（Document Screenshot Embedding, DSE），將不同格式和模態(tài)的文檔統(tǒng)一為一種形式進(jìn)行直接文檔編碼和索引：截圖。與使用各種工具從不同格式的文檔中提取文本和圖像不同，截圖易于獲取并且文檔的所有信息在視覺上都得到了保留。如上圖(b)所示，DSE將給定文檔的截圖進(jìn)行embedding。

方法

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

文檔截圖embedding

采用雙編碼器架構(gòu)進(jìn)行密集檢索，其中文檔截圖和用戶文本查詢分別通過視覺編碼器和文本編碼器編碼成密集向量。

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

多模態(tài)大模型作為文檔截圖編碼器

視覺編碼器

一個文檔截圖D，首先由視覺編碼器E_v處理，生成隱藏層表示。序列的長度由視覺編碼器的圖像tokenizer決定。以 clip-vit-large-patch14-336l 為例，任何給定的截圖首先轉(zhuǎn)換為 336 X 336 像素的圖像，然后分成 24 X 24 個塊（即總共 576 個塊），每個塊由 14 X 14 像素組成。每個塊展平并通過可訓(xùn)練的線性投影映射到塊嵌入。塊嵌入由視覺編碼器編碼成隱藏層表示。但是，如果截圖包含大量文本（例如維基百科網(wǎng)頁），576 個塊的潛在嵌入可能無法捕捉截圖中的細(xì)粒度文本信息。

視覺-語言模型

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

對比學(xué)習(xí)

query和文檔之間的相似性通過embedding之間的余弦相似度計算：

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

在訓(xùn)練期間，embedding模型使用InfoNCE 損失進(jìn)行優(yōu)化：

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

實驗

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

監(jiān)督檢索效果

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

零樣本檢索效果

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

補(bǔ)丁序列長度的影響

文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理-AI.x社區(qū)

不同數(shù)量的作物輸入圖像下，DSE的有效性和效率之間的權(quán)衡。推理速度是在單個H100 GPU上通過BF16精度和FlashAttention實現(xiàn)的

參考文獻(xiàn)

Unifying Multimodal Retrieval via Document Screenshot Embedding，??https://arxiv.org/pdf/2406.11251??

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/o97T9IW6b7ikLDdDNXxBAg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

多模態(tài)大模型的實現(xiàn)原理，以及技術(shù)難點(diǎn)

AI探索時代 ? 4522瀏覽 ? 0回復(fù)
字節(jié)跳動發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 3820瀏覽 ? 0回復(fù)
改進(jìn)RAG管道檢索文檔質(zhì)量的五種方法

51CTO內(nèi)容精選 ? 2353瀏覽 ? 0回復(fù)
統(tǒng)一多模態(tài)大模型！PUMA:多粒度策略笑傲生成、編輯、修復(fù)、著色、條件生成和理解!

angel ? 2958瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 2286瀏覽 ? 0回復(fù)
Emu3: 統(tǒng)一多模態(tài)輸入與生成

kede96 ? 1823瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2369瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 2416瀏覽 ? 0回復(fù)
自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成！DeepSeek&北大等開源JanusFlow

angel ? 2336瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 2073瀏覽 ? 0回復(fù)
mR^2AG：基于知識的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗

大模型自然語言處理 ? 1841瀏覽 ? 0回復(fù)
15M數(shù)據(jù)實現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 2656瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 2434瀏覽 ? 0回復(fù)
Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1791瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎勵模型；將獎勵模型多模態(tài)情緒識別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
解鎖多模態(tài)大語言模型：從原理到實戰(zhàn)，一文全掌握！

Halo咯咯 ? 2367瀏覽 ? 0回復(fù)
浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam

angel ? 1042瀏覽 ? 0回復(fù)
單模型統(tǒng)一多圖個性化生成！字節(jié)重磅開源UNO, FLUX版訓(xùn)練、推理、權(quán)重全開源！

angel ? 1470瀏覽 ? 0回復(fù)
多模態(tài)LLM統(tǒng)一嵌入學(xué)習(xí)；基于心理意象模擬的感知視角推理；動態(tài)視覺token壓縮框架

AI研究前瞻 ? 193瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：淺看大模型用于Text2SQL的綜述

下一篇： RARE: 提升LLM推理準(zhǔn)確性和事實完整性的檢索增強(qiáng)框架思路淺嘗

社區(qū)精華內(nèi)容

目錄

<thead id="uadd4"></thead>

<s id="uadd4"><nav id="uadd4"></nav></s>