自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="5fe6z"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用原創(chuàng)

大模型自然語言處理

發(fā)布于 2024-11-12 15:58

瀏覽

0收藏

前期文章提到，多模態(tài)的RAG框架ColPali通過視覺語言模型（VLMs）高效地檢索純視覺特征的文檔，實現(xiàn)視覺文檔問答。 ??【RAG&多模態(tài)】多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索??

本文再來看一個類似工作，VisRAG，一種基于視覺語言模型的檢索增強生成（RAG）方法，用于解決多模態(tài)文檔中的信息利用問題。

方法

VisRAG分為VisRAG-Ret和VisRAG-Gen兩個階段。

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

傳統(tǒng)的基于文本的RAG（TextRAG，左）依賴于解析后的文本進行檢索和生成，丟失了多模態(tài)文檔中的視覺信息；基于視覺的RAG（VisRAG，右）采用基于VLM的檢索器和生成器直接處理文檔頁面的圖像，從而保留原始頁面中的所有信息。

檢索階段：VisRAG-Ret

VisRAG-Ret將query和文檔頁面分別作為文本和圖像在VLM中進行編碼，產(chǎn)生一系列隱藏狀態(tài)。最終嵌入通過對最后一層VLM隱藏狀態(tài)進行加權平均池化得到：

其中，是第個隱藏狀態(tài)，是序列長度，是第個權重，是查詢或頁面的嵌入。相似度得分通過查詢和頁面嵌入的余弦相似度計算。VisRAG-Ret使用InfoNCE損失進行優(yōu)化：

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

其中,是正文檔, 是負文檔集, 是查詢和d之間的相似度得分,是溫度。

生成階段：VisRAG-Gen

VisRAG-Gen使用VLM根據(jù)用戶query和檢索到的頁面生成答案。

文檔圖像頁面拼接：將所有檢索到的頁面拼接成一個單一圖像，以適應大多數(shù)只能接受單張圖像的VLM。
加權選擇：讓VLM為每個頁面生成答案，并根據(jù)多個VLM輸出條件選擇最終答案。最終置信度定義為答案的加權生成概率：其中, 是基于單個文檔d生成答案的困惑度的倒數(shù),
能夠接受多圖的VLMs：一些最新的VLM（如MiniCPM-V和Qwen-VL）可以處理多個圖像作為輸入，適用于單跳或多跳問題(跨圖像推理)。

實驗效果

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

參考文獻

paper：VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS，https://arxiv.org/pdf/2410.10594
code：https://github.com/OpenBMB/VisRAG

本文轉載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/PDWdzgxxfPrivb8_THRu-g??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態(tài)

已于2024-11-28 18:53:35修改

贊

收藏

回復

舉報

回復

相關推薦

通過檢索增強生成(RAG) 增強LLM的實戰(zhàn)演練

51CTO內(nèi)容精選 ? 3232瀏覽 ? 0回復
多模態(tài)思維鏈推理在語言模型中的應用

AIRoobt ? 4124瀏覽 ? 0回復
面向大語言模型的檢索增強生成(RAG)技術：綜述

angel ? 4716瀏覽 ? 0回復
15種先進的檢索增強生成（RAG）技術

玄姐聊AGI ? 2425瀏覽 ? 0回復
RAG高級優(yōu)化：基于問題生成的文檔檢索增強

恰似驚鴻 ? 2723瀏覽 ? 0回復
P-RAG: 漸進式檢索增強生成方法在具身日常任務規(guī)劃中的應用

芝士AI吃魚 ? 3380瀏覽 ? 0回復
15種先進的檢索增強生成（RAG）技術

Halo咯咯 ? 1856瀏覽 ? 0回復
多模態(tài)RAG應用開發(fā)實戰(zhàn)演練

51CTO內(nèi)容精選 ? 1863瀏覽 ? 0回復
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2377瀏覽 ? 0回復
再談大模型檢索增強生成——RAG

AI探索時代 ? 1845瀏覽 ? 0回復
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 2005瀏覽 ? 0回復
再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理 ? 2079瀏覽 ? 0回復
mR^2AG：基于知識的多模態(tài)檢索-反思增強生成方法淺嘗

大模型自然語言處理 ? 1845瀏覽 ? 0回復
RAG再進化？基于長期記憶的檢索增強生成新范式-MemoRAG

大模型自然語言處理 ? 2156瀏覽 ? 0回復
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 1863瀏覽 ? 0回復
RAG檢索增強生成和大模型微調(diào)的抉擇

AI探索時代 ? 1979瀏覽 ? 0回復
九種不同類型的檢索增強生成 (RAG)

Halo咯咯 ? 2388瀏覽 ? 0回復
什么是檢索增強生成 (RAG)？

Halo咯咯 ? 1617瀏覽 ? 0回復
萬字解析非結構化文檔中的隱藏價值：多模態(tài)檢索增強生成（RAG）的前景

柏企閱文 ? 922瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結構、訓練方法、訓練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

下一篇：淺看引入智能信息助理提升大模型處理復雜推理任務的潛力-AssisTRAG

社區(qū)精華內(nèi)容

目錄

<u id="jvudx"><blockquote id="jvudx"><span id="jvudx"></span></blockquote></u>