自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用 原創(chuàng)

發(fā)布于 2024-11-12 15:58
瀏覽
0收藏

前期文章提到,多模態(tài)的RAG框架ColPali通過視覺語言模型(VLMs)高效地檢索純視覺特征的文檔,實現(xiàn)視覺文檔問答。 ??【RAG&多模態(tài)】多模態(tài)RAG-ColPali:使用視覺語言模型實現(xiàn)高效的文檔檢索??

本文再來看一個類似工作,VisRAG,一種基于視覺語言模型的檢索增強生成(RAG)方法,用于解決多模態(tài)文檔中的信息利用問題。

方法

VisRAG分為VisRAG-Ret和VisRAG-Gen兩個階段。

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

傳統(tǒng)的基于文本的RAG(TextRAG,左)依賴于解析后的文本進行檢索和生成,丟失了多模態(tài)文檔中的視覺信息;基于視覺的RAG(VisRAG,右)采用基于VLM的檢索器和生成器直接處理文檔頁面的圖像,從而保留原始頁面中的所有信息。

檢索階段:VisRAG-Ret

VisRAG-Ret將query和文檔頁面分別作為文本和圖像在VLM中進行編碼,產(chǎn)生一系列隱藏狀態(tài)。最終嵌入通過對最后一層VLM隱藏狀態(tài)進行加權平均池化得到:

其中,是第個隱藏狀態(tài),是序列長度,是第個權重,是查詢或頁面的嵌入。相似度得分通過查詢和頁面嵌入的余弦相似度計算。VisRAG-Ret使用InfoNCE損失進行優(yōu)化:

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

其中,是正文檔, 是負文檔集, 是查詢和d之間的相似度得分,是溫度。

生成階段:VisRAG-Gen

VisRAG-Gen使用VLM根據(jù)用戶query和檢索到的頁面生成答案。

  • 文檔圖像頁面拼接:將所有檢索到的頁面拼接成一個單一圖像,以適應大多數(shù)只能接受單張圖像的VLM。
  • 加權選擇:讓VLM為每個頁面生成答案,并根據(jù)多個VLM輸出條件選擇最終答案。最終置信度定義為答案的加權生成概率:其中, 是基于單個文檔d生成答案的困惑度的倒數(shù),
  • 能夠接受多圖的VLMs:一些最新的VLM(如MiniCPM-V和Qwen-VL)可以處理多個圖像作為輸入,適用于單跳或多跳問題(跨圖像推理)。

實驗效果

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用-AI.x社區(qū)

參考文獻

  • paper:VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS,https://arxiv.org/pdf/2410.10594
  • code:https://github.com/OpenBMB/VisRAG


本文轉載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/PDWdzgxxfPrivb8_THRu-g??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-11-28 18:53:35修改
收藏
回復
舉報
回復
相關推薦