多模態(tài)RAG-VisRAG:基于視覺的檢索增強生成在多模態(tài)文檔上的應用 原創(chuàng)
前期文章提到,多模態(tài)的RAG框架ColPali通過視覺語言模型(VLMs)高效地檢索純視覺特征的文檔,實現(xiàn)視覺文檔問答。 ??【RAG&多模態(tài)】多模態(tài)RAG-ColPali:使用視覺語言模型實現(xiàn)高效的文檔檢索??
本文再來看一個類似工作,VisRAG,一種基于視覺語言模型的檢索增強生成(RAG)方法,用于解決多模態(tài)文檔中的信息利用問題。
方法
VisRAG分為VisRAG-Ret和VisRAG-Gen兩個階段。
傳統(tǒng)的基于文本的RAG(TextRAG,左)依賴于解析后的文本進行檢索和生成,丟失了多模態(tài)文檔中的視覺信息;基于視覺的RAG(VisRAG,右)采用基于VLM的檢索器和生成器直接處理文檔頁面的圖像,從而保留原始頁面中的所有信息。
檢索階段:VisRAG-Ret
VisRAG-Ret將query和文檔頁面分別作為文本和圖像在VLM中進行編碼,產(chǎn)生一系列隱藏狀態(tài)。最終嵌入通過對最后一層VLM隱藏狀態(tài)進行加權平均池化得到:
其中,是第個隱藏狀態(tài),是序列長度,是第個權重,是查詢或頁面的嵌入。相似度得分通過查詢和頁面嵌入的余弦相似度計算。VisRAG-Ret使用InfoNCE損失進行優(yōu)化:
其中,是正文檔, 是負文檔集, 是查詢和d之間的相似度得分,是溫度。
生成階段:VisRAG-Gen
VisRAG-Gen使用VLM根據(jù)用戶query和檢索到的頁面生成答案。
- 文檔圖像頁面拼接:將所有檢索到的頁面拼接成一個單一圖像,以適應大多數(shù)只能接受單張圖像的VLM。
- 加權選擇:讓VLM為每個頁面生成答案,并根據(jù)多個VLM輸出條件選擇最終答案。最終置信度定義為答案的加權生成概率:其中, 是基于單個文檔d生成答案的困惑度的倒數(shù),
- 能夠接受多圖的VLMs:一些最新的VLM(如MiniCPM-V和Qwen-VL)可以處理多個圖像作為輸入,適用于單跳或多跳問題(跨圖像推理)。
實驗效果
參考文獻
- paper:VISRAG: VISION-BASED RETRIEVAL-AUGMENTED GENERATION ON MULTI-MODALITY DOCUMENTS,https://arxiv.org/pdf/2410.10594
- code:https://github.com/OpenBMB/VisRAG
本文轉載自公眾號大模型自然語言處理 作者:余俊暉
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-11-28 18:53:35修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦