自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ViDoRAG:提升視覺RAG性能10% 精華

發(fā)布于 2025-3-17 00:58
瀏覽
0收藏
ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

ViDoRAG——一個(gè)專為視覺文檔復(fù)雜推理設(shè)計(jì)的多智能體 RAG 框架。ViDoRAG 采用基于高斯混合模型(GMM)的混合策略,實(shí)現(xiàn)高效多模態(tài)檢索。為進(jìn)一步挖掘模型推理潛力,我們?cè)O(shè)計(jì)了一個(gè)包含探索、總結(jié)與反思的迭代智能體工作流,為研究 RAG 領(lǐng)域的測(cè)試時(shí)擴(kuò)展提供了全新框架,超越現(xiàn)有方法 10%以上。

https://arxiv.org/abs/2502.18017

一、為什么需要 ViDoRAG 技術(shù)?

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

1.1 視覺文檔的復(fù)雜性

在信息爆炸的時(shí)代,視覺文檔(如包含圖表、表格、圖像的文件)在教育、金融、法律等多個(gè)領(lǐng)域廣泛應(yīng)用。這些文檔不僅包含文本信息,還通過視覺元素傳遞關(guān)鍵信息。然而,傳統(tǒng)的檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)方法在處理這些視覺文檔時(shí)面臨巨大挑戰(zhàn),因?yàn)樗鼈冸y以有效整合文本和視覺特征。例如,一份金融報(bào)告可能包含復(fù)雜的圖表和表格,傳統(tǒng)的 RAG 系統(tǒng)只能提取文本信息,而忽略了圖表中的關(guān)鍵數(shù)據(jù),導(dǎo)致信息不完整。

1.2 現(xiàn)有方法的局限性

現(xiàn)有的視覺問答(Visual Question Answering, VQA)基準(zhǔn)主要針對(duì)單一圖像或文檔,無法應(yīng)對(duì)大規(guī)模文檔集合中的復(fù)雜推理任務(wù)。例如,傳統(tǒng)的 VQA 數(shù)據(jù)集通常要求每個(gè)問題與特定的圖像或文檔配對(duì),但在實(shí)際應(yīng)用中,用戶可能需要從數(shù)百個(gè)文檔中檢索信息。此外,傳統(tǒng)的 OCR(光學(xué)字符識(shí)別)檢索方法在處理視覺信息時(shí)表現(xiàn)不佳,導(dǎo)致檢索結(jié)果不準(zhǔn)確。例如,OCR 可能無法正確識(shí)別圖表中的數(shù)字或符號(hào),從而影響后續(xù)的推理和生成。

1.3 ViDoRAG 的誕生

為了填補(bǔ)這一空白,ViDoRAG 應(yīng)運(yùn)而生。它通過多模態(tài)檢索和迭代推理代理,顯著提升了視覺文檔的檢索和生成能力,為復(fù)雜推理任務(wù)提供了全新的解決方案。例如,ViDoRAG 在處理一份包含多個(gè)圖表的學(xué)術(shù)論文時(shí),能夠同時(shí)提取文本和圖表中的信息,并通過迭代推理生成準(zhǔn)確的答案。這種創(chuàng)新方法不僅提高了信息檢索的準(zhǔn)確性,還增強(qiáng)了生成模型在處理復(fù)雜視覺文檔時(shí)的推理能力。

二、ViDoRAG 技術(shù)架構(gòu)

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

2.1 多模態(tài)混合檢索

ViDoRAG 的核心創(chuàng)新之一是多模態(tài)混合檢索策略。它結(jié)合了文本和視覺兩種檢索管道,通過高斯混合模型(Gaussian Mixture Model, GMM)動(dòng)態(tài)調(diào)整檢索結(jié)果分布。這種方法能夠?yàn)槊總€(gè)查詢找到最優(yōu)的檢索分布,從而減少不必要的計(jì)算,提升生成效率。

在傳統(tǒng)的檢索方法中,通常會(huì)使用一個(gè)固定的參數(shù) K 來檢索最相關(guān)的 K 個(gè)圖像或文本片段。然而,這種方法存在兩個(gè)問題:

? 一是 K 值過小可能導(dǎo)致檢索到的信息不足,無法準(zhǔn)確回答問題;

? 二是 K 值過大會(huì)引入噪聲,增加計(jì)算開銷。

ViDoRAG 通過 GMM 模型動(dòng)態(tài)調(diào)整 K 值,根據(jù)查詢與文檔集合的相似度分布,自動(dòng)確定最佳的 K 值。

GMM 模型將相似度分布分為兩個(gè)高斯分布,分別代表高相似度和低相似度的文檔。通過期望最大化(Expectation-Maximization, EM)算法,GMM 模型能夠估計(jì)每個(gè)模態(tài)的先驗(yàn)概率,從而動(dòng)態(tài)調(diào)整 K 值。

這種動(dòng)態(tài)調(diào)整策略不僅提高了檢索的準(zhǔn)確性,還顯著減少了計(jì)算開銷。實(shí)驗(yàn)表明,ViDoRAG 在檢索任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)的固定 K 值方法,尤其是在處理大規(guī)模文檔集合時(shí),能夠更高效地找到相關(guān)信息。

2.2 迭代推理代理

ViDoRAG 引入了三種智能體:搜索智能體(Seeker Agent)、審查智能體(Inspector Agent)和回答智能體(Answer Agent)。這種多智能體框架通過迭代推理的方式,逐步優(yōu)化答案的生成過程,減少了無關(guān)信息的干擾,提升了推理的魯棒性。

?搜索智能體(Seeker Agent):負(fù)責(zé)快速掃描文檔并選擇相關(guān)圖像。它根據(jù)查詢和審查代理的反饋,逐步縮小檢索范圍,確保每次迭代都能找到更相關(guān)的信息。

?審查智能體(Inspector Agent):則對(duì)搜索代理選擇的圖像進(jìn)行詳細(xì)審查,并提供初步答案或反饋。如果當(dāng)前信息不足以回答問題,審查代理會(huì)指導(dǎo)搜索代理進(jìn)一步檢索相關(guān)圖像。

?回答智能體(Answer Agent):負(fù)責(zé)整合審查代理的初步答案,并生成最終的答案。

這種迭代推理的框架不僅提高了答案的準(zhǔn)確性,還增強(qiáng)了模型在處理復(fù)雜查詢時(shí)的魯棒性。實(shí)驗(yàn)表明,ViDoRAG 在復(fù)雜推理任務(wù)中的表現(xiàn)顯著優(yōu)于傳統(tǒng)的單步推理方法。

2.3 開源資源

ViDoRAG 的代碼和數(shù)據(jù)集已在 GitHub 上開源,地址為:https://github.com/Alibaba-NLP/ViDoRAG。

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

下圖為數(shù)據(jù)集構(gòu)建流程:

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

三、ViDoRAG 的應(yīng)用與效果評(píng)估

3.1 性能提升

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

在閉源和開源模型上進(jìn)行了對(duì)比,包括 GPT-4o、Qwen2.5-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Llama3.2-Vision-90B-Instruct。

? 閉源模型表現(xiàn)優(yōu)于開源模型。

? Qwen2.5-VL-7B 在 ViDoRAG 中展示了出色的指令跟隨和推理能力。

? Llama3.2-VL 需要 90B 參數(shù)才能完成相同的指令,可能與模型的預(yù)訓(xùn)練領(lǐng)域有關(guān)。

3.2 檢索效率

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

注:

Recall@K 表示在前 K 個(gè)檢索結(jié)果中,系統(tǒng)成功檢索到正確答案的比例。

MRR@K 是衡量系統(tǒng)檢索到正確答案的平均排名的倒數(shù)。

上圖各種檢索器的詳細(xì)性能,包括基于 OCR 和基于視覺的檢索器。由于動(dòng)態(tài)檢索在查詢之間存在不確定性,使用結(jié)果的平均長(zhǎng)度進(jìn)行分析。

動(dòng)態(tài)檢索可以在較短的上下文長(zhǎng)度下實(shí)現(xiàn)更好的召回性能,而混合檢索結(jié)合了兩個(gè)管道的結(jié)果,達(dá)到了最先進(jìn)的性能。

3.3 消融實(shí)驗(yàn)

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

上表展示了不同檢索器和生成方法對(duì)性能的影響。將動(dòng)態(tài)檢索分解為兩個(gè)部分:動(dòng)態(tài)和混合。Naive 方法指直接輸入,作為基線使用。

? 動(dòng)態(tài)方法指僅基于視覺管道使用 GMM 擬合最佳召回分布。

? 混合方法指直接合并視覺和文本檢索結(jié)果,由于上下文較長(zhǎng),導(dǎo)致次優(yōu)結(jié)果。

上述結(jié)果表明:ViDoRAG在檢索和生成模塊上的改進(jìn)及其組合能夠從多個(gè)角度全面提升端到端性能。

3.4 時(shí)間效率

3.4.1 動(dòng)態(tài)檢索如何平衡延遲與準(zhǔn)確性?

在傳統(tǒng)的 RAG 系統(tǒng)中,使用較小的 top-K 值可能導(dǎo)致遺漏關(guān)鍵信息,而使用較大的值則會(huì)引入噪聲并增加計(jì)算開銷。

ViDoRAG 根據(jù)查詢與語料庫(kù)之間的相似度分布動(dòng)態(tài)確定要檢索的文檔數(shù)量,確保僅檢索最相關(guān)的文檔,從而減少不必要的計(jì)算并加速生成過程。

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

如上表,比較了使用和不使用 GMM 的檢索方法。實(shí)驗(yàn)表明,GMM 可能會(huì)由于分布偏差而降低召回率,但由于顯著縮短了生成上下文,因此在端到端評(píng)估中有效提升了性能。 

3.4.2 多代理生成的延遲分析

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

由于多智能體系統(tǒng)的迭代性質(zhì),延遲有所增加,如上圖所示。每個(gè)智能體按順序執(zhí)行特定任務(wù),與傳統(tǒng)直接 RAG 相比增加了少量開銷。然而,盡管延遲增加,生成答案的質(zhì)量提高使得在復(fù)雜 RAG 任務(wù)中這種權(quán)衡非常有益

3.5 生成的多模態(tài)與策略

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

如上圖所示,基于視覺的Pipeline 在所有類型的查詢中均優(yōu)于基于文本的 Pipeline。

由于模型的固有特性,LLM 的推理能力比 VLM 更強(qiáng)。然而,缺乏視覺信息使得模型難以識(shí)別信息之間的內(nèi)在聯(lián)系。這也對(duì)基于視覺豐富文檔的生成提出了挑戰(zhàn)。在獲取視覺信息的同時(shí),ViDoRAG 進(jìn)一步增強(qiáng)了 VLM 的推理能力,在準(zhǔn)確性和計(jì)算負(fù)載之間取得了平衡。

3.6 測(cè)試時(shí)擴(kuò)展的性能

ViDoRAG:提升視覺RAG性能10%-AI.x社區(qū)圖片

上圖展示了 ViDoRAG 中 Seeker 和 Inspector 之間的交互輪次。

性能較強(qiáng)的模型需要較少的推理迭代,而較弱的模型通常需要更多時(shí)間來處理并得出結(jié)論。

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:HuggingAGI


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦