mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗
(a1)mR2AG帶檢索:這個(gè)過(guò)程包括:a)檢索反思,用于確定是否需要檢索;b)相關(guān)性反思,用于識(shí)別證據(jù)段落;c)對(duì)多個(gè)候選答案進(jìn)行后處理。(a2)mR2AG不帶檢索:當(dāng)不需要檢索時(shí)的生成過(guò)程。(b)無(wú)反思的樸素mRAG:一種沒(méi)有反思的基線方法。
在基于知識(shí)的視覺(jué)問(wèn)答(Knowledge-based VQA)任務(wù)中,輸入通常是一對(duì)圖像和問(wèn)題 ,并且依賴于可訪問(wèn)的知識(shí)庫(kù)。文章提出的框架通過(guò)兩個(gè)新穎的反思操作來(lái)解耦生成過(guò)程,從而提高答案的質(zhì)量。將生成過(guò)程分為三個(gè)步驟:執(zhí)行檢索反思(Retrieval-Reflection)以確定是否需要檢索,執(zhí)行相關(guān)性反思(Relevance-Reflection)以識(shí)別證據(jù)段落并生成答案,以及后處理多個(gè)候選答案。
方法
檢索反思
用戶查詢可以根據(jù)輸入(I,Q)分為依賴視覺(jué)的和基于知識(shí)的。為了指導(dǎo)模型區(qū)分不同類型的查詢,定義了兩個(gè)特殊標(biāo)記:[Retrieval] 和 [No Retrieval],用于執(zhí)行檢索反思。具體步驟如下:
相關(guān)性反思
答案后處理
在一個(gè)文章中可能存在多個(gè)證據(jù)段落,導(dǎo)致生成多個(gè)候選答案。因此,后處理是必要的,以便得出一個(gè)最終的答案。
層級(jí)后處理:使用層級(jí)后處理來(lái)通過(guò)整合三個(gè)級(jí)別的分?jǐn)?shù)對(duì)候選答案進(jìn)行排序:
最后,三個(gè)級(jí)別的分?jǐn)?shù)綜合考慮了答案生成過(guò)程中的每一個(gè)步驟,分別在條目、段落和答案級(jí)別評(píng)估候選答案的可靠性。通過(guò)計(jì)算這三個(gè)分?jǐn)?shù)的乘積來(lái)整合它們的效果,作為排序候選答案的最終標(biāo)準(zhǔn)。模型輸出基于此標(biāo)準(zhǔn)得分最高的答案。
實(shí)驗(yàn)
參考文獻(xiàn)
mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041
本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理 作者:余俊暉
