自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗

發(fā)布于 2024-11-26 10:43
瀏覽
0收藏

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

(a1)mR2AG帶檢索:這個(gè)過(guò)程包括:a)檢索反思,用于確定是否需要檢索;b)相關(guān)性反思,用于識(shí)別證據(jù)段落;c)對(duì)多個(gè)候選答案進(jìn)行后處理。(a2)mR2AG不帶檢索:當(dāng)不需要檢索時(shí)的生成過(guò)程。(b)無(wú)反思的樸素mRAG:一種沒(méi)有反思的基線方法。

在基于知識(shí)的視覺(jué)問(wèn)答(Knowledge-based VQA)任務(wù)中,輸入通常是一對(duì)圖像和問(wèn)題 ,并且依賴于可訪問(wèn)的知識(shí)庫(kù)。文章提出的框架通過(guò)兩個(gè)新穎的反思操作來(lái)解耦生成過(guò)程,從而提高答案的質(zhì)量。將生成過(guò)程分為三個(gè)步驟:執(zhí)行檢索反思(Retrieval-Reflection)以確定是否需要檢索,執(zhí)行相關(guān)性反思(Relevance-Reflection)以識(shí)別證據(jù)段落并生成答案,以及后處理多個(gè)候選答案。

方法

檢索反思

用戶查詢可以根據(jù)輸入(I,Q)分為依賴視覺(jué)的和基于知識(shí)的。為了指導(dǎo)模型區(qū)分不同類型的查詢,定義了兩個(gè)特殊標(biāo)記:[Retrieval] 和 [No Retrieval],用于執(zhí)行檢索反思。具體步驟如下:

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

相關(guān)性反思

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

答案后處理

在一個(gè)文章中可能存在多個(gè)證據(jù)段落,導(dǎo)致生成多個(gè)候選答案。因此,后處理是必要的,以便得出一個(gè)最終的答案。

層級(jí)后處理:使用層級(jí)后處理來(lái)通過(guò)整合三個(gè)級(jí)別的分?jǐn)?shù)對(duì)候選答案進(jìn)行排序:

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

最后,三個(gè)級(jí)別的分?jǐn)?shù)綜合考慮了答案生成過(guò)程中的每一個(gè)步驟,分別在條目、段落和答案級(jí)別評(píng)估候選答案的可靠性。通過(guò)計(jì)算這三個(gè)分?jǐn)?shù)的乘積來(lái)整合它們的效果,作為排序候選答案的最終標(biāo)準(zhǔn)。模型輸出基于此標(biāo)準(zhǔn)得分最高的答案。

實(shí)驗(yàn)

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

mR^2AG:基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗-AI.x社區(qū)

參考文獻(xiàn)

mR2AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA,https://arxiv.org/pdf/2411.15041



本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/TV8MV0mXdO1TWoq5uqlNkg??

標(biāo)簽
已于2024-11-28 18:50:31修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦