自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!

發(fā)布于 2024-4-2 12:17
瀏覽
0收藏

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

論文題目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

論文地址:

??https://arxiv.org/abs/2311.17911??

代碼地址:

??https://github.com/shikiw/OPERA??

01 背景

從 LLaVA 到 Qwen-VL,從 GPT-4V 到 Claude 3,幻覺(jué)(Hallucination)問(wèn)題一直是當(dāng)前多模態(tài)大模型(MLLM)的重要問(wèn)題。當(dāng)前大多數(shù)的多模態(tài)大模型對(duì)于用戶提供的圖像和提問(wèn),容易因?yàn)榛糜X(jué)給出非常離譜的回答,例如說(shuō)出圖像上根本不存在的事物,識(shí)別出與圖像上物體的顏色、數(shù)量和位置關(guān)系不符的特征。


而這一現(xiàn)象,在多模態(tài)大模型生成較長(zhǎng)回答時(shí)尤其常見(jiàn)。試想一下,如果將有嚴(yán)重幻覺(jué)問(wèn)題的多模態(tài)大模型部署在自動(dòng)駕駛上,在高速公路上前方無(wú)車(chē)的情況下,由于模型出現(xiàn)前方有車(chē)的幻覺(jué)而下令急剎車(chē),將會(huì)導(dǎo)致嚴(yán)重的交通追尾事故。


例如 LLaVA-1.5 的 7B 模型在描述圖中的食物時(shí),一開(kāi)始會(huì)表達(dá)得較為準(zhǔn)確,但隨著回答越來(lái)越長(zhǎng)會(huì)說(shuō)出許多“不存在”的事物:

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

對(duì)于多模態(tài)大模型中幻覺(jué)問(wèn)題的成因,研究者們至今仍未找到確切答案。為了解決這一問(wèn)題,近期提出了多種不同的方法。其中一些方法涉及構(gòu)建額外的訓(xùn)練數(shù)據(jù),并將其融入到訓(xùn)練過(guò)程中;而另一些方法則依賴于外部知識(shí)或強(qiáng)大的模型來(lái)進(jìn)行輔助。


然而,這些方法通常會(huì)帶來(lái)巨大的額外成本,并且許多方法并未對(duì)幻覺(jué)的機(jī)制與由來(lái)進(jìn)行深入分析。因此,人們不禁思考,多模態(tài)幻覺(jué)的成因究竟是什么?同時(shí),是否存在一種方法,可以在不需要額外知識(shí)和訓(xùn)練的情況下輕松解決多模態(tài)大模型的幻覺(jué)問(wèn)題呢?

02 分析

為此,中科大等單位的研究人員從可視化模型在推理時(shí)的 Self-Attention 權(quán)重出發(fā),希望尋找得到一些有趣的結(jié)論。他們首先觀察到,在模型生成幻覺(jué)內(nèi)容時(shí),最后一層的 Self-Attention 權(quán)重大概率會(huì)在幻覺(jué)部分之前呈現(xiàn)出明顯的“柱狀”特征,這導(dǎo)致幻覺(jué)部分的 Self-Attention 權(quán)重表現(xiàn)出一種“過(guò)度信賴”的趨勢(shì)。以多模態(tài)大模型 InstructBLIP 為例:

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

可以清晰地觀察到,在幻覺(jué)句子出現(xiàn)之前,存在一個(gè) token,其對(duì)后續(xù)所有 token 都具有較高的注意力權(quán)值。通常情況下,這種現(xiàn)象并不合乎常理,因?yàn)閺妮敵龅幕卮饋?lái)看,這個(gè)詞并不一定包含豐富的語(yǔ)義信息。那么問(wèn)題來(lái)了,這些自注意力圖上的“柱狀”特征究竟是什么呢?


研究者們分析認(rèn)為,這種現(xiàn)象可能是多模態(tài)大模型在生成較長(zhǎng)語(yǔ)句時(shí)展現(xiàn)的一種“自動(dòng)總結(jié)”本能。這些“柱狀”特征所對(duì)應(yīng)的 token 正是模型推理過(guò)程中的 summary token,這一觀察與同期在 EMNLP best paper 中 “anchor token” [1] 類(lèi)似,進(jìn)一步揭示了大模型內(nèi)部的運(yùn)作機(jī)制。


由于現(xiàn)有多模態(tài)大模型的基座取自大語(yǔ)言模型,其因果語(yǔ)言模型的特點(diǎn)使其在淺層時(shí)將前文 token 的信息聚合到 summary token,同時(shí)在深層時(shí)主要利用 summary token 中聚合的信息來(lái)預(yù)測(cè)整個(gè)序列的下一個(gè) token(見(jiàn)下圖圖 a)。


這一現(xiàn)象非常類(lèi)似于人類(lèi)在處理長(zhǎng)文本時(shí)也經(jīng)常使用的階段性總結(jié)的習(xí)慣,有助于更高效地處理大量信息。那么這樣的機(jī)制又是如何影響到多模態(tài)幻覺(jué)的產(chǎn)生的呢?

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)


研究者們先讓多模態(tài)大模型根據(jù)給定的圖作出較長(zhǎng)的回答,再根據(jù)各個(gè) summary token 出現(xiàn)的不同位置將模型的回答劃分為不同的子句,并且計(jì)算每個(gè)子句的 CHAIR 指標(biāo)來(lái)評(píng)估子句中出現(xiàn)幻覺(jué)內(nèi)容的程度。CHAIR 值越高代表幻覺(jué)程度越嚴(yán)重。


如上圖圖 b、c,隨著序列中 summary token 數(shù)量的增多,子句的幻覺(jué)程度也在逐漸提升。這說(shuō)明了在序列中出現(xiàn)越多 summary token 會(huì)越容易讓模型輸出幻覺(jué)內(nèi)容。


對(duì)此,研究者們給出了基于信息流的解釋:他們認(rèn)為在生成的文本序列越來(lái)越長(zhǎng)的同時(shí),通常位于序列前段的 vision tokens 所提供的視覺(jué)信息會(huì)在 summary token 之間信息流動(dòng)的過(guò)程中逐漸被稀釋(因?yàn)橐粋€(gè) summary token 很難將序列中所有前文 token 所包含的信息都完整地記錄)。


因此,越往后生成的 token 越容易忽視 vision tokens,并“過(guò)度信賴”某些 summary tokens,從而產(chǎn)生幻覺(jué)內(nèi)容。研究者們將這一現(xiàn)象描述為 “partial over-trust”,并發(fā)現(xiàn)大模型的這種階段性總結(jié)可能是導(dǎo)致幻覺(jué)問(wèn)題的一大“元兇”!同時(shí),研究者們進(jìn)行了數(shù)值統(tǒng)計(jì),在不同模型中都觀察到了這一現(xiàn)象與幻覺(jué)之間的相關(guān)性。

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

研究者們通過(guò)隨機(jī)采樣 100 張圖像,并向不同的多模態(tài)大模型提出問(wèn)題。他們發(fā)現(xiàn)在所有出現(xiàn)幻覺(jué)回答的情況下,有 80%~90% 的回答都呈現(xiàn)出了“過(guò)度信賴”現(xiàn)象,進(jìn)一步證實(shí)了這一現(xiàn)象與幻覺(jué)之間的伴生關(guān)系。

03 方法

為此,研究者們提出了一種名為 OPERA 的解碼方法,該方法基于注意力懲罰與回退策略,成功地在不借助外部知識(shí)并不引入額外訓(xùn)練的情況下緩解了多模態(tài)大模型的幻覺(jué)問(wèn)題。


研究者們希望通過(guò)改變解碼策略來(lái)緩解這種“過(guò)度信賴”現(xiàn)象的出現(xiàn),從而來(lái)減輕幻覺(jué)問(wèn)題。在經(jīng)典解碼方法 Beam Search 的基礎(chǔ)上,他們首先在解碼過(guò)程中對(duì)每個(gè) token 的輸出概率引入了一個(gè)額外的懲罰項(xiàng),來(lái)懲罰其出現(xiàn)“過(guò)度信賴”的注意力特征。


具體來(lái)說(shuō),他們首先在自注意力的權(quán)重圖上劃分出一個(gè)局部窗口,然后將這些權(quán)重在數(shù)值進(jìn)行放大,同時(shí)使用列乘法得到一個(gè)得分向量,最后選擇得分向量中的最大得分作為懲罰得分。這個(gè)懲罰得分越大說(shuō)明出現(xiàn)生成句子中存在“過(guò)度信賴”的特征越明顯,越可能出現(xiàn)幻覺(jué)。


最后,這個(gè)懲罰得分的作用會(huì)體現(xiàn)在每個(gè)序列的 Beam 得分上,得分較低的序列最后將被淘汰。

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)


由于這種“過(guò)度信賴”的特征具有“滯后性”,即只有在解碼的過(guò)程中輸出了若干 token 之后才能發(fā)現(xiàn)這樣的特征。為了解決這種滯后帶來(lái)的局限性,研究者們還提出了“回退-再分配”的策略。


具體來(lái)說(shuō),可以計(jì)算最近幾個(gè) token 的得分向量的最大值下標(biāo),并檢查該下標(biāo)連續(xù)出現(xiàn)的次數(shù)是否大于一定閾值。如果高于閾值,則將當(dāng)前序列的解碼過(guò)程回退到這一下標(biāo)所在 token 的位置,并重新選擇詞表中概率次高的詞(除了之前已經(jīng)選擇的詞之外)。

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)


結(jié)合所提出的“過(guò)度信賴”懲罰與“回退-再分配”策略,研究者們提出一個(gè)新的多模態(tài)大模型解碼方法 OPERA,極大地緩解了模型的尤其是在生成長(zhǎng)文的幻覺(jué)現(xiàn)象。

04 實(shí)驗(yàn)

研究者們?cè)?InstructBLIP,MiniGPT-4,LLaVA-1.5 以及 Shikra 等多種多模態(tài)大模型的 7B 模型上進(jìn)行了測(cè)試,在不同維度上進(jìn)行了統(tǒng)計(jì)驗(yàn)證。相比于之前的解碼方法,所提出的 OPERA 解碼方法在緩解幻覺(jué)上均表現(xiàn)出優(yōu)越的性能。

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

此外,研究者們還引入了 GPT-4 和 GPT-4V 進(jìn)行打分測(cè)試,在生成內(nèi)容的準(zhǔn)確程度與具體程度上,OPERA 同樣也表現(xiàn)出優(yōu)越的性能。

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)


同時(shí),研究者們還意外地發(fā)現(xiàn) OPERA 能夠幫助 LLaVA-1.5 等多模態(tài)模型成功在 MME、MMBench 等多模態(tài) benchmark 上漲點(diǎn)。例如,在 LLaVA-1.5 的 7B 模型上的結(jié)果如下:

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)


此外,研究者們還給出了 OPERA 的一些具體表現(xiàn)的實(shí)例:

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺(jué)原因找到了!-AI.x社區(qū)

總的來(lái)說(shuō),本文從一個(gè)獨(dú)特的視角解釋了現(xiàn)有多模態(tài)大模型幻覺(jué)產(chǎn)生的原因。作為一種通過(guò)改進(jìn)解碼策略來(lái)減輕多模態(tài)大模型幻覺(jué)的方法,OPERA 具有易于在不同模型和架構(gòu)上部署的特點(diǎn),同時(shí)也激發(fā)了更多研究者從機(jī)制層面研究和解決多模態(tài)大模型的幻覺(jué)問(wèn)題。

 

本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/qAYImdyACrhd4ipMNh39XA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦