自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺

發(fā)布于 2024-8-22 09:59
瀏覽
0收藏

隨著Gemini、GPT-4o等模型的出現(xiàn),具備看、聽、說的多模態(tài)大模型成為了新的主流。由于訓(xùn)練數(shù)據(jù)復(fù)雜、模型架構(gòu)過于復(fù)雜,在生成、識別內(nèi)容時(shí)很容易出現(xiàn)錯(cuò)誤描述也稱為“幻覺”,例如,當(dāng)看到一張包含刀、叉和勺子的餐具圖片時(shí),模型會錯(cuò)誤地描述為牙簽。


為了解決這個(gè)難題,谷歌DeepMind、谷歌云AI研究、向量研究所和皇后大學(xué)的研究人員通過數(shù)據(jù)增強(qiáng)和對比調(diào)優(yōu)的方法開發(fā)了HALVA模型。

論文地址:https://arxiv.org/abs/2405.18654

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

HALVA的核心思想是通過對比學(xué)習(xí),來提高模型對真實(shí)和幻覺對象的區(qū)分能力。這種方法利用正確的對象描述和對應(yīng)的幻覺描述來訓(xùn)練多模態(tài)模型,引導(dǎo)模型識別和生成與輸入圖像更加一致的描述。

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

首先,HALVA接收來自生成數(shù)據(jù)增強(qiáng)模塊的輸出,這些輸出包括正確描述和幻覺化描述的對。這些成對的數(shù)據(jù)點(diǎn)是通過對原始圖像進(jìn)行智能的數(shù)據(jù)增強(qiáng)生成的,其中包括替換圖像中的對象集合,引入了不存在的共現(xiàn)概念。例如,一個(gè)原本包含水果籃的圖像可能會被增強(qiáng)為包含一個(gè)虛構(gòu)的魔法球。


然后,HALVA將視覺-語言輸入對送入預(yù)訓(xùn)練的多模態(tài)模型中。這些輸入包括圖像特征和相關(guān)的語言描述。多模態(tài)模型會對每個(gè)輸入計(jì)算輸出序列的概率分布,生成兩組概率:一組對應(yīng)于正確的描述,另一組對應(yīng)幻覺錯(cuò)誤的描述。


HALVA定義了一個(gè)對比損失函數(shù),該函數(shù)基于正確描述和幻覺化描述的相對概率。損失函數(shù)的目標(biāo)是最大化正確描述的概率,同時(shí)最小化幻覺化描述的概率。通過反向傳播和梯度下降,模塊優(yōu)化損失函數(shù),調(diào)整模型參數(shù)以減少幻覺描述的生成。

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

為了保證模型在調(diào)整過程中不會偏離其原始的預(yù)訓(xùn)練狀態(tài),對比調(diào)整模塊引入了KL散度作為正則化項(xiàng)。這一步驟確保了模型在減輕幻覺化問題的同時(shí),保持了其在一般視覺-語言任務(wù)上的性能。


在整個(gè)對比調(diào)整過程是端到端的,從輸入的視覺-語言對到輸出的損失函數(shù),整個(gè)過程是連貫的,允許模型在訓(xùn)練過程中學(xué)習(xí)如何更好地區(qū)分真實(shí)和幻覺對象。

訓(xùn)練數(shù)據(jù)方面,HALVA是基于VG提供了豐富的視覺信息和語言描述,包含108K張圖像及其詳細(xì)注釋的對象中心圖像數(shù)據(jù)集。正確數(shù)據(jù)描述是Gemini Vision Pro通過 VG 數(shù)據(jù)集生成。

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

幻覺描述則比較麻煩一些,通過VG的封閉和開放兩個(gè)數(shù)據(jù)集,封閉集是基于 VG 數(shù)據(jù)集中對象的已知共現(xiàn)關(guān)系來生成的,而開放集則是通過直接提示大語言模型來生成與原始對象共現(xiàn)的新對象。在生成了正確描述和幻覺描述的樣本對之后,用于訓(xùn)練HALVA模型。


研究人員在CHAIR、MME - Hall、AMBER和 MMHal – Bench等平臺中對HALVA進(jìn)行了綜合評估。結(jié)果顯示,HALVA在減少模型幻覺方面非常出色,同時(shí)在一般視覺-語言任務(wù)上也表現(xiàn)出了良好的性能。

谷歌通過數(shù)據(jù)增強(qiáng)、對比調(diào)優(yōu),減少多模態(tài)模型幻覺-AI.x社區(qū)

例如,在AMBER數(shù)據(jù)集上,HALVA在幻覺率指標(biāo)上明顯優(yōu)于基礎(chǔ)模型LLaVA-v1.5;在MMHal – Bench測試中,HALVA比基于RLHF、SFT 或 DPO的方法更有效地緩解了模型的幻覺問題。


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/TBNE6zFm8Zkx6GqSjcFD1A??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦