自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度

發(fā)布于 2024-3-28 09:34
瀏覽
0收藏

多模態(tài)技術是 AI 多樣化場景應用的重要基礎,多模態(tài)大模型(MLLM)展現(xiàn)出了優(yōu)秀的多模態(tài)信息理解和推理能力,正成為人工智能研究的前沿熱點。然而,與大語言模型一樣,多模態(tài)大模型也依然受到“幻覺”問題的困擾,即模型在回答中出現(xiàn)與圖片信息不符的內(nèi)容。經(jīng)過測試發(fā)現(xiàn),即便是 GPT-4V 也會在 45.9% 的圖片回答中出現(xiàn)明顯的“幻覺”。


大模型出現(xiàn)“幻覺”的癥結之一在于未經(jīng)人類對齊時發(fā)生的“過泛化”情況。例如,讓模型描述街景圖片時,無論畫面中是否有行人出現(xiàn),模型都會因為自身過度的泛化問題,輸出對行人的描述。這種現(xiàn)象在當前的多模態(tài)大模型中普遍存在,也使得多模態(tài)大模型的應用在可信度問題得到解決之前仍受限制。


因此,如何盡可能減少多模態(tài)大模型的“幻覺”,提高回答的準確性和可信度,是所有人工智能研究者都在奮力攻克的難題。


為緩解多模態(tài)大模型的幻覺問題,我們提出了全新的多模態(tài)大模型對齊框架 RLHF-V,從數(shù)據(jù)和算法層面入手顯著減少“幻覺”的出現(xiàn)。


目前,這一工作已被 CVPR 2024 接收。應用該方法訓練的開源模型 OmniLMM-12B 在多個幻覺指標上取得了接近 GPT-4V 的水平。


核心優(yōu)勢:

  • 首次提出采用人工修改的方法獲得細粒度多模態(tài)人工偏好數(shù)據(jù);
  • 擁有突出的數(shù)據(jù)效率:僅需 1.4k 人類反饋的細粒度數(shù)據(jù)單機 8×A100 訓練 1 小時即可使模型幻覺率降低 34.8%;
  • 具有優(yōu)秀模型可信度和通用性能:在保持模型輸出信息量的情況下,RLHF-V 在幻覺評測中超越現(xiàn)有的開源多模態(tài)大模型,甚至抵抗“過泛化”的效果超越 GPT-4V。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

論文地址:

??https://arxiv.org/abs/2312.00849??

項目主頁:

??https://rlhf-v.github.io??

DEMO:

??http://120.92.209.146:8081??


01 效果展示:RLHF-V方法有效減少“幻覺”問題

?

將使用 RLHF-V 方法訓練后的模型與 InstructBLIP、LLaVA-RLHF、GPT-4V 模型在相同視覺問答 (VQA,Visual Question Answering)任務下的表現(xiàn)進行比較,結果如下:


測試效果1:在短回復問題上,RLHF-V 模型能夠給出正確且簡練的回復。


CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ 在短回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。


可以看到,當用戶提問:“圖片中的男人正在干什么?”時,RLHF-V 模型正確地答出圖中的人在“豎大拇指”。InstructBLIP 也給出正確回答,即圖中的人在接電話。而 LLaVA-RLHF 的過長回答里包含多條事實錯誤,GPT-4V 的短回答里正確與錯誤信息參半出現(xiàn)。


測試效果2:在更容易產(chǎn)生“幻覺”的長回復問題上,RLHF-V 模型提供的回復可信度高,且包含充足有效信息。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ 在長回復問題上 RLHF-V 模型與其他模型效果對比,其中紅色部分為幻覺。


用戶提問“你覺得這張照片里發(fā)生了什么?”,RLHF-V 模型和 GPT-4V 都在盡可能通過圖片細節(jié)正確地描述場景,而 InstructBLIP 和 LLaVA-RLHF 的回答里則包含多處事實“幻覺”。


測試效果3:在減少多模態(tài)大模型因過泛化產(chǎn)生的 “幻覺”問題上,RLHF-V 的表現(xiàn)超過 GPT-4V。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ 長回復問題中,RLHF-V 與 GPT-4V 在“過泛化”現(xiàn)象上的對比,其中紅色部分為幻覺,深紅色部分為“過泛化”導致的場景相關的幻覺。


當用戶提出“對給定圖片進行詳細描述”時,GPT-4V 的回答產(chǎn)生了與圖片中廚房場景高度相關的過泛化“幻覺”答案,如 “排風扇”、“盤子架” 等,而 RLHF-V 則沒有出現(xiàn)場景相關的物體幻覺。

02 關鍵創(chuàng)新:細粒度偏好標注與稠密對齊方法

RLHF-V 包含兩項創(chuàng)新方法:數(shù)據(jù)層面,應用基于人工修改的細粒度偏好對齊數(shù)據(jù);算法層面,采用稠密監(jiān)督信號的 DDPO 算法。

基于修改的細粒度偏好對齊數(shù)據(jù)

在數(shù)據(jù)標注時,通過人工修改多模態(tài)大模型輸出回復的方式,得到細粒度的人類偏好對齊數(shù)據(jù)。這種標注方式相比傳統(tǒng)基于排序的數(shù)據(jù)收集方式具有三點顯著優(yōu)勢:


第一,回答更準確:基于排序的偏好數(shù)據(jù)在訓練正例中仍然可能包含幻覺,例如下圖中對時鐘具體時間的識別,包括 GPT-4V 在內(nèi)的模型都頻繁出現(xiàn)錯誤,而人工修改的答案能夠保證訓練正例準確無誤,極大提高多模態(tài)偏好數(shù)據(jù)的質(zhì)量。


第二,無歧義的回答偏好判斷:關于豐富圖像內(nèi)容的優(yōu)質(zhì)回答一般長而復雜,標注人員對這些回答進行優(yōu)劣排序的過程是困難的,但如果使用 RLHF-V 提出的人工修改方法,只需找出并修改回答中的錯誤語句,因優(yōu)劣排序而帶來的標注歧義問題就會迎刃而解。


第三,提供細粒度監(jiān)督信號:由于 RLHF-V 同時也提供了細化到短語級別的人類偏好數(shù)據(jù),所以能夠更加精準地鼓勵或懲罰模型表現(xiàn),對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ 細粒度偏好對齊數(shù)據(jù)標注過程示意圖


目前,我們利用這一方法在 LLaVA、InstructBLIP、Qwen-VL-Chat 等 5 個模型輸出上標注了總計 5.7K 高質(zhì)量偏好對齊數(shù)據(jù),該數(shù)據(jù)已經(jīng)開源至 Hugging Face。

稠密監(jiān)督信號的 DDPO 算法

模型“幻覺”的產(chǎn)生很大程度源于人類 “正/負反饋” 的缺失,從而使模型表現(xiàn)偏離人類偏好。在算法層面,緩解模型“幻覺”可以從采用偏好對齊算法入手。目前應用最廣的人類偏好對齊算法有兩種:近端策略優(yōu)化(PPO,Proximal Policy Optimization)和直接偏好優(yōu)化(DPO,Direct Preference Optimization)。


雖然新提出的 DPO 有資源消耗更低、訓練更穩(wěn)定的優(yōu)勢,但作為一個回復級別的算法,DPO 無法直接鼓勵或懲罰回復中的細粒度行為?;诖?,研究團隊提出了 DPO 的“強化版”——DDPO(Dense-DPO)算法,即提高修改片段的優(yōu)化權重,讓模型著重學習人工修改過的語句部分,以更加充分地利用標注數(shù)據(jù)中的細粒度信息對齊人類偏好。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ 稠密監(jiān)督 DDPO 算法示意圖


03 實驗驗證和結果

?

首先,RLHF-V 在長回復與短回復任務上模型幻覺均顯著下降,且通用性能不受損失。


為了對模型進行幻覺評測,研究團隊測試了模型在長回答指令和短回答指令下的幻覺比例情況,前者需要詳細描述圖片內(nèi)容,后者只需簡短回答圖片相關問題。與此同時,為了評估模型的通用性能,研究團隊還分別測試了模型在開放對話(LLaVA Bench)與圖片問答(VQAv2)上的性能表現(xiàn)。


實驗結果表明:RLHF-V 在幻覺評測指標上超越了已有的開源多模態(tài)大模型,且能夠在顯著減小幻覺的情況下,保持模型優(yōu)秀的通用性能

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ RLHF-V 與其他開源模型及 GPT-4V 在幻覺比例和通用性能上的對比


第二,RLHF-V 解決“過泛化” 問題的表現(xiàn)優(yōu)于 GPT-4V。


為了評測模型在“過泛化”問題上的表現(xiàn),作者選擇了多模態(tài)指令數(shù)據(jù)中的 4 個典型場景,以及最常出現(xiàn)在每個場景中的 10 個常見物體類別(COCO 物體類別),統(tǒng)計這些物體在所有條目中的幻覺率,以及在對應場景下的幻覺率。


實驗結果表明,包括 GPT-4V 在內(nèi)的現(xiàn)有 MLLM,均有明顯“過泛化”傾向,而 RLHF-V 模型“過泛化”傾向最低

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ RLHF-V 與其他開源模型及 GPT-4V 在“過泛化”問題上的效果對比


第三,細粒度對齊數(shù)據(jù)在訓練中具有高效性以及規(guī)模效應。


數(shù)據(jù)集規(guī)模對模型性能的影響也是非常重要的評測方向。從實驗結果來看,相比基于排序的偏好數(shù)據(jù),采用細粒度修改標注能夠在 1/10 的數(shù)據(jù)規(guī)模下達到相近的模型效果。同時,隨著數(shù)據(jù)量增加,模型幻覺率顯著降低。

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

▲ RLHF-V 數(shù)據(jù)的規(guī)模效應曲線

04 方法應用

?

實際上,將 RLHF-V 數(shù)據(jù)和方法用于調(diào)整 LLaVA 等其他多模態(tài)大模型,也可以有效降低模型“幻覺”的出現(xiàn)次數(shù),提高模型回答可信度。近期研究團隊應用 RLHF-V 方法訓練的開源模型 OmniLMM-12B 在多模態(tài)綜合能力上達到開源模型頂尖水平,并且在多模態(tài)幻覺評測指標中顯著超越其他開源模型效果

CVPR 2024 | 通過細粒度人類反饋對齊數(shù)據(jù),提高多模態(tài)大模型可信度-AI.x社區(qū)

在未來,研究團隊也將繼續(xù)在多模態(tài)大模型算法及數(shù)據(jù)領域進行研究,助力開源多模態(tài)大模型向成熟應用的轉(zhuǎn)變。


作者團隊簡介


清華大學計算機系自然語言處理與社會人文計算實驗室(THUNLP)是國內(nèi)最早開展大模型研究、最具影響力的科研單位之一。


THUNLP 多模態(tài)大模型方向深度探索通用多模態(tài)大模型的技術體系,研究內(nèi)容包括通用多模態(tài)基礎大模型構建、多模態(tài)大模型對齊、多模態(tài)大模型評測等。研究團隊已在多模態(tài)大模型研究方面取得多項前沿成果,相關成果發(fā)表在國際人工智能頂級會議上。其中基于跨語言跨模態(tài)泛化技術構建的中英雙語多模態(tài)大模型 VisCPM 被 ICLR 2024 收錄為 Spotlight 論文;多模態(tài)大模型對齊算法 RLHF-V 被 CVPR 2024 收錄;端側大模型 MiniCPM-V 發(fā)布一個月內(nèi)在開源平臺下載量超 3 萬次。


如果你熱衷于探索大模型技術前沿,對多模態(tài)大模型研究充滿熱情,歡迎加入我們!無論期望在公司實習,還是在實驗室作為訪問學者,我們都會為你提供理想的工作環(huán)境和成長空間。


論文地址:https://arxiv.org/abs/2312.00849

項目主頁:https://rlhf-v.github.io

DEMO:??http://120.92.209.146:8081?


本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的

原文鏈接:??https://mp.weixin.qq.com/s/3iHewRj_IIgor_SIedbWjA??

標簽
收藏
回復
舉報
回復
相關推薦