可信度超越GPT-4V,清華&面壁揭秘「小鋼炮」模型背后的高效對齊技術(shù)
近期,由清華大學(xué)自然語言處理實驗室聯(lián)合面壁智能推出的全新開源多模態(tài)大模型 MiniCPM-Llama3-V 2.5 引起了廣泛關(guān)注,在發(fā)布后火速登頂 Hugging Face、GitHub、Papers With Code 的 Trending 榜首,與 Meta、微軟、谷歌等科技巨頭共同從全球 66 萬模型中脫穎而出。與此同時,該模型使用的多模態(tài)對齊數(shù)據(jù)集也登上了 Hugging Face Trending 第二位。
僅有 8B 體量的 MiniCPM-Llama3-V 2.5 不僅在多模態(tài)綜合性能上超越了商用閉源的 GPT-4V、Gemini Pro、Claude3,同時在模型可信度方面也達(dá)到了開源模型中的最高水平。其出色的性能離不開背后的一項關(guān)鍵性技術(shù) ——RLAIF-V。這項技術(shù)基于完全開源的范式進(jìn)行多模態(tài)大模型的對齊,實現(xiàn)了超越 GPT-4V 的可信度。
- 論文:RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
- 論文地址: https://arxiv.org/abs/2405.17220
- 項目地址:https://github.com/RLHF-V/RLAIF-V
- DEMO:https://huggingface.co/spaces/openbmb/RLAIF-V-12B
RLAIF-V 核心特點
從亦步亦趨邁向切磋琢磨,通過開源反饋實現(xiàn)超越 GPT-4V 的可信度。
已有的多模態(tài)大模型對齊方案主要采用蒸餾 GPT-4V 等昂貴的閉源模型的方式,實際上提供了一種模仿的方法(“亦步亦趨”)。隨著開源社區(qū)的不斷發(fā)展,我們急需一種能夠讓開源模型利用能力相仿或者相同的模型提供反饋,進(jìn)行自動對齊的方案(“切磋琢磨”)。RLAIF-V 通過無偏候選構(gòu)造和分而治之的反饋收集策略,可以從 OmniLMM 12B 等常規(guī)開源模型收集大規(guī)模的高質(zhì)量反饋數(shù)據(jù)。通過充分利用這些數(shù)據(jù),RLAIF-V 12B 模型在生成任務(wù)和判別任務(wù)中都實現(xiàn)了超越 GPT-4V 的可信度。
RLAIF-V 學(xué)習(xí)范式與模型可信度對比
具備優(yōu)秀泛用性的大規(guī)模高質(zhì)量反饋數(shù)據(jù)。
研究團(tuán)隊將訓(xùn)練 RLAIF-V 7B 和 RLAIF-V 12B 過程中所構(gòu)造的高質(zhì)量對齊數(shù)據(jù)整理為規(guī)模超過 83k 的多任務(wù)多模態(tài)對齊數(shù)據(jù)集 RLAIF-V Dataset,包括圖片詳細(xì)描述、圖片知識問答、文字識別等多類指令,圖片種類覆蓋照片、藝術(shù)作品、名人、地標(biāo)、場景文字等。實驗表明,該數(shù)據(jù)集可有效減少 LLaVA 1.5, MiniCPM-V 等不同多模態(tài)大模型在多種任務(wù)中的幻覺,展現(xiàn)出了優(yōu)秀的泛用性。
RLAIF-V 數(shù)據(jù)泛用性
迭代對齊的高效反饋學(xué)習(xí)。
在現(xiàn)有的模型訓(xùn)練中,采用的偏好數(shù)據(jù)是靜態(tài)的,但隨著訓(xùn)練的進(jìn)行,模型的輸出分布卻在不斷變化,這導(dǎo)致訓(xùn)練數(shù)據(jù)分布與模型真實分布產(chǎn)生偏移,從而無法充分利用偏好數(shù)據(jù),影響模型的對齊效率。RLAIF-V 采用了迭代的方式進(jìn)行對齊訓(xùn)練,相較于非迭代方法表現(xiàn)出了更高的學(xué)習(xí)效率和更好的性能,具有更優(yōu)秀的規(guī)模效應(yīng)。
迭代與非迭代式訓(xùn)練的效果對比
更可靠全面的多模態(tài)評測集 RefoMB。
隨著模型能力的發(fā)展,已有的評測集或存在評測飽和的情況,或評測準(zhǔn)確性不足,從而難以正確區(qū)分不同可信度的模型。為此,RLAIF-V 提出了新的 RefoMB 評測集,其指令覆蓋了多模態(tài)模型感知和推理任務(wù)中的 8 個子能力,并包含了卡通圖片、富文字圖片、照片等多樣化的圖片類型,用于評估現(xiàn)有多模態(tài)模型在開放生成時的回復(fù)可信度和通用性能。通過人工標(biāo)注圖片詳細(xì)描述作為評判參考,RefoMB 有效提高了評測準(zhǔn)確性,人工一致性可以達(dá)到 96%。
RefoMB 指令類型分布
RLAIF-V 框架
RLAIF-V 包含兩項創(chuàng)新方法:數(shù)據(jù)層面,提出完全基于開源模型的高質(zhì)量反饋數(shù)據(jù)構(gòu)造方法;算法層面,采用迭代對齊算法進(jìn)行模型優(yōu)化。
RLAIF-V 框架
大規(guī)模高質(zhì)量開源模型反饋數(shù)據(jù)的構(gòu)造
為了減小反饋對齊數(shù)據(jù)的獲取成本,實現(xiàn)規(guī)模化的反饋對齊數(shù)據(jù)獲取,并提高開源多模態(tài)大模型提供反饋的質(zhì)量,研究團(tuán)隊結(jié)合分而治之的思想,提出了如下數(shù)據(jù)構(gòu)造流程以實現(xiàn)高質(zhì)量開源模型反饋的獲?。?/span>
- 無偏候選回復(fù)生成(deconfounded candidate response generation):使用隨機(jī)解碼方法生成多個候選響應(yīng)。在這種生成方式下,不同回復(fù)來自一個相同的分布,有效消除了樣本對之間的文本風(fēng)格差異等混淆因素,使訓(xùn)練過程專注于內(nèi)容的可信度,從而提高數(shù)據(jù)效率。
- 分而治之(divide-and-conquer):將復(fù)雜的響應(yīng)分解為更簡單、可以單獨評估的子問題。這種簡化使開源多模態(tài)大模型可以提供更可靠的反饋。
應(yīng)用這種數(shù)據(jù)構(gòu)造方法,我們不僅可以利用具有更高模型性能的開源多模態(tài)大模型為性能較弱的模型提供反饋,還能夠通過模型自身反饋的方式,使 OmniLMM 12B 模型實現(xiàn)超越 GPT-4V 的可信度。
迭代對齊算法
為了緩解現(xiàn)有對齊算法存在的分布偏移問題,一個直接的思路是在每步優(yōu)化時更新反饋數(shù)據(jù)。但是,這種在線反饋的方式開銷大、訓(xùn)練不穩(wěn)定。因此,研究團(tuán)隊采用了一種迭代對齊算法,在每輪迭代中更新反饋數(shù)據(jù),提升數(shù)據(jù)與模型分布的一致性。具體而言,在每一輪迭代時,利用上一輪訓(xùn)練得到的模型權(quán)重生成新的反饋數(shù)據(jù),并使用新數(shù)據(jù)進(jìn)行訓(xùn)練。
迭代對齊算法
RefoMB 評測集
在開放問答下的多模態(tài)幻覺評測中,有兩類常見評測方式。一類是利用圖片標(biāo)注的常見物體類型,對模型回復(fù)中的存在性幻覺進(jìn)行評測的方式,例如基于 MSCOCO 標(biāo)注信息的 CHAIR 評測。另一類則利用 GPT-4 模型作為裁判,根據(jù)參考信息對模型回復(fù)的可信度進(jìn)行打分,如 MMHal Bench 評測。
然而,隨著模型能力的增強(qiáng),僅考慮物體存在性幻覺的評測指標(biāo)接近飽和,難以區(qū)分更加先進(jìn)的模型之間的可信度差異;而采用 GPT-4 打分的形式構(gòu)造的評測集則因為提供的圖片參考信息缺乏全面性,影響了可信度判斷的準(zhǔn)確性。
針對這兩個問題,我們需要一個更加準(zhǔn)確、且能夠評估更加全面的幻覺類型的評測集,以真實反映目前多模態(tài)模型的可信度情況。為此,研究團(tuán)隊采用了如下方法:
- 人工標(biāo)注詳盡圖片描述:通過提供人工標(biāo)注的詳盡圖片描述,GPT-4 模型能夠更好地掌握圖片的完整信息,從而提供更準(zhǔn)確的判斷。
人工標(biāo)注詳盡圖片描述樣例
- 基于比較的評估:受語言大模型評測集 AlpacaEval 的啟發(fā),研究團(tuán)隊采用 GPT-4 模型對兩個多模態(tài)模型的回復(fù)優(yōu)劣進(jìn)行比較,并選擇其中更優(yōu)的回復(fù)。相比于直接對模型回復(fù)進(jìn)行打分,這種比較的形式可以產(chǎn)生更高的判斷準(zhǔn)確率。
評測結(jié)果樣例
通過以上改進(jìn),RefoMB 能夠在人工一致性上顯著優(yōu)于已有的開放問答幻覺評測集 MMHal Bench,達(dá)到 96% 的準(zhǔn)確率。
RefoMB 與 MMHal Bench 的評測人工一致性比較
實驗驗證和結(jié)果
1.RLAIF-V 在 LLaVA 1.5 和 OmniLMM 兩種多模態(tài)大模型上均產(chǎn)生了顯著的可信度提升。
為了評估模型的幻覺水平,研究團(tuán)隊測試了模型在開放生成任務(wù)和幻覺識別任務(wù)中的可信度表現(xiàn)。團(tuán)隊還通過 LLaVA Bench 評測集評估了模型在開放對話和推理方面的性能。此外,為了全面了解模型的通用能力,研究團(tuán)隊還在結(jié)合了 6 個常用多模態(tài)評測數(shù)據(jù)集的綜合評測集 MMStar 上進(jìn)行了測試。
實驗結(jié)果表明:相比于人類反饋和 GPT-4V 反饋,RLAIF-V 提出的開源模型反饋方法甚至實現(xiàn)了更好的效果。RLAIF-V 12B 模型更是在幻覺評測指標(biāo)上遠(yuǎn)超已有的開源多模態(tài)大模型甚至 GPT-4V,在通用能力方面也能維持優(yōu)秀的性能。
圖片
RLAIF-V 與其他開源模型及 GPT-4V 在可信度和通用能力上的對比
2. 采用 RLAIF-V 提出的分治反饋方法能夠有效提高開源多模態(tài)大模型的反饋質(zhì)量。
為了驗證 RLAIF-V 所提分治算法的有效性,研究團(tuán)隊分別對三種不同的反饋模型采用直接反饋與分治反饋的方式構(gòu)造了訓(xùn)練數(shù)據(jù),并評測訓(xùn)練后模型在開放生成任務(wù)和幻覺識別任務(wù)中的可信度表現(xiàn)。
實驗結(jié)果表明,在不同性能的反饋模型中,采用分治反饋方式訓(xùn)練得到的模型效果均顯著優(yōu)于直接反饋。
分治反饋算法與直接反饋相比的模型可信度對比
3.RLAIF-V 數(shù)據(jù)能夠與其他多模態(tài)反饋數(shù)據(jù)互補(bǔ),進(jìn)一步提升模型可信度。
目前已經(jīng)有一些工作構(gòu)造了基于人工標(biāo)注或啟發(fā)式規(guī)則的多模態(tài)反饋數(shù)據(jù),為了探究不同方法構(gòu)造數(shù)據(jù)之間的互補(bǔ)性,研究團(tuán)隊將不同類型的反饋數(shù)據(jù)進(jìn)行了合并訓(xùn)練,并觀察模型性能的變化。從實驗結(jié)果來看,應(yīng)用 RLAIF-V 數(shù)據(jù)能夠顯著提高模型可信度,而進(jìn)一步融合其他反饋數(shù)據(jù)時,模型可信度能夠進(jìn)一步提升。
同時使用 RLAIF-V 數(shù)據(jù)與其他多模態(tài)反饋數(shù)據(jù)的效果
效果展示
使用 RLAIF-V 方法訓(xùn)練 LLaVA 1.5 7B 模型以及 OmniLMM 12B 模型后,在開放生成問題下,RLAIF-V 模型與 GPT-4V 模型的表現(xiàn)如下:
測試效果 1:RLAIF-V 7B 模型能夠進(jìn)行正確的推理,并具有更優(yōu)的可信度。
RLAIF-V 7B 與 GPT-4V 效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。注:原始問題和回答均為英文,翻譯為中文方便閱讀
當(dāng)用戶提問 “分析圖中任務(wù)之間的關(guān)系” 時,RLAIF-V 7B 與 GPT-4V 均能夠根據(jù)圖中的信息判斷出同事關(guān)系,但 GPT-4V 錯誤地認(rèn)為講話者是站立的狀態(tài),產(chǎn)生了人物動作上的幻覺。
測試效果 2:RLAIF-V 12B 模型能夠在回復(fù)可信度上顯著優(yōu)于 GPT-4V。
RLAIF-V 12B 與 GPT-4V 效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。注:原始問題和回答均為英文,翻譯為中文方便閱讀
可以看到,當(dāng)用戶提問:“圖中可以看到的主要顏色是哪些” 時,RLAIF-V 12B 以及 GPT-4V 均能夠正確回答出問題。但 GPT-4V 的回答中對文字顏色和背景顏色的識別均產(chǎn)生了錯誤。
測試效果 3:在更多類型的圖片和指令上,例如代碼問答任務(wù)上,RLAIF-V 方法同樣能減少模型幻覺,產(chǎn)生更可信的回復(fù)。
RLAIF-V 12B 與 GPT-4V 效果對比,其中紅色部分為幻覺,綠色部分為正確的回答。注:原始問題和回答均為英文,翻譯為中文方便閱讀
當(dāng)要求模型解釋代碼輸出時,RLAIF-V 12B 與 GPT-4V 均能夠正確推理出代碼的運行結(jié)果,但 GPT-4V 錯誤地認(rèn)為圖片中缺少一個分號,因此代碼無法編譯成功。這表明 RLAIF-V 方法所構(gòu)造的偏好對齊數(shù)據(jù)能夠讓模型在諸如 OCR 等更廣泛的能力上的可信度同步提高。
總結(jié)
將模型輸出對齊人類偏好是構(gòu)建實用化人工智能的關(guān)鍵環(huán)節(jié)。RLAIF-V 方法通過分而治之與迭代式訓(xùn)練的方式實現(xiàn)了僅利用開源模型進(jìn)行可信度提升的對齊目標(biāo)。未來,研究團(tuán)隊也將進(jìn)一步探索邏輯推理、復(fù)雜任務(wù)等更廣泛能力上的對齊方法。