自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型對(duì)齊新范式,10個(gè)評(píng)估維度全面提升,快手&中科院&南大打破瓶頸

人工智能 新聞
本研究提出了MM-RLHF,一個(gè)高質(zhì)量、細(xì)粒度的數(shù)據(jù)集,專門用于推動(dòng)多模態(tài)大語(yǔ)言模型(MLLMs)的對(duì)齊工作。

盡管多模態(tài)大語(yǔ)言模型(MLLMs)取得了顯著的進(jìn)展,但現(xiàn)有的先進(jìn)模型仍然缺乏與人類偏好的充分對(duì)齊。這一差距的存在主要是因?yàn)楝F(xiàn)有的對(duì)齊研究多集中于某些特定領(lǐng)域(例如減少幻覺問題),是否與人類偏好對(duì)齊可以全面提升MLLM的各種能力仍是一個(gè)未知數(shù)。

快手,中科院,南大合作從三個(gè)層面入手推動(dòng)MLLM alignment的發(fā)展,包括數(shù)據(jù)集,獎(jiǎng)勵(lì)模型以及訓(xùn)練算法,最終的alignment pipeline使得不同基礎(chǔ)模型在10個(gè)評(píng)估維度,27個(gè)benchmark上都取得了一致的性能增益,比較突出的是,基于本文提出的數(shù)據(jù)集和對(duì)齊算法對(duì)LLaVA-ov-7B模型進(jìn)行微調(diào)后, conversational能力平均提升了19.5%,安全性平均提升了60%。

偏好數(shù)據(jù),訓(xùn)練算法,模型以及評(píng)估pipeline均已全面開源。

該方法在twitter上也引起了熱議,被評(píng)為多模態(tài)alignment的game-changers。

主要貢獻(xiàn):

  1. 新數(shù)據(jù)集:本文引入了一個(gè)包含120k精細(xì)標(biāo)注的偏好比較對(duì)的數(shù)據(jù)集,包含三個(gè)維度的打分,排序,文本描述的具體原因以及平局等標(biāo)注,所有標(biāo)注由人類專家完成,一共50名標(biāo)注人員,8名專家,耗時(shí)兩個(gè)月。與現(xiàn)有資源相比,這一數(shù)據(jù)集在規(guī)模、樣本多樣性、標(biāo)注粒度和質(zhì)量等方面都有顯著提升。
  2. 創(chuàng)新的獎(jiǎng)勵(lì)模型:提出了基于批評(píng)的獎(jiǎng)勵(lì)模型(Critique-Based Reward Model),該模型首先對(duì)模型輸出進(jìn)行批評(píng),然后再進(jìn)行評(píng)分。這一方法相比傳統(tǒng)的標(biāo)量獎(jiǎng)勵(lì)機(jī)制,提供了更好的可解釋性和更有信息量的反饋,基于該方法的模型只需要7B size,在reward model benchmark就明顯優(yōu)于現(xiàn)有公開的72B-size的MLLM。
  3. 動(dòng)態(tài)獎(jiǎng)勵(lì)縮放:提出了動(dòng)態(tài)獎(jiǎng)勵(lì)縮放(Dynamic Reward Scaling)方法,通過(guò)根據(jù)獎(jiǎng)勵(lì)信號(hào)調(diào)整每個(gè)樣本的損失權(quán)重,優(yōu)化了高質(zhì)量比較對(duì)的使用,進(jìn)一步提高了數(shù)據(jù)的使用效率。
  4. 全面評(píng)估:本文在10個(gè)維度和27個(gè)基準(zhǔn)上對(duì)提出的方案進(jìn)行了嚴(yán)格評(píng)估,同時(shí)構(gòu)造了一個(gè)reward model的benchmark以及safety相關(guān)的benchmark來(lái)彌補(bǔ)現(xiàn)有benchmark的不足,結(jié)果顯示,在各個(gè)方面均取得了顯著且一致的性能提升。

MM-RLHF人類偏好數(shù)據(jù)

數(shù)據(jù)來(lái)源: 圖像數(shù)據(jù)來(lái)源包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,總共10M,視頻數(shù)據(jù)來(lái)源主要是SharedGPT-4-video,安全性相關(guān)的數(shù)據(jù)來(lái)源主要包括 VLGuard 和自構(gòu)造內(nèi)容。

數(shù)據(jù)過(guò)濾與模型響應(yīng)生成, 通過(guò)預(yù)定義的多選題,長(zhǎng)文本等類別均勻采樣,確保少數(shù)類也有足夠的樣本。同時(shí)采用了knn聚類并采樣的策略,保證數(shù)據(jù)的diversity。響應(yīng)生成使用到了Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet等最先進(jìn)的MLLM。

數(shù)據(jù)標(biāo)注: 主要包含三個(gè)維度,有用性,真實(shí)性,倫理性,同時(shí)標(biāo)注人員需要提供打分的依據(jù),最終排名以及排名的依據(jù),標(biāo)注粒度細(xì),通過(guò)專家定期進(jìn)行質(zhì)量檢查和互動(dòng)評(píng)審保證標(biāo)注質(zhì)量。

MM-RLHF獎(jiǎng)勵(lì)模型

標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型通常通過(guò)預(yù)訓(xùn)練的LLM,并用線性獎(jiǎng)勵(lì)頭替換原有頭部,以輸出一個(gè)標(biāo)量獎(jiǎng)勵(lì)值。然而,這些模型難以充分利用人類注釋中的豐富信息,也不具備足夠的透明性。

為了解決標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型的局限性,本文提出了一種基于批評(píng)的訓(xùn)練框架。在這個(gè)框架中,模型首先生成批評(píng)(對(duì)響應(yīng)的分析和評(píng)估),然后基于批評(píng)來(lái)打分。批評(píng)生成部分與打分部分共同作用,確保了更細(xì)致的評(píng)價(jià)。

增強(qiáng)注釋以提高批評(píng)質(zhì)量:由于人工注釋往往簡(jiǎn)潔且精煉,直接使用它們作為訓(xùn)練目標(biāo)效果有限。因此,本文通過(guò)GPT-4o增強(qiáng)人工注釋,使其更為詳細(xì)和流暢,從而提高批評(píng)的質(zhì)量。

在訓(xùn)練過(guò)程中,批評(píng)的生成與獎(jiǎng)勵(lì)頭的訓(xùn)練同時(shí)進(jìn)行,在訓(xùn)練獎(jiǎng)勵(lì)頭時(shí)采取了teacher-forcing的策略,即采用了ground truth的批評(píng)作為輸入,默認(rèn)損失權(quán)重都為1。測(cè)試階段先生成批評(píng),然后基于批評(píng)得出最終得分。

性能評(píng)估


該模型框架簡(jiǎn)單,且在多個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)與GPT-4o相媲美,甚至超越了許多開源模型,表現(xiàn)出色,尤其在自定義基準(zhǔn)測(cè)試中,其表現(xiàn)遠(yuǎn)超GPT-4o,這驗(yàn)證了其作為訓(xùn)練算法獎(jiǎng)勵(lì)信號(hào)的有效性。

表4中也展示了,當(dāng)獎(jiǎng)勵(lì)頭直接使用偏好數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),模型的ACC+穩(wěn)定在50%左右。然而,當(dāng)引入人工注釋作為學(xué)習(xí)目標(biāo)時(shí),ACC+穩(wěn)定提升了5%。進(jìn)一步通過(guò)GPT-4o擴(kuò)展人工注釋,生成更加詳細(xì)和流暢的批評(píng),最終提高了ACC+達(dá)17%。當(dāng)評(píng)估時(shí)直接使用人工批評(píng)時(shí),ACC和ACC+均接近90%,表明評(píng)估質(zhì)量對(duì)獎(jiǎng)勵(lì)模型效果的至關(guān)重要性。

MM-DPO:有效利用高質(zhì)量偏好數(shù)據(jù)

要有效利用MM-RLHF中的高質(zhì)量數(shù)據(jù),有以下的實(shí)驗(yàn)發(fā)現(xiàn)和技巧:

MM-DPO不再僅僅關(guān)注“最難的比較對(duì)”(即排名差異最大的一對(duì)),而是將一個(gè)查詢下所有可能的響應(yīng)對(duì)都納入訓(xùn)練。具體來(lái)說(shuō),對(duì)于一個(gè)查詢 ,如果有多個(gè)響應(yīng),每一對(duì)具有不同排名的響應(yīng)都被視為一個(gè)有效的比較對(duì)。這種全面的處理方式可以捕捉更細(xì)粒度的排序信息,讓模型從更廣泛的偏好數(shù)據(jù)中學(xué)習(xí)。然而,這種策略也帶來(lái)了新的挑戰(zhàn):當(dāng)響應(yīng)對(duì)的排名差異較小時(shí)(例如排名 3 和排名 4 的比較),其獎(jiǎng)勵(lì)差距(reward margin)往往較小,而排名差異較大的響應(yīng)對(duì)(例如排名 1 和排名 4 的比較)包含的信息質(zhì)量更高。如果對(duì)所有樣本對(duì)一視同仁,會(huì)導(dǎo)致高置信度的信息被低效利用。

為了解決這個(gè)問題,MM-DPO 引入了動(dòng)態(tài)獎(jiǎng)勵(lì)縮放(Dynamic Reward Scaling)機(jī)制,根據(jù)獎(jiǎng)勵(lì)差距動(dòng)態(tài)調(diào)整更新強(qiáng)度,優(yōu)先利用高置信度的樣本對(duì)。

具體而言,獎(jiǎng)勵(lì)模型可以自然地為樣本對(duì)提供獎(jiǎng)勵(lì)差距(reward margin),這為動(dòng)態(tài)控制樣本的更新權(quán)重提供了一個(gè)直接的信號(hào)。

本文采用MM-RLHF-Reward-7B模型來(lái)計(jì)算獎(jiǎng)勵(lì)差距  其中  和 

DPO中,動(dòng)態(tài)縮放因子 

其中: 是初始默認(rèn)縮放因子; 是一個(gè)參數(shù),用于平衡動(dòng)態(tài)部分的貢獻(xiàn); 是一個(gè)可調(diào)超參數(shù),控制 隨著的變化速度。

接下來(lái)只需要將DPO算法中的部分替換為動(dòng)態(tài)的即可。

MM-DPO在各類benchmark上都表現(xiàn)出了不錯(cuò)的性能增益,而且其對(duì)于超參數(shù)并不是非常敏感,大多數(shù)情況下都能使得高質(zhì)量pair的利用效率得到明顯提升。

27個(gè)評(píng)估標(biāo)準(zhǔn),10種評(píng)估維度的綜合評(píng)估

主要領(lǐng)域包括圖表與文檔理解、OCR、幻覺檢測(cè)、數(shù)學(xué)推理、通用知識(shí)、多模態(tài)對(duì)話、高分辨率與真實(shí)世界應(yīng)用、視頻理解、多圖像處理以及多模態(tài)安全性。其中,多模態(tài)安全性基準(zhǔn) MM-RLHF-SafeBench 是自構(gòu)建的,涵蓋對(duì)抗攻擊、越獄攻擊、隱私保護(hù)和有害內(nèi)容生成等場(chǎng)景,重點(diǎn)評(píng)估模型的安全性與魯棒性。這些數(shù)據(jù)集為模型的多方面性能提供了詳盡的測(cè)試環(huán)境。

上面兩圖展示了使用本文提出的數(shù)據(jù)集和對(duì)齊算法,LLaVA-OV-7B、LLaVA-OV-0.5B和InternVL-1B在不同維度上的對(duì)齊表現(xiàn),其中每個(gè)評(píng)估維度的得分在相應(yīng)的基準(zhǔn)上進(jìn)行了平均。

會(huì)話能力和安全性的顯著提升:實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)齊過(guò)程,這兩個(gè)方面的表現(xiàn)得到了顯著改進(jìn),無(wú)需調(diào)整超參數(shù)。在會(huì)話基準(zhǔn)中,平均提高超過(guò)10%,而不安全行為減少了至少50%。此外,在WildsVision任務(wù)中,勝率至少提高了50%。

在幻覺、數(shù)學(xué)推理、多圖像和視頻理解方面的廣泛提升:對(duì)齊后的模型在這些領(lǐng)域表現(xiàn)出顯著的提升。有趣的是,盡管數(shù)據(jù)集中缺乏專門的多圖像數(shù)據(jù),模型在多圖像任務(wù)中的表現(xiàn)依然顯著提升。這表明數(shù)據(jù)集的多樣性有助于模型在多個(gè)維度上進(jìn)行更好的泛化。

模型對(duì)數(shù)據(jù)和超參數(shù)的偏好差異:不同模型在對(duì)齊過(guò)程中表現(xiàn)出不同的性能趨勢(shì),并且在不同基準(zhǔn)上對(duì)超參數(shù)設(shè)置的偏好也各不相同。例如,在對(duì)InternVL-1B的訓(xùn)練中,發(fā)現(xiàn)排除SFT損失函數(shù)反而帶來(lái)了更好的結(jié)果。此外,雖然InternVL-1B在常識(shí)知識(shí)任務(wù)中表現(xiàn)出顯著改進(jìn),但在OCR任務(wù)中的相對(duì)提升不如LLaVA-OV系列。這些差異主要源自模型預(yù)訓(xùn)練數(shù)據(jù)集和策略的不同,因此需要根據(jù)具體模型對(duì)超參數(shù)進(jìn)行定制化調(diào)整以獲得最佳對(duì)齊效果。

小規(guī)模的MLLMs很難自我提升


盡管近年來(lái)有研究探索了MLLM的自我提升概念,但這些努力主要集中在特定領(lǐng)域,比如對(duì)話系統(tǒng)。在這一部分,團(tuán)隊(duì)提出了與LLM領(lǐng)域不同的觀點(diǎn),認(rèn)為小規(guī)模的MLLM(參數(shù)少于7B)目前在通過(guò)自我提升實(shí)現(xiàn)全面性能提升方面面臨重大挑戰(zhàn)。實(shí)驗(yàn)結(jié)果,如上所示,可能有兩個(gè)主要原因:

模型容量的限制: 對(duì)于涉及長(zhǎng)文本或?qū)υ挃?shù)據(jù)的任務(wù),采樣多個(gè)響應(yīng)通常會(huì)生成至少一個(gè)相對(duì)較好的答案,從而進(jìn)行DPO有可能導(dǎo)致性能明顯提高。然而,對(duì)于更具挑戰(zhàn)性的任務(wù),如多項(xiàng)選擇題或科學(xué)推理任務(wù),小模型即使經(jīng)過(guò)大量采樣,也難以生成正確答案。在實(shí)驗(yàn)中,當(dāng)最大采樣數(shù)量達(dá)到八時(shí),觀察到在某些具有挑戰(zhàn)性的多項(xiàng)選擇題中,模型生成了相同的錯(cuò)誤答案,或者在所有樣本中一致地產(chǎn)生錯(cuò)誤輸出。

獎(jiǎng)勵(lì)信號(hào)質(zhì)量的局限性: 目前大多數(shù)現(xiàn)有的多模態(tài)獎(jiǎng)勵(lì)模型是在有限多樣性的訓(xùn)練數(shù)據(jù)集上訓(xùn)練的,如VLFeedback和LLaVA-RLHF。這些數(shù)據(jù)集主要關(guān)注自然圖像、人類對(duì)話或相關(guān)場(chǎng)景,容易引發(fā)過(guò)擬合問題。當(dāng)偏好數(shù)據(jù)集包含更廣泛的領(lǐng)域(如數(shù)學(xué)推理、圖表理解或其他專業(yè)領(lǐng)域)時(shí),在現(xiàn)有數(shù)據(jù)集上訓(xùn)練的獎(jiǎng)勵(lì)模型無(wú)法提供有效的獎(jiǎng)勵(lì)信號(hào)。因此,識(shí)別和選擇更好的樣本變得困難。

這兩個(gè)局限性使得目前的MLLMs很難在多樣化的數(shù)據(jù)集上生成響應(yīng)、使用獎(jiǎng)勵(lì)模型對(duì)其進(jìn)行注釋并通過(guò)自我提升循環(huán)進(jìn)行迭代改進(jìn),盡管在LLM對(duì)齊中取得了類似的進(jìn)展。實(shí)驗(yàn)確認(rèn),更好的獎(jiǎng)勵(lì)模型可以帶來(lái)邊際改進(jìn),但這些結(jié)果仍遠(yuǎn)不如使用高質(zhì)量人工注釋對(duì)比樣本進(jìn)行訓(xùn)練的效果。

未來(lái)可能的研究方向

本研究提出了MM-RLHF,一個(gè)高質(zhì)量、細(xì)粒度的數(shù)據(jù)集,專門用于推動(dòng)多模態(tài)大語(yǔ)言模型(MLLMs)的對(duì)齊工作。與以往專注于特定任務(wù)的研究不同,提出的數(shù)據(jù)集和對(duì)齊方法旨在全面提升多個(gè)維度的性能。即使在獎(jiǎng)勵(lì)建模和優(yōu)化算法方面僅進(jìn)行了初步改進(jìn),在幾乎所有評(píng)估基準(zhǔn)上都觀察到了顯著且持續(xù)的提升,強(qiáng)調(diào)了綜合性對(duì)齊策略的潛力。

展望未來(lái),可以看到進(jìn)一步挖掘本數(shù)據(jù)集價(jià)值的巨大機(jī)會(huì)。數(shù)據(jù)集的豐富注釋粒度,如每個(gè)維度的分?jǐn)?shù)和排名理由,在當(dāng)前的對(duì)齊算法中仍未得到充分利用。未來(lái)的工作將重點(diǎn)關(guān)注利用這些粒度信息與先進(jìn)的優(yōu)化技術(shù),結(jié)合高分辨率數(shù)據(jù)來(lái)解決特定基準(zhǔn)的局限性,并使用半自動(dòng)化策略高效地?cái)U(kuò)展數(shù)據(jù)集。

團(tuán)隊(duì)相信,這些努力不僅將推動(dòng)MLLM對(duì)齊到新的高度,還將為更廣泛、更具普適性的多模態(tài)學(xué)習(xí)框架奠定基礎(chǔ)。

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-05-15 12:14:02

ChatGPT語(yǔ)音模型

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2025-03-11 13:49:20

2024-11-04 13:30:00

模型AI

2023-04-18 10:12:06

模型解碼

2024-12-31 09:10:00

2025-02-08 13:30:00

2023-06-28 13:55:30

模型AI

2025-01-08 08:21:16

2024-06-05 09:22:43

2024-06-24 08:15:00

2025-03-13 09:47:29

2024-06-24 08:25:00

2017-05-15 15:07:36

納米材料農(nóng)藥

2010-03-09 13:56:53

TD終端瓶頸

2024-03-25 12:40:19

訓(xùn)練模型

2023-03-14 14:06:52

訓(xùn)練模型

2024-03-07 12:31:29

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)