院士領(lǐng)銜萬字長文,全面系統(tǒng)梳理多模態(tài)LLM對齊算法
萬字長文,對多模態(tài)LLM中對齊算法進(jìn)行全面系統(tǒng)性回顧!
從現(xiàn)有對齊算法涵蓋的應(yīng)用場景,到構(gòu)建對齊數(shù)據(jù)集的核心因素,再到用于評估對齊算法的基準(zhǔn),還有對齊算法未來潛在發(fā)展方向,全都梳理了一遍。
大語言模型(LLMs)能夠通過簡單的提示完成多種任務(wù),且無需進(jìn)行任務(wù)特定的訓(xùn)練。然而,這些模型主要處理文本數(shù)據(jù),對于多模態(tài)數(shù)據(jù)的處理存在局限。
由于世界本質(zhì)上是多模態(tài)的,包括視覺、聽覺和文本等數(shù)據(jù),研究者開始在LLM的基礎(chǔ)上開發(fā)多模態(tài)大語言模型(MLLMs),以處理更復(fù)雜的數(shù)據(jù)形式。
然而,現(xiàn)有的MLLMs仍面臨一系列挑戰(zhàn),尤其是在真實(shí)性、安全性、推理能力和與人類偏好對齊方面,這些問題尚未得到充分解決。
因此,針對這些問題的對齊算法應(yīng)運(yùn)而生,成為解決這些挑戰(zhàn)的有效途徑。
本文這項(xiàng)研究的主要貢獻(xiàn)是對多模態(tài)大型語言模型(MLLMs)中的對齊算法進(jìn)行全面的系統(tǒng)性回顧。
具體而言,探討了以下四個(gè)關(guān)鍵問題:
- 現(xiàn)有對齊算法的應(yīng)用場景:文章通過分類當(dāng)前的對齊算法,清晰地展示了它們在不同應(yīng)用領(lǐng)域的適用性,并為研究者提供了一個(gè)統(tǒng)一的符號系統(tǒng),幫助理解各算法之間的區(qū)別與聯(lián)系。
- 對齊數(shù)據(jù)集的構(gòu)建:對齊數(shù)據(jù)集的構(gòu)建涉及數(shù)據(jù)源、模型響應(yīng)和偏好注釋三個(gè)核心因素。文章對這些因素進(jìn)行了系統(tǒng)分析與分類,并總結(jié)了公開數(shù)據(jù)集的優(yōu)勢與不足,為未來的改進(jìn)提供參考。
- 對齊算法的評估方法:鑒于大多數(shù)對齊算法針對特定任務(wù),如減少幻覺、確保安全性和改善推理能力,文章整理了常用的評估基準(zhǔn),提出了清晰的評估框架。
- 未來發(fā)展方向:文章提出了對齊算法發(fā)展的潛在未來方向,特別是視覺信息的整合、LLM對齊方法的經(jīng)驗(yàn)啟示,以及MLLM作為智能體面臨的挑戰(zhàn)與機(jī)遇。
這項(xiàng)研究由來自中國科學(xué)院自動(dòng)化研究所、南京大學(xué)、中國科學(xué)技術(shù)大學(xué)、南洋理工大學(xué)、清華大學(xué)深圳國際研究生院、騰訊優(yōu)圖實(shí)驗(yàn)室、新加坡國立大學(xué)、理海大學(xué)、香港科技大學(xué)、松鼠Ai學(xué)習(xí)等機(jī)構(gòu)的研究人員共同完成。
中國科學(xué)院院士譚鐵牛、中國計(jì)算機(jī)學(xué)會(huì)會(huì)士王亮領(lǐng)銜。
以下是更多細(xì)節(jié)。
應(yīng)用場景與代表性方法
應(yīng)用場景
文章介紹了多模態(tài)大語言模型(MLLM)對齊算法的應(yīng)用場景,分為三大層次:
- 通用圖像理解:主要集中在減少幻覺(模型生成不準(zhǔn)確或無關(guān)的輸出),并提升模型在其他功能(如對話、推理能力)方面的表現(xiàn)。
- 多圖像、視頻和音頻:針對復(fù)雜多模態(tài)數(shù)據(jù),如多圖像和視頻,提出了不同的架構(gòu)和訓(xùn)練方法來處理這些任務(wù),尤其是如何在這些任務(wù)中減少幻覺并提高模型的能力。
- 擴(kuò)展應(yīng)用:探討了將MLLM應(yīng)用于領(lǐng)域特定任務(wù),如醫(yī)學(xué)、數(shù)學(xué)推理、安全系統(tǒng)等,介紹了如何根據(jù)這些特定領(lǐng)域的需求對模型進(jìn)行優(yōu)化。
通用圖像理解與多模態(tài)o1
一般圖像理解
MLLM對齊算法的初衷是解決多模態(tài)系統(tǒng)中的幻覺問題。最近的研究表明,這些算法不僅能提升幻覺的處理,還能增強(qiáng)模型的安全性、對話能力、推理能力等多個(gè)功能屬性。
本節(jié)將系統(tǒng)地介紹幾種創(chuàng)新的方法,按其主要應(yīng)用場景分類:減少幻覺和提升其他能力。
減少幻覺
MLLM對齊算法的最初設(shè)計(jì)目的是減少幻覺現(xiàn)象。
例如,F(xiàn)act-RLHF是第一個(gè)多模態(tài)的RLHF算法,使用了10K個(gè)人工標(biāo)注的樣本來訓(xùn)練獎(jiǎng)勵(lì)模型,并引入了每個(gè)token的KL懲罰、事實(shí)信息校準(zhǔn)、以及正確性和長度懲罰等機(jī)制。
DDPO通過提高更正數(shù)據(jù)的權(quán)重,進(jìn)一步優(yōu)化了標(biāo)準(zhǔn)的DPO。
HA-DPO則利用MLLM生成圖像描述,通過GPT-4驗(yàn)證幻覺并對正負(fù)樣本進(jìn)行重寫,加入了輔助的因果語言建模損失以減少幻覺。
mDPO通過引入視覺損失函數(shù)來解決視覺信息忽視問題,并增加錨定機(jī)制來避免選定響應(yīng)的概率下降。
提升綜合能力
除了減少幻覺,一些算法還專注于提升模型的多方面能力。
例如,Silkie通過收集多樣的指令數(shù)據(jù)集,并使用GPT-4V評估生成的響應(yīng),從而為應(yīng)用DPO提供偏好數(shù)據(jù)。CLIP-DPO利用CLIP分?jǐn)?shù)對數(shù)據(jù)進(jìn)行標(biāo)注,并應(yīng)用DPO損失,從而同時(shí)提升幻覺減緩和零樣本分類任務(wù)的表現(xiàn)。
SIMA通過讓模型自我評估其生成的響應(yīng)來構(gòu)建偏好對,進(jìn)一步提升了多圖像任務(wù)的表現(xiàn)。
近期,MM-RLHF等方法通過更多樣性的數(shù)據(jù)和算法,將alignment的效果進(jìn)一步提升。
多模態(tài)o1發(fā)展
DeepSeek-R1的流行給MLLM社區(qū)帶來了新的啟示。
LMM-R1使用純文本數(shù)學(xué)數(shù)據(jù)集,通過RLOO訓(xùn)練,并在多模態(tài)數(shù)學(xué)基準(zhǔn)上取得了改進(jìn)。
Open-R1-Video則利用GRPO方法提升了模型在視頻領(lǐng)域的表現(xiàn)。
VLM-R1應(yīng)用R1方法處理指代表達(dá)理解任務(wù),進(jìn)一步擴(kuò)展了多模態(tài)推理的能力。
多圖像、視頻和音頻
在這一部分,文章討論了多圖像、視頻和音頻任務(wù)中的挑戰(zhàn)和解決方法。
- 多圖像任務(wù):現(xiàn)有的MLLM在多圖像理解方面常常遇到困難,MIA-DPO通過構(gòu)建多圖像偏好數(shù)據(jù)來解決這一問題,取得了較好的效果。
- 視頻任務(wù):視頻理解任務(wù)比單圖像任務(wù)更加復(fù)雜,DPO和交錯(cuò)視覺指令的結(jié)合,能夠有效提升視頻任務(wù)的處理能力,如LLaVA-NeXT-Interleave方法。
- 音頻任務(wù):音頻-視覺理解存在音頻盲視問題,Video-SALMONN 2通過引入音頻-視覺對齊機(jī)制,成功解決了這一問題。
擴(kuò)展多模態(tài)應(yīng)用
文章還介紹了在特定領(lǐng)域的擴(kuò)展應(yīng)用,提出了針對性更強(qiáng)的對齊方法。
- 醫(yī)學(xué)應(yīng)用:3D-CT-GPT++通過對醫(yī)學(xué)影像分析進(jìn)行優(yōu)化,成功減少了診斷中的誤差,達(dá)到了臨床級別的準(zhǔn)確性。
- 數(shù)學(xué)應(yīng)用:MAVIS方法通過改進(jìn)視覺數(shù)學(xué)問題解決框架,提高了MLLM在數(shù)學(xué)推理中的表現(xiàn)。
- 安全性:為應(yīng)對多模態(tài)大語言模型的對抗性攻擊,文章介紹了AdPO和VLGuard等方法,它們通過優(yōu)化訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)來提高模型的魯棒性。
- 代理和智能系統(tǒng):INTERACTIVECOT和EMMOE方法通過動(dòng)態(tài)優(yōu)化推理流程和分解任務(wù),提高了多模態(tài)大語言模型在嵌入式智能中的表現(xiàn),尤其是在復(fù)雜決策過程中。
作者分析多模態(tài)大語言模型的不同應(yīng)用場景,詳細(xì)介紹了多種算法和方法,涵蓋了從通用圖像理解到特定領(lǐng)域應(yīng)用的各個(gè)方面。
主要貢獻(xiàn)在于展示了如何通過優(yōu)化對齊算法來減少幻覺現(xiàn)象并提升模型在不同任務(wù)中的綜合能力,尤其在視頻、音頻、醫(yī)學(xué)、數(shù)學(xué)等復(fù)雜領(lǐng)域的應(yīng)用。
隨著這些方法的不斷優(yōu)化,MLLM將在更多領(lǐng)域展現(xiàn)其強(qiáng)大的處理能力。
下表總結(jié)了目前alignment策略常見的損失函數(shù)形式:
MLLM對齊數(shù)據(jù)構(gòu)造與現(xiàn)有數(shù)據(jù)總結(jié)
主要內(nèi)容總結(jié)
在多模態(tài)大型語言模型(MLLM)的研究中,對齊數(shù)據(jù)集是關(guān)鍵組成部分。由于多模態(tài)數(shù)據(jù)集的構(gòu)建涉及到大量的數(shù)據(jù)來源、生成方法和注釋技術(shù),研究者們對不同構(gòu)建方法進(jìn)行了分類。
這些數(shù)據(jù)集大致可以分為兩類:引入外部知識的數(shù)據(jù)集和依賴自我標(biāo)注的數(shù)據(jù)集。
通過這些分類,研究者可以更清晰地了解不同數(shù)據(jù)集的特點(diǎn),進(jìn)而為多模態(tài)系統(tǒng)的優(yōu)化提供支持。
作者對現(xiàn)有MLLM對齊數(shù)據(jù)集進(jìn)行了全面的分類與分析,詳細(xì)介紹了不同構(gòu)建方法的優(yōu)缺點(diǎn)以及應(yīng)用場景。研究主要關(guān)注以下幾個(gè)方面:
- 引入外部知識的數(shù)據(jù)集:討論了通過人類注釋和閉源模型(如GPT-4系列)構(gòu)建的數(shù)據(jù)集,這些方法提高了數(shù)據(jù)的質(zhì)量,但也面臨高成本和主觀性等挑戰(zhàn)。
- 自我標(biāo)注的數(shù)據(jù)集:探討了利用模型自身生成偏好對進(jìn)行數(shù)據(jù)集構(gòu)建的方法,包括單一文本模態(tài)、單一圖像模態(tài)和圖像-文本混合模態(tài)三種類型的數(shù)據(jù)構(gòu)建方法。
- 數(shù)據(jù)質(zhì)量和規(guī)模的平衡:文章還討論了如何平衡數(shù)據(jù)質(zhì)量、規(guī)模與成本的關(guān)系,并展望了未來自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的潛力,特別是如何利用自我標(biāo)注方法提升數(shù)據(jù)質(zhì)量。
通過這項(xiàng)工作,研究者們可以更加清楚地理解多模態(tài)數(shù)據(jù)集的構(gòu)建策略,為未來的研究提供有力的支持。
引入外部知識的數(shù)據(jù)集
- 人工注釋:通過人工標(biāo)注,收集了不同領(lǐng)域的高質(zhì)量數(shù)據(jù)。
例如,LLaVA-RLHF通過人工選擇正負(fù)響應(yīng)收集了10k個(gè)樣本,RLHF-V通過人工修正幻覺響應(yīng)收集了1.4k個(gè)樣本。
- 閉源LLM/MLLM:利用GPT-4系列模型生成的偏好數(shù)據(jù),通過這種方法可以大規(guī)模構(gòu)建數(shù)據(jù)集,同時(shí)減少成本。
像LRV-Instruction通過GPT-4生成了400k個(gè)視覺指令,涵蓋16個(gè)視覺語言任務(wù)。
- 開源LLM/MLLM:使用開源模型(如CLIP-DPO)來構(gòu)建偏好數(shù)據(jù),減少成本但可能犧牲數(shù)據(jù)質(zhì)量。
例如,INTERACTIVECOT通過預(yù)定義分?jǐn)?shù)構(gòu)建了具身智能的偏好數(shù)據(jù)集。
自我標(biāo)注的數(shù)據(jù)集
- 單一文本模態(tài):
SQuBa使用微調(diào)后的模型生成負(fù)樣本,并將其與正樣本進(jìn)行DPO對比。SymDPO通過將VQA/分類數(shù)據(jù)轉(zhuǎn)化為ICL格式,以增強(qiáng)視覺學(xué)習(xí)。
- 單一圖像模態(tài):
Image DPO通過對圖像進(jìn)行擾動(dòng)(如高斯模糊或像素化),而保持文本不變,構(gòu)建DPO偏好對。
- 圖像-文本混合模態(tài):
AdPO通過構(gòu)建原始/對抗圖像及其模型響應(yīng)的偏好對,在優(yōu)化過程中,兩者的圖像和文本內(nèi)容在正負(fù)樣本中有所不同。
實(shí)驗(yàn)發(fā)現(xiàn)
在實(shí)驗(yàn)部分,研究發(fā)現(xiàn):
數(shù)據(jù)集規(guī)模與質(zhì)量的平衡:通過引入外部知識的數(shù)據(jù)集,能夠提高數(shù)據(jù)的質(zhì)量,但這也增加了構(gòu)建成本。而自我標(biāo)注的方法雖然能夠大規(guī)模生成數(shù)據(jù),但由于MLLM的性能限制,當(dāng)前的自我標(biāo)注數(shù)據(jù)集質(zhì)量仍較低,且存在一定的分布偏移問題。
自動(dòng)化增強(qiáng)的潛力:隨著自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的發(fā)展,未來的自我標(biāo)注方法將可能解決當(dāng)前數(shù)據(jù)質(zhì)量低的問題,并提高數(shù)據(jù)的多樣性和可信度。
總的來說,數(shù)據(jù)集的構(gòu)建方法和質(zhì)量控制是影響MLLM對齊效果的關(guān)鍵因素,未來的研究應(yīng)關(guān)注如何在保證數(shù)據(jù)質(zhì)量的同時(shí),降低成本并提高數(shù)據(jù)集的規(guī)模。
模型評估
現(xiàn)有的MLLM對齊評估基準(zhǔn)被分為六個(gè)關(guān)鍵維度:
通用知識(評估基礎(chǔ)能力)、幻覺(衡量生成內(nèi)容與事實(shí)的一致性)、安全性(評估響應(yīng)中降低風(fēng)險(xiǎn)的能力)、對話(測試模型是否能輸出用戶要求的內(nèi)容)、獎(jiǎng)勵(lì)模型(評估獎(jiǎng)勵(lì)模型的表現(xiàn))和與人類偏好的對齊。
通用知識
大多數(shù)基準(zhǔn)優(yōu)先考慮高質(zhì)量、人工注釋的數(shù)據(jù)集,這些數(shù)據(jù)集專門為實(shí)際應(yīng)用場景量身定制。
例如,MME-RealWorld包含來自13K張圖像的29K個(gè)問答對,MMMU包含來自學(xué)術(shù)來源的11.5K個(gè)問題。MMStar通過減少數(shù)據(jù)泄漏和強(qiáng)調(diào)視覺依賴性來增強(qiáng)可靠性。
許多基準(zhǔn)引入了創(chuàng)新方法,如MMBench的雙語評估與CircularEval,MMT-Bench的任務(wù)圖用于域內(nèi)外分析,以及BLINK專注于視覺感知任務(wù)。這些框架提升了評估精度,揭示了模型的局限性。
任務(wù)通常需要高級的多模態(tài)推理能力,例如MathVista的數(shù)學(xué)視覺整合、SQA3D的3D情境問答以及MMMU對圖表和地圖的覆蓋。
這些基準(zhǔn)推動(dòng)模型解決跨學(xué)科的挑戰(zhàn),通過策劃具有挑戰(zhàn)性的、細(xì)粒度的任務(wù)(如MVBench中的時(shí)間理解、Mantis-Instruct中的多圖像處理),旨在提升模型解決現(xiàn)實(shí)世界問題的能力,特別是在細(xì)致感知和推理方面。
幻覺
這些基準(zhǔn)系統(tǒng)地識別并分類多模態(tài)模型中的幻覺問題,包括對象幻覺(Object HalBench)、內(nèi)在和外在幻覺(VideoHallucer)以及關(guān)聯(lián)偏差(VALOR-Eval)。它們強(qiáng)調(diào)在視覺、文本和序列上下文中的細(xì)粒度評估。
許多基準(zhǔn)提出了創(chuàng)新的框架,例如基于投票的查詢(POPE)、LLM驅(qū)動(dòng)的評分(HaELM、RefoMB)、開放詞匯檢測(OpenCHAIR)、無注釋評估(GAVIE)、無LLM管道(AMBER)和GPT-4輔助的推理分析(Mementos)。
這些方法強(qiáng)調(diào)自動(dòng)化、可擴(kuò)展的評估,同時(shí)解決數(shù)據(jù)泄漏和語言先驗(yàn)等問題。
數(shù)據(jù)集優(yōu)先采用細(xì)粒度的人類注釋(M-HalDetect、HallusionBench)和合成數(shù)據(jù)生成(VHTest、MHaluBench),它們平衡了現(xiàn)實(shí)世界的復(fù)雜性(PhD的反常識圖像、ActivityNet-QA的58K問答對)和受控挑戰(zhàn)(R-Bench的魯棒性分析)。
一些基準(zhǔn)專注于特定任務(wù),如多語言支持(MHumanEval),而另一些則處理更廣泛的問題,如偏見和干擾(Bingo)。所有這些都旨在提高模型在實(shí)際場景中的魯棒性。
通過提出對齊策略(如RLAIF-V的開源反饋)并提出統(tǒng)一框架(HQH),這些基準(zhǔn)為開發(fā)更可靠的多模態(tài)系統(tǒng)提供了指導(dǎo)。
安全性
一些研究引入了新穎的技術(shù),例如基于擴(kuò)散的對抗性攻擊(AdvDiffVLM)、紅隊(duì)框架(RTVLM)和后期微調(diào)策略(VLGuard)。
這些方法通過模擬現(xiàn)實(shí)世界威脅或提升模型的抗干擾能力來增強(qiáng)評估的嚴(yán)謹(jǐn)性。
像MultiTrust和RTVLM這樣的基準(zhǔn)通過多個(gè)維度統(tǒng)一了可信度評估(如真實(shí)性、公平性),而另一些基準(zhǔn)則專注于特定挑戰(zhàn),如超出分布(OOD)泛化(VLLM-safety-bench)或過度敏感性(MOSSBench)。這些基準(zhǔn)為模型的限制提供了整體的見解。
MM-RLHF-SafetyBench從現(xiàn)有數(shù)據(jù)集中進(jìn)行采樣,進(jìn)一步涵蓋了如對抗性攻擊、隱私、紅隊(duì)攻擊和有害內(nèi)容檢測等領(lǐng)域。
對話
這些基準(zhǔn)優(yōu)先評估基礎(chǔ)的視覺技能,如低級感知能力(Q-Bench、LLVisionQA)、低級信息的描述能力(LLDescribe)和質(zhì)量評估。
它們強(qiáng)調(diào)模型解釋和表達(dá)細(xì)粒度視覺信息的能力。
幾個(gè)基準(zhǔn)測試了模型在具有挑戰(zhàn)性場景中的泛化能力,包括非常規(guī)圖像(LLaVA Bench-Wilder)、跨領(lǐng)域任務(wù)(LiveBench的數(shù)學(xué)/新聞?wù)希?/span>和對抗性提示(Vibe-Eval的高難度問題)。這些基準(zhǔn)揭示了模型在標(biāo)準(zhǔn)數(shù)據(jù)集之外的適應(yīng)能力。
獎(jiǎng)勵(lì)模型
每個(gè)基準(zhǔn)都針對特定的評估維度,例如多語言能力(M-RewardBench中的23種語言)、對齊/安全性/偏見(MJ-Bench)、通過人類注釋增強(qiáng)可解釋性和最終模型評分能力(MM-RLHF-RewardBench)以及MLLM在輔助評判者跨多種模態(tài)中的能力(MLLM-as-a-Judge的評分與成對比較)。
這些框架揭示了模型在結(jié)構(gòu)化和OOD場景中的優(yōu)缺點(diǎn)。
高質(zhì)量的數(shù)據(jù)集通過人類與AI合作(如VL-RewardBench的注釋管道)或結(jié)構(gòu)化三元組設(shè)計(jì)(RewardBench)策劃而成,任務(wù)從簡單的偏好排序到復(fù)雜的推理,推動(dòng)模型處理如幻覺和倫理對齊等細(xì)致挑戰(zhàn)。
對齊
一些基準(zhǔn)研究了模型與人類偏好的對齊能力。
Arena-Hard是一個(gè)全面的多維度基準(zhǔn),旨在評估中文LLM的對齊能力。AlpacaEval-V2提出了一種簡單的回歸分析方法,用于控制自評中的長度偏差。Arena-Hard通過增加模型性能的分離度三倍,達(dá)到了98.6%的與人類偏好排名的相關(guān)性。MM-AlignBench是一個(gè)專門設(shè)計(jì)的手工注釋基準(zhǔn),旨在評估與人類價(jià)值觀的對齊。
總體而言,許多當(dāng)前的MLLM對齊算法側(cè)重于防止模型生成幻覺,同時(shí)探索如何利用對齊算法提升MLLM的通用知識和對話能力,這是未來的重要方向。
一些研究者將不安全的響應(yīng)視為與人類偏好不對齊,因此應(yīng)用MLLM對齊算法來解決安全問題。這些框架中獎(jiǎng)勵(lì)模型的有效性,尤其是在引導(dǎo)對齊方面的表現(xiàn),值得進(jìn)一步研究。
此外,針對與人類偏好的對齊,基準(zhǔn)也從LLM領(lǐng)域發(fā)展到了MLLM領(lǐng)域。
未來工作與挑戰(zhàn)
隨著多模態(tài)大型語言模型(MLLM)的迅速發(fā)展,將它們與人類偏好對齊已經(jīng)成為研究的重點(diǎn)。然而,仍然存在若干挑戰(zhàn)。
首先,高質(zhì)量和多樣化數(shù)據(jù)集的稀缺問題仍然未得到有效解決。其次,許多方法未能有效利用視覺信息,往往主要依賴文本來構(gòu)建正負(fù)樣本,忽略了多模態(tài)數(shù)據(jù)的全部潛力。此外,缺乏全面的評估標(biāo)準(zhǔn),當(dāng)前的方法通常僅在幻覺或?qū)υ捜蝿?wù)等特定類型的基準(zhǔn)上進(jìn)行驗(yàn)證,這使得它們的普適性難以評估。
通過借鑒LLM后期訓(xùn)練策略和智能體研究的進(jìn)展,可以揭示現(xiàn)有MLLM對齊方法中的局限性。克服這些挑戰(zhàn)對于開發(fā)更強(qiáng)大和全面的對齊方法至關(guān)重要。
數(shù)據(jù)挑戰(zhàn)
MLLM對齊面臨兩個(gè)關(guān)鍵的數(shù)據(jù)相關(guān)挑戰(zhàn):數(shù)據(jù)質(zhì)量和覆蓋范圍。
首先,高質(zhì)量的MLLM對齊數(shù)據(jù)的可用性有限。與LLM相比,獲取和注釋多模態(tài)數(shù)據(jù)要復(fù)雜得多,因?yàn)樗婕岸鄠€(gè)模態(tài)的處理。
其次,現(xiàn)有數(shù)據(jù)集在涵蓋多樣化多模態(tài)任務(wù)方面存在不足,例如光學(xué)字符識別、數(shù)學(xué)問題和圖表理解等任務(wù)。構(gòu)建一個(gè)涵蓋廣泛任務(wù)的綜合數(shù)據(jù)集是一項(xiàng)極具挑戰(zhàn)的工作。
據(jù)作者所知,目前沒有一個(gè)公開的、完全人工注釋的多模態(tài)數(shù)據(jù)集樣本量超過200,000個(gè)。
這些在數(shù)據(jù)質(zhì)量和覆蓋范圍方面的限制,成為有效對齊MLLM的重大障礙。
利用視覺信息進(jìn)行對齊
目前的對齊數(shù)據(jù)可以表示為:偏好數(shù)據(jù)D=(x, I, yw, yl),其中x是問題,I是圖像,yw、yl分別表示正確和錯(cuò)誤的響應(yīng)。
在當(dāng)前的研究中,主要有三種方法用于利用視覺信息來增強(qiáng)對齊性能,但每種方法都有其局限性:
- 使用破損或無關(guān)圖像作為對齊階段的負(fù)樣本。
研究人員創(chuàng)建新的圖像Ineg,并使用(yw|X, Ineg)作為負(fù)樣本。此方法通過減少幻覺和提高M(jìn)LLM對不同圖像的魯棒性來改善對齊效果。然而,視覺負(fù)樣本通常依賴于擴(kuò)散算法或圖像修改,這些方法缺乏強(qiáng)有力的質(zhì)量度量,并且計(jì)算成本較高。
- 基于破損圖像生成新的問題和答案。
在這種方法中,研究人員創(chuàng)建一個(gè)新的圖像Ineg,使用該圖像生成額外的響應(yīng)yneg,然后將(yneg|X, I)視為負(fù)樣本。此方法增加了文本比較的多樣性,但生成額外負(fù)樣本的過程增加了計(jì)算開銷。
- 使用像CLIP這樣的余弦相似度度量來評估文本-圖像匹配。
該方法通過計(jì)算文本與圖像之間的相似度分?jǐn)?shù)來篩選數(shù)據(jù),或?qū)⑵渥鳛閺?qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的一部分。雖然這種方法有助于減少數(shù)據(jù)噪聲,但評分的質(zhì)量依賴于評估模型的質(zhì)量,可能受到模型偏見的影響。
每種方法在利用視覺數(shù)據(jù)增強(qiáng)MLLM對齊方面都有一定的作用,但在效率、成本和潛在偏見方面存在權(quán)衡。
綜合評估
大多數(shù)MLLM對齊研究主要評估其算法在幻覺、對話能力或安全性等幾個(gè)關(guān)鍵領(lǐng)域的表現(xiàn)。
然而,未來的研究應(yīng)采用更全面的評估方法,跨更廣泛的任務(wù)評估對齊方法,以更好地展示其普適性和有效性。
全模態(tài)對齊
Align-anything開創(chuàng)了通過多模態(tài)數(shù)據(jù)集“align-anything-200k”實(shí)現(xiàn)全模態(tài)對齊的研究,涵蓋了文本、圖像、音頻和視頻。這項(xiàng)研究展示了不同模態(tài)之間的互補(bǔ)效應(yīng)。
然而,他們的工作仍處于初期階段,每種模態(tài)的數(shù)據(jù)集相對較小,限制了其任務(wù)覆蓋范圍。
此外,提出的算法僅是DPO方法的初步改進(jìn),未能充分利用每種模態(tài)固有的獨(dú)特結(jié)構(gòu)信息。
未來,超越圖像/文本領(lǐng)域的對齊算法設(shè)計(jì),尤其是針對其他模態(tài)的對齊,將是一個(gè)關(guān)鍵的趨勢。
MLLM推理
最近,由OpenAI(o1)和DeepSeek-R1代表的推理LLM已經(jīng)證明,強(qiáng)化學(xué)習(xí)算法和偏好數(shù)據(jù)對于提高LLM在復(fù)雜問題求解、長時(shí)上下文理解和生成任務(wù)中的表現(xiàn)至關(guān)重要。
本文將探討從LLM推理增強(qiáng)研究中獲得的洞察及其對對齊MLLM的影響,主要從數(shù)據(jù)和優(yōu)化框架兩個(gè)維度進(jìn)行分析。
(1) 數(shù)據(jù)。
- 規(guī)模與質(zhì)量。對應(yīng)的方法逐漸從小模型重采樣(如OpenMathInstruct)發(fā)展到高質(zhì)量合成數(shù)據(jù)(如AceMath),并逐步采用尖端模型(如OpenAI o1)和通過領(lǐng)域?qū)S媚P秃铣蓴?shù)據(jù)實(shí)現(xiàn)可擴(kuò)展的知識遷移(如DeepSeek-V3)。
目前,用于推理增強(qiáng)的數(shù)據(jù)集普遍達(dá)到百萬樣本規(guī)模(如Qwen-2.5-MATH)。
- 效率。采用“少即是多”的對齊(如LIMA的1k樣本用于65B Llama)證明了最少的高質(zhì)量數(shù)據(jù)能夠最優(yōu)地激活預(yù)訓(xùn)練能力,同時(shí)減少對數(shù)據(jù)規(guī)模的依賴。
(2) 優(yōu)化框架。
- 采樣策略。最近的進(jìn)展表明,在線強(qiáng)化學(xué)習(xí)(RL)逐漸成為主流方法,DeepSeek-V3和Qwen-2.5-MATH的在線采樣方法有效地緩解了分布偏移。
此外,Mini-Max采用了離線+在線采樣策略,進(jìn)一步提升了模型性能。
- 訓(xùn)練范式。多階段、協(xié)作優(yōu)化已成為主流方法。
例如,Llama 3包含了六輪DPO迭代,而DeepSeek通過溫度變化的采樣和反射/驗(yàn)證提示來優(yōu)化推理深度(長鏈?zhǔn)酵评恚?/span>和簡潔性。
- 算法。強(qiáng)化學(xué)習(xí)算法從早期的策略梯度方法發(fā)展到更復(fù)雜的PPO,最近基于PPO的改進(jìn)主要有兩個(gè)方向:
一個(gè)是去除評估模型并用稀疏獎(jiǎng)勵(lì)訓(xùn)練策略,從而減少一半的參數(shù)量(如DPO和GRPO);另一個(gè)是精煉評估模型的設(shè)計(jì),例如引入比率作為優(yōu)勢函數(shù)的PRIME和通過重塑正負(fù)樣本獎(jiǎng)勵(lì)的OREAL。
通過優(yōu)先考慮高質(zhì)量數(shù)據(jù)和創(chuàng)新的優(yōu)化框架,MLLM領(lǐng)域正朝著更有效、可擴(kuò)展的模型發(fā)展,這些模型也能更好地解鎖MLLM的推理潛力。
LLM對齊的啟示
對LLM的對齊已經(jīng)成為最近研究的一個(gè)關(guān)鍵焦點(diǎn),提供了許多有價(jià)值的見解,可以為MLLM的開發(fā)提供指導(dǎo)。通過審視現(xiàn)有LLM對齊策略的經(jīng)驗(yàn)教訓(xùn),可以揭示出有助于提升MLLM研究的關(guān)鍵原則:
(1) 提高訓(xùn)練效率。
當(dāng)前MLLM的對齊方法依賴于DPO損失函數(shù)。然而,由于DPO需要同時(shí)加載策略模型和參考模型,訓(xùn)練速度會(huì)顯著下降。是否可以利用類似SimPO的無參考方法進(jìn)一步提升訓(xùn)練效率?
這一方法可能加速訓(xùn)練過程,同時(shí)減少對參考模型的依賴。進(jìn)一步研究參考模型在MLLM對齊中的具體作用和影響,對于提高效率和優(yōu)化模型設(shè)計(jì)至關(guān)重要。
(2) 減輕過度優(yōu)化/獎(jiǎng)勵(lì)黑客問題。
在使用DPO或RLHF進(jìn)行LLM對齊時(shí),過度優(yōu)化仍然是一個(gè)關(guān)鍵挑戰(zhàn),即通過學(xué)習(xí)到的代理獎(jiǎng)勵(lì)模型來提高性能,但真正的質(zhì)量可能停滯或退化。
為應(yīng)對這一挑戰(zhàn),解決策略包括:
- 使用平衡的訓(xùn)練數(shù)據(jù)集確保多樣性和代表性,防止過于狹窄的優(yōu)化;
- 在驗(yàn)證性能平穩(wěn)時(shí)實(shí)施早停;
- 引入正則化技術(shù),減少對訓(xùn)練數(shù)據(jù)的過度依賴,提高模型的泛化能力。
MLLM作為智能體
MLLM結(jié)合了LLM強(qiáng)大的推理能力和處理來自多種模態(tài)(如圖像、文本和音頻)數(shù)據(jù)的能力。這使得它們能夠從多種信息源中提取知識并進(jìn)行綜合分析,在處理復(fù)雜的現(xiàn)實(shí)任務(wù)中具有很大優(yōu)勢。
然而,要將MLLM轉(zhuǎn)變?yōu)楦咝У闹悄荏w,仍然需要解決幾個(gè)待處理的問題。
- 多智能體協(xié)作。
目前,針對基于文本的智能體的多智能體協(xié)作框架已取得顯著進(jìn)展,但基于MLLM的多智能體系統(tǒng)仍缺乏成熟的解決方案。 - 魯棒性。
MLLM智能體在開放環(huán)境中的魯棒性尚未得到系統(tǒng)驗(yàn)證,需引入對抗性魯棒性測試和保障技術(shù)。 - 安全性。
MLLM智能體中引入更多復(fù)雜組件增加了安全風(fēng)險(xiǎn),未來的研究應(yīng)探索多種安全保護(hù)機(jī)制,以減輕這些風(fēng)險(xiǎn)。
論文鏈接:https://arxiv.org/pdf/2503.14504
GitHub鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment