多模態(tài)訓練后模型能力雪崩，上海AI Lab全面探索MLLM偏好對齊與模態(tài)融合

作者：量子位 2025-03-13 09:47:29

人工智能新聞

MLLM的回復質(zhì)量下降可能是因為經(jīng)過了多模態(tài)數(shù)據(jù)訓練之后，LLM本身的能力退化。

在實際應用過程中，閉源模型（GPT-4o）等在回復的全面性、完備性、美觀性等方面展示出了不俗的表現(xiàn)。

與之相反的是，在General VQA任務上表現(xiàn)最好的開源模型（如InternVL2-78B）在面對開放式、需要知識儲備的問題時，表現(xiàn)不盡人意：

△InternVL2-78B和GPT-4o在回復的完備性和美觀性上有較大差距

上述現(xiàn)象引發(fā)了上海交大、上海AI Lab等聯(lián)合團隊的思考。

他們首先猜測：MLLM的回復質(zhì)量下降可能是因為經(jīng)過了多模態(tài)數(shù)據(jù)訓練之后，LLM本身的能力退化。

因此分別測試了多個主流開源模型在主流的純語言對齊Benchmark（AlignBench/AlpacaEval2/ArenaHard）上的性能：

△得分由Qwen2.5-72B進行judge

結(jié)果顯示，經(jīng)過多模態(tài)訓練的大語言模型在語言主觀基準上的性能簡直可以用雪崩來形容。

既然如此，那是不是說，在多模態(tài)數(shù)據(jù)中加入更多更好的語言數(shù)據(jù)就可以了呢？團隊又進一步做了如下實驗：

采用LLaVA框架，使用最新的語言模型Internlm2.5-7B作為base，用LLaVANext-780k高質(zhì)量多模態(tài)數(shù)據(jù)作為Baseline。已知在LLaVANext-780k中，包含40k左右的來自ShareGPT的數(shù)據(jù)。

由于ShareGPT年代較為久遠，所以選擇了最新的兩個開源語言sft數(shù)據(jù)集，Magpie-LLaMA3.3以及Condor。將原始的ShareGPT數(shù)據(jù)分別更換為Magpie以及Condor進行了實驗，并在語言對齊基準、多模態(tài)對齊基準（WildVison）、General VQA基準（MMVet/MMBench/AI2D/OCRBench）上進行了全面評測：

△為了展示性能差異，此處AlpacaEval2和Arenahard的結(jié)果均與GPT3.5進行對比

加入了高質(zhì)量的語言數(shù)據(jù)之后，模型在語言基準上的能力確實提升了；但是，無論是多模態(tài)主觀對齊還是普通VQA任務，都出現(xiàn)了性能下降的情況。

因此推測：語言數(shù)據(jù)對多模態(tài)對齊能力的影響是十分有限的，在General VQA任務以外，仍然需要帶有開放式問題以及完備回答的多模態(tài)訓練數(shù)據(jù)。

Dataset Construction

基于以上觀察，當前的多模態(tài)數(shù)據(jù)過于看重VQA任務的能力，因此數(shù)據(jù)面臨答案過于簡短、單一，缺少對預訓練知識的運用與理解的問題。基于以上觀點以及從純語言數(shù)據(jù)組成中吸取的經(jīng)驗，團隊提出多模態(tài)數(shù)據(jù)還應包含以下特點：

開放式，創(chuàng)造性，需要預訓練知識的問題。
全面，完備，美觀，符合指令跟隨的回答。

基于以上兩點提出了OmniAlign-V數(shù)據(jù)構(gòu)建Pipeline：

△Pipeline of OmniAlign-V

根據(jù)圖片場景，首先將圖片分為自然圖片（Natural）以及信息圖片（Infographic）。鑒于希望得到包含豐富信息的數(shù)據(jù)，因此首先對自然圖片進行了圖像復雜度以及物體種類數(shù)目的兩輪篩選，確保篩選出的圖片具有豐富的語義信息。

其次，將Natural圖片分為Knowledge/Creation/Inferential三類任務，將信息圖片分為Chart/Diagram/Poster/Art四類任務，對不同任務分別應用對應的精心設計的Pipeline以及GPT-4o生成對話數(shù)據(jù)。而后，對Knowledge/Inferential/Chart分別應用不同的后處理優(yōu)化，增強了Inferencial和Chart數(shù)據(jù)的完備性和準確性，在Knowledge基礎上額外添加了Instruction-Following指令，將其作為Instruction-Following任務。最終，OmniAlign-V-SFT包含了205k高質(zhì)量的多模態(tài)數(shù)據(jù)。

團隊發(fā)現(xiàn)OmniAlign-V-SFT中的回復質(zhì)量較高，很適合作為DPO數(shù)據(jù)中的positive sample。因此通過對LLaVANext-Internlm2.5-7B模型的輸出應用reject sampling，得到了對應的negative sample，并由此生成了OmniAlign-V-DPO數(shù)據(jù)集。

此外還發(fā)現(xiàn)當前缺少高質(zhì)量的多模態(tài)主觀對齊基準。當前的基準當中面臨圖像質(zhì)量差，問題模糊/多樣性差等問題。因此構(gòu)建了MM-AlignBench多模態(tài)對齊基準。從經(jīng)過預篩選的3000+張圖片中人工挑選了252張分布多樣且高質(zhì)量的圖片，每張圖片以及對應的問題都經(jīng)過人工審查，確保圖片和任務問題的多樣性以及準確性，合理性。

實驗結(jié)果

在LLaVA/LLaVA-Next上分別采用Internlm2.5-7B/Qwen2.5-32B進行了實驗，并在三個多模態(tài)對齊基準以及五個主流VQA基準上進行了評測，結(jié)果如下：

△SFT多模態(tài)評測結(jié)果

可以看出，在添加了OmniAlign-V-SFT數(shù)據(jù)集后，MLLM在三個多模態(tài)對齊基準上的表現(xiàn)均有大幅提升；并且在多個General VQA Benchmark上均有不同程度的漲點，尤其是在MMVet和MMMU上漲點十分顯著；LLaVANext-Qwen2.5-32B甚至在MMVet和MMMU上分別增加了+9.2和+5.5。這有力驗證了OmniAlign-V數(shù)據(jù)集的有效性。

此外還發(fā)現(xiàn)，經(jīng)過OmniAlign-V-SFT訓練后，模型在語言對齊基準上也有一定程度的上漲：

△SFT語言評測結(jié)果

這也驗證了，當添加部分高質(zhì)量的多模態(tài)對齊數(shù)據(jù)后，能夠有效減少LLM在多模態(tài)訓練當中面臨的語言能力退化問題。

此外，采用OmniAlign-V-DPO進行DPO訓練后，模型的對齊能力進一步增強：

△DPO實驗結(jié)果

實驗結(jié)果顯示，當模型完全沒有接受長上下文類似的數(shù)據(jù)訓練時，在DPO階段應用OmniAlign-V-DPO并不能顯著地提升模型的對齊；而對于經(jīng)過高質(zhì)量長上下文訓練的模型而言，OmniAlign-V-DPO可以進一步顯著激發(fā)模型的對齊能力。尤其是在經(jīng)過大規(guī)模訓練的開源模型（InternVL2-8B）上，模型的性能提升尤其明顯。

MM-AlignBench已經(jīng)支持到VLMEvalkit，用于在多個MLLM上進行快捷評測。團隊測試了當前主流MLLM在MM-AlignBench上的結(jié)果：

△MM-AlignBench Leaderboard

經(jīng)過SFT+DPO數(shù)據(jù)后，LLaVANext-OA-32B-DPO的對齊性能提升明顯，在MMAlignBench上的性能已經(jīng)超越了QwenVL2-72B。

與此同時也可以看出，即使是QwenVL2-72B和InternVL2-78B，在MMAlignBench上的表現(xiàn)距離閉源模型（GPT/Gemini/Claude Series）也有較大的差距。

進一步對MM-AlignBench和其他General VQA Benchmark計算相關(guān)度，SRCC score如下所示：

△MM-AlignBench與其他基準的相關(guān)性統(tǒng)計

可以發(fā)現(xiàn)，MM-AlignBench 與現(xiàn)有的多模態(tài)評測基準（如 MMBench、OCRBench 等 VQA Benchmark）之間的相關(guān)性極低，但卻與 MMMU 表現(xiàn)出極高的相關(guān)性。作為一項涵蓋大量跨學科任務的評測基準，MMMU 對模型的知識先驗深度和廣度提出了極高的要求。盡管 MMMU 采用選擇題形式，答案具有唯一正確解，而 MM-AlignBench 則以開放式問答為主，兩者的題型設計存在顯著差異，但它們所考察的核心能力卻高度相似。這一現(xiàn)象表明，MM-AlignBench 不僅覆蓋了廣泛的任務領(lǐng)域，還深入挖掘了模型在知識先驗上的表現(xiàn)，進一步驗證了其評測維度的全面性與挑戰(zhàn)性。

Future Work

上述研究不僅深入探討了多模態(tài)大語言模型的對齊能力，更引發(fā)了作者團隊對一個核心問題的全新思考：

究竟什么才是通向真正模態(tài)融合的正確路徑？在多模態(tài)微調(diào)過程中，大語言模型往往會面臨一個棘手的問題——語言能力的“災難性遺忘”。然而，像GPT-4o等閉源模型卻能夠成功實現(xiàn)文本與圖像模態(tài)的深度融合，充分釋放其龐大的預訓練語言知識潛能。這背后的技術(shù)路線究竟是如何設計的？又是怎樣做到如此高效且精準的模態(tài)融合的？

這些問題無疑為我們指明了未來探索的重要方向。

Paper: https://arxiv.org/abs/2502.18411
Github: https://github.com/PhoenixZ810/OmniAlign-V

責任編輯：張燕妮來源：量子位

模型 AI 訓練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)訓練后模型能力雪崩，上海AI Lab全面探索MLLM偏好對齊與模態(tài)融合

Dataset Construction

實驗結(jié)果

△SFT語言評測結(jié)果

Future Work