最全梳理多模態(tài)大模型近期進展(26個最佳方案匯總) 精華
paper:https://arxiv.org/abs/2401.13601
一篇比較不錯的綜述型文章
- 梳理了多模態(tài)大型語言模型(MM-LLM) 的近期進展
- 總結(jié)了 MM-LLM 的模型架構(gòu)和訓練流程
- 梳理了 26 個當前最佳的 MM-LLM模型
MM-LLM 的時間線
主要模型架構(gòu)
模型架構(gòu)
- 模態(tài)編碼器(Modality Encoder/ME):
- 圖像:NFNet-F6、ViT、CLIP ViT等。
- 視頻:通常將視頻均勻采樣成5幀,經(jīng)過與圖像相同的預處理。
- 音頻:CFormer、HuBERT、BEATs等。
- 3D點云:ULIP-2與PointBERT后端。
- 負責將不同模態(tài)的輸入編碼成特征表示,例如圖像、視頻、音頻等。
- 針對不同的模態(tài),有多種預訓練的編碼器選項,例如:
- 輸入投影器(Input Projector):
- 將編碼的特征與文本特征空間對齊,以便輸入到LLM主干。
- 這通常通過線性投影器或多層感知器(MLP)實現(xiàn),也可以使用更復雜的實現(xiàn),如交叉注意力、Q-Former、P-Former和MQ-Former。
- LLM 骨干(LLM Backbone):
- 作為模型的核心,處理來自不同模態(tài)的特征,進行語義理解、推理和決策。
- 采用大型語言模型作為核心代理,處理來自不同模態(tài)的表示,進行語義理解、推理和決策。
- 輸出投影器(Output Projector):
- 將LLM主干的輸出映射回模態(tài)生成器能夠理解的特征。
- 這通常通過小型變換器或MLP實現(xiàn),目的是最小化映射特征與模態(tài)生成器的條件文本表示之間的距離。
- 模態(tài)生成器:
- 模態(tài)生成器的任務(wù)是生成不同模態(tài)的輸出,通常使用現(xiàn)成的潛在擴散模型(LDMs)。
- 例如,Stable Diffusion用于圖像合成,Zeroscope用于視頻合成,AudioLDM2用于音頻合成。
訓練流程(Training Pipeline)
- MM-LLMs的訓練流程分為兩個主要階段:多模態(tài)預訓練(MM PT)和多模態(tài)指令微調(diào)(MM IT)。
- 在MM PT階段,通過優(yōu)化預定義的目標來訓練輸入和輸出投影器,實現(xiàn)不同模態(tài)之間的對齊。
- 在MM IT階段,使用指令格式化的數(shù)據(jù)集對預訓練的MM-LLMs進行微調(diào),以提高模型對未見任務(wù)的泛化能力。
多模態(tài)預訓練(MM PT)
在這一階段,通過優(yōu)化預定義的目標來訓練輸入和輸出投影器,實現(xiàn)不同模態(tài)之間的對齊。
一般而言,只訓練輸出投影器與輸出投影器,實現(xiàn)不同模態(tài)之間的對齊,以便LLM主干能夠有效地處理多模態(tài)輸入。在訓練階段,模態(tài)編碼器、LLM 骨干和模態(tài)生成器通常保持在凍結(jié)狀態(tài);由于投影器是輕量級的組件,因此相比于總參數(shù)量,MM-LLM 中可訓練參數(shù)的占比非常?。ㄍǔ<s為 2%)??倕?shù)量取決于 MM-LLM 中使用的核心 LLM 的規(guī)模。因此,在針對各種多模態(tài)任務(wù)訓練 MM-LLM 時,可以取得很高的訓練效率。
數(shù)據(jù)集:通常使用X-Text數(shù)據(jù)集,這些數(shù)據(jù)集包含圖像-文本(Image-Text)、視頻-文本(Video-Text)和音頻-文本(Audio-Text)對,以及交錯的圖像-文本語料庫(interleaved Image-Text corpus)。
優(yōu)化:訓練過程中,主要優(yōu)化的是IP和OP的參數(shù),以最小化條件文本生成損失(Ltxt-gen)。這通常涉及到將模態(tài)編碼器的輸出特征(FX)與文本特征(FT)對齊,生成的對齊特征(PX)作為LLM主干的輸入。
多模態(tài)指令調(diào)優(yōu)(MM IT)
使用指令格式化的數(shù)據(jù)集對預訓練的MM-LLMs進行微調(diào),以提高模型對未見任務(wù)的泛化能力。
MM IT 這種方法需要使用一組指令格式的數(shù)據(jù)集對預訓練的 MM-LLM 進行微調(diào)。通過這個微調(diào)過程,MM-LLM 可以泛化到未曾見過的任務(wù),執(zhí)行新指令,從而增強零樣本性能。
MM IT 包含監(jiān)督式微調(diào)(SFT)和根據(jù)人類反饋的強化學習(RLHF),目標是與人類意圖或偏好對齊并提升 MM-LLM 的交互能力。
SFT 可將預訓練階段的部分數(shù)據(jù)轉(zhuǎn)換成指令感知型的格式。
SFT 之后,RLHF 會對模型進行進一步的微調(diào),這需要有關(guān) MM-LLM 所給響應(yīng)的反饋信息(比如由人類或 AI 標注的自然語言反饋(NLF))。這個過程采用了一種強化學習算法來有效整合不可微分的 NLF。模型的訓練目標是根據(jù) NLF 生成對應(yīng)的響應(yīng)。
現(xiàn)有的 MM-LLM 在 MM PT 和 MM IT 階段使用的數(shù)據(jù)集有很多,但它們都是表 3 和表 4 中數(shù)據(jù)集的子集。
26個sota模型
該團隊比較了 26 個當前最佳(SOTA)MM-LLM 的架構(gòu)和訓練數(shù)據(jù)集規(guī)模,如表 1 所示。另外他們還簡單總結(jié)了每種模型的核心貢獻和發(fā)展趨勢。這些模型代表了多模態(tài)大型語言模型領(lǐng)域的最新進展,涵蓋了從理解到生成、從單模態(tài)到多模態(tài)交互的各個方面。每個模型都在特定的任務(wù)或數(shù)據(jù)集上展示了其獨特的優(yōu)勢和能力。
26個sota模型
- Flamingo:一個視覺語言模型,專為處理交錯的視覺數(shù)據(jù)和文本而設(shè)計,能夠生成自由形式的文本作為輸出。
- BLIP-2:引入了一個資源高效的框架,使用輕量級Q-Former橋接模態(tài)間的差距,并利用凍結(jié)的LLMs進行零樣本圖像到文本的生成。
- LLaVA:將指令微調(diào)(IT)技術(shù)轉(zhuǎn)移到多模態(tài)領(lǐng)域,為解決數(shù)據(jù)稀缺問題,引入了新的開源多模態(tài)指令遵循數(shù)據(jù)集和基準測試。
- MiniGPT-4:提出一種簡化的方法,只訓練一個線性層來對齊預訓練的視覺編碼器與LLM,以復制GPT-4展示的能力。
- mPLUG-Owl:提出了一種新的模塊化訓練框架,包含視覺上下文,并引入了一個評估不同模型在多模態(tài)任務(wù)中表現(xiàn)的指令評估數(shù)據(jù)集。
- X-LLM:擴展到包括音頻在內(nèi)的各種模態(tài),并展示了強大的可擴展性,利用Q-Former的語言遷移能力,在漢藏語系的背景下成功應(yīng)用。
- VideoChat:首次提出了一個以聊天為中心的多模態(tài)大型語言模型,用于視頻理解對話,為學術(shù)界和工業(yè)界提供了標準和協(xié)議。
- InstructBLIP:基于預訓練的BLIP-2模型進行訓練,只更新Q-Former,在多模態(tài)指令微調(diào)中引入了指令感知的視覺特征提取和相應(yīng)指令。
- PandaGPT:一個開創(chuàng)性的通用模型,能夠理解和執(zhí)行跨6種不同模態(tài)的指令:文本、圖像/視頻、音頻、熱成像、深度和慣性測量單元。
- PaLI-X:使用混合視覺語言目標和單模態(tài)目標進行訓練,包括前綴完成和掩蔽標記完成,對下游任務(wù)結(jié)果和微調(diào)設(shè)置中的帕累托前沿都有效。
- Video-LLaMA:引入了一個多分支跨模態(tài)預訓練框架,使LLMs能夠同時處理給定視頻的視覺和音頻內(nèi)容,并與人類進行對話。
- Video-ChatGPT:專為視頻對話設(shè)計,能夠通過整合時空視覺表示來生成關(guān)于視頻的討論。
- Shikra:為指代表話而設(shè)計的一個簡單而統(tǒng)一的預訓練多模態(tài)大型語言模型,涉及對圖像中區(qū)域和對象的討論。
- DLP:提出了P-Former來預測理想的提示,訓練在單模態(tài)句子數(shù)據(jù)集上,展示了單模態(tài)訓練增強多模態(tài)學習的可能性。
- BuboGPT:通過學習共享的語義空間構(gòu)建的模型,全面理解多模態(tài)內(nèi)容。
- ChatSpot:引入了一種簡單而有效的方法,通過精確的指代表達指令微調(diào)多模態(tài)大型語言模型,促進細粒度的交互。
- Qwen-VL:支持英語和中文的多語言多模態(tài)大型語言模型,允許在訓練階段輸入多張圖片,提高了對視覺上下文的理解能力。
- NExT-GPT:一個端到端的通用多模態(tài)大型語言模型,支持圖像、視頻、音頻和文本的自由輸入和輸出。
- MiniGPT-5:與生成vokens和與Stable Diffusion集成的多模態(tài)大型語言模型,擅長執(zhí)行多模態(tài)生成的視覺語言輸出。
- LLaVA-1.5:對LLaVA框架進行了簡單修改,包括應(yīng)用MLP投影和引入針對學術(shù)任務(wù)量身定制的VQA數(shù)據(jù)。
- MiniGPT-v2:作為統(tǒng)一接口設(shè)計的多模態(tài)大型語言模型,用于處理多種視覺語言多任務(wù)學習。
- CogVLM:一個開源的多模態(tài)大型語言模型,通過在注意力和前饋層中嵌入可訓練的視覺專家模塊來彌合模態(tài)之間的差距。
- DRESS:使用自然語言反饋來增強與人類偏好的一致性,將條件強化學習算法擴展到整合不可微的自然語言反饋。
- X-InstructBLIP:引入了一個跨模態(tài)框架,具有指令感知的表示,足以使LLMs能夠處理包括圖像/視頻、音頻和3D在內(nèi)的多種任務(wù)。
- CoDi-2:一個多模態(tài)生成模型,擅長模態(tài)交錯指令遵循、上下文生成和通過多輪對話的用戶體驗交互。
- VILA:在視覺任務(wù)中表現(xiàn)出色的多模態(tài)大型語言模型,展示了卓越的推理能力,同時保持了僅文本的能力。
性能評估
性能評估旨在通過一系列標準化的基準測試來衡量和比較不同MM-LLMs的性能。這些基準測試覆蓋了多種任務(wù),包括但不限于圖像-文本理解、視頻-文本理解和音頻-文本理解。
基準測試選擇
論文中提到了18個主要的VL基準測試,這些基準測試包括OKVQA、IconVQA、VQAv2、GQA等,每個測試都針對特定的多模態(tài)任務(wù)設(shè)計,能夠全面評估模型在不同方面的性能。
評估標準
- 準確性:模型回答問題或完成任務(wù)的準確度。
- 魯棒性:模型在面對不同類型或困難的輸入時的表現(xiàn)。
- 泛化能力:模型對未見數(shù)據(jù)的適應(yīng)能力。
模型表現(xiàn)
論文中對多個MM-LLMs在上述基準測試中的表現(xiàn)進行了比較。例如,對于圖像-文本理解任務(wù),BLIP-2、LLaVA和MiniGPT-4等模型在不同的基準測試上展示了它們的能力。
關(guān)鍵訓練方法
為了提高MM-LLMs的效能,論文總結(jié)了一些關(guān)鍵的訓練方法,包括:
- 數(shù)據(jù)增強:通過增加數(shù)據(jù)的多樣性來提高模型的泛化能力。
- 模態(tài)融合:改進不同模態(tài)之間的信息融合策略,以提高理解能力。
- 指令微調(diào):使用特定任務(wù)的指令來微調(diào)模型,提高其對特定任務(wù)的適應(yīng)性。
未來方向
更通用和智能的模型(More General and Intelligent Models)
- 擴展模態(tài)(Expanding Modalities):探索將MM-LLMs擴展到更多模態(tài),如網(wǎng)頁、熱圖、圖表等,以提高模型的通用性和適用性。
- 多樣化的LLMs(Diversifying LLMs):使用不同類型的LLMs,為特定需求提供選擇最合適模型的靈活性。
- 提高多模態(tài)指令微調(diào)數(shù)據(jù)集質(zhì)量(Improving MM IT Dataset Quality):改進和擴展現(xiàn)有的MM IT數(shù)據(jù)集,以提高模型理解和執(zhí)行用戶指令的有效性。
- 加強多模態(tài)生成能力(Strengthening MM Generation Capabilities):雖然當前的MM-LLMs主要關(guān)注多模態(tài)理解,但提高生成響應(yīng)的質(zhì)量也是重要的研究方向。
更具挑戰(zhàn)性的基準測試(More Challenging Benchmarks)
現(xiàn)有的基準測試可能不足以充分挑戰(zhàn)MM-LLMs的能力,需要構(gòu)建更具挑戰(zhàn)性、更大規(guī)模的基準測試,涵蓋更多模態(tài),并采用統(tǒng)一的評估標準。
移動/輕量級部署(Mobile/Lightweight Deployment)
為了在資源受限的平臺上部署MM-LLMs并實現(xiàn)最佳性能,需要輕量化實現(xiàn)。例如,MobileVLM通過戰(zhàn)略性地縮小LLaMA模型,實現(xiàn)了無縫的即插即用部署。
體現(xiàn)智能(Embodied Intelligence)
體現(xiàn)智能旨在通過有效理解環(huán)境、識別相關(guān)對象、評估空間關(guān)系和制定綜合任務(wù)計劃,復制類似人類的感知和與環(huán)境的交互。
持續(xù)學習(Continual Learning)
由于MM-LLMs的大規(guī)模訓練成本,頻繁重新訓練是不可行的。因此,需要持續(xù)學習機制,使模型能夠靈活地、持續(xù)地利用新數(shù)據(jù),同時避免重新訓練的高成本。
減少幻覺(Mitigating Hallucination)
幻覺問題涉及在沒有視覺線索的情況下生成對不存在對象的文本描述。需要新的方法來減少這些幻覺,提高輸出的可靠性。
偏見和倫理考慮(Biases and Ethical Considerations)
確保MM-LLMs的安全和有效應(yīng)用至關(guān)重要。需要開發(fā)新的基準測試來評估MM-LLMs中的偏見,并設(shè)計更有效和細粒度的對齊方法。
本文轉(zhuǎn)自 AI生成未來 ,作者:羅清雨
