自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

8.3K Stars!《多模態(tài)大語言模型綜述》重大升級

發(fā)布于 2024-4-16 10:05
瀏覽
0收藏

去年 6 月底,我們在 arXiv 上發(fā)布了業(yè)內(nèi)首篇多模態(tài)大語言模型領(lǐng)域的綜述《A Survey on Multimodal Large Language Models》,系統(tǒng)性梳理了多模態(tài)大語言模型的進展和發(fā)展方向,目前論文引用 120+,開源 GitHub 項目獲得 8.3K Stars。自論文發(fā)布以來,我們收到了很多讀者非常寶貴的意見,感謝大家的支持!


  • 論文鏈接:https://arxiv.org/pdf/2306.13549.pdf
  • 項目鏈接(每日更新最新論文):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models


去年以來,我們見證了以 GPT-4V 為代表的多模態(tài)大語言模型(Multimodal Large Language Model,MLLM)的飛速發(fā)展。為此我們對綜述進行了重大升級,幫助大家全面了解該領(lǐng)域的發(fā)展現(xiàn)狀以及潛在的發(fā)展方向。

8.3K Stars!《多模態(tài)大語言模型綜述》重大升級-AI.x社區(qū)

MLLM 發(fā)展脈絡(luò)圖


MLLM 脫胎于近年來廣受關(guān)注的大語言模型(Large Language Model , LLM),在其原有的強大泛化和推理能力基礎(chǔ)上,進一步引入了多模態(tài)信息處理能力。相比于以往的多模態(tài)方法,例如以 CLIP 為代表的判別式,或以 OFA 為代表的生成式,新興的 MLLM 展現(xiàn)出一些典型的特質(zhì):


(1)模型大。MLLM 通常具有數(shù)十億的參數(shù)量,更多的參數(shù)量帶來更多的潛力;

(2)新的訓(xùn)練范式。為了激活巨大參數(shù)量的潛力,MLLM 采用了多模態(tài)預(yù)訓(xùn)練、多模態(tài)指令微調(diào)等新的訓(xùn)練范式,與之匹配的是相應(yīng)的數(shù)據(jù)集構(gòu)造方式和評測方法等。


在這兩種特質(zhì)的加持下,MLLM 涌現(xiàn)出一些以往多模態(tài)模型所不具備的能力,例如給定圖片進行 OCR?Free 的數(shù)學(xué)推理、給定圖片進行故事創(chuàng)作和理解表情包的深層含義等。

8.3K Stars!《多模態(tài)大語言模型綜述》重大升級-AI.x社區(qū)

本綜述主要圍繞 MLLM 的基礎(chǔ)形式、拓展延伸以及相關(guān)研究課題進行展開,具體包括:

  • MLLM 的基礎(chǔ)構(gòu)成與相關(guān)概念,包括架構(gòu)、訓(xùn)練策略、數(shù)據(jù)和評測;
  • MLLM 的拓展延伸,包括輸入輸出粒度、模態(tài)、語言和場景的支持;
  • MLLM 的相關(guān)研究課題,包括多模態(tài)幻覺、多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning,M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought,M-CoT)、LLM 輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)。

架構(gòu)

對于多模態(tài)輸入-文本輸出的典型 MLLM,其架構(gòu)一般包括編碼器、連接器以及 LLM。如要支持更多模態(tài)的輸出(如圖片、音頻、視頻),一般需要額外接入生成器,如下圖所示:

8.3K Stars!《多模態(tài)大語言模型綜述》重大升級-AI.x社區(qū)

MLLM 架構(gòu)圖


其中,模態(tài)編碼器負責(zé)將原始的信息(如圖片)編碼成特征,連接器則進一步將特征處理成LLM 易于理解的形式,即視覺 Token。LLM 則作為“大腦”綜合這些信息進行理解和推理,生成回答。目前,三者的參數(shù)量并不等同,以 Qwen-VL[1]為例,LLM 作為“大腦”參數(shù)量為 7.7B,約占總參數(shù)量的 80.2%,視覺編碼器次之(1.9B,約占 19.7%),而連接器參數(shù)量僅有 0.08B。


對于視覺編碼器而言,增大輸入圖片的分辨率是提升性能的有效方法。一種方式是直接提升分辨率,這種情況下需要放開視覺編碼器進行訓(xùn)練以適應(yīng)更高的分辨率,如 Qwen-VL[1]等。另一種方式是將大分辨率圖片切分成多個子圖,每個子圖以低分辨率送入視覺編碼器中,這樣可以間接提升輸入的分辨率,如 Monkey[2]等工作。


對于預(yù)訓(xùn)練的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支持英文,而后兩者中英雙語支持得更好。就性能影響而言,加大 LLM 的參數(shù)量可以帶來顯著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上進行實驗,發(fā)現(xiàn)提升LLM 大小可以帶來各 benchmark 上的顯著提升,在 34B 的模型上更涌現(xiàn)出 zero-shot 的中文能力。除了直接增大 LLM 參數(shù)量,近期火熱的 MoE 架構(gòu)則提供了更高效實現(xiàn)的可能性,即通過稀疏計算的方式,在不增大實際計算參數(shù)量的前提下提高總的模型參數(shù)量。


相對前兩者來說,連接器的重要性略低。例如,MM1[7]通過實驗發(fā)現(xiàn),連接器的類型不如視覺 token 數(shù)量(決定之后 LLM 可用的視覺信息)及圖片的分辨率(決定視覺編碼器的輸入信息量)重要。

數(shù)據(jù)與訓(xùn)練

MLLM 的訓(xùn)練大致可以劃分為預(yù)訓(xùn)練階段、指令微調(diào)階段對齊微調(diào)階段。預(yù)訓(xùn)練階段主要通過大量配對數(shù)據(jù)將圖片信息對齊到 LLM 的表征空間,即讓 LLM 讀懂視覺 Token。指令微調(diào)階段則通過多樣化的各種類型的任務(wù)數(shù)據(jù)提升模型在下游任務(wù)上的性能,以及模型理解和服從指令的能力。對齊微調(diào)階段一般使用強化學(xué)習(xí)技術(shù)使模型對齊人類價值觀或某些特定需求(如更少幻覺)。


早期工作在第一階段主要使用粗粒度的圖文對數(shù)據(jù),如 LAION-5B,這些數(shù)據(jù)主要來源于互聯(lián)網(wǎng)上的圖片及其附帶的文字說明,因此具有規(guī)模大(數(shù) 10 億規(guī)模)但噪聲多、文本短的特點,容易影響對齊的效果。后來的工作則探索使用更干凈、文本內(nèi)容更豐富的數(shù)據(jù)做對齊。如 ShareGPT4V[8]使用 GPT-4V 生成的詳細描述來做更細粒度的對齊,在一定程度上緩解了對齊不充分的問題,獲得了更好的性能。但由于 GPT-4V 是收費的,這種類型的數(shù)據(jù)規(guī)模通常較小(數(shù)百萬規(guī)模)。此外,由于數(shù)據(jù)規(guī)模受限,其包含的世界知識也是有限的,比如是否能夠識別出圖像中的建筑為廣州塔。此類世界知識通常儲備于大規(guī)模的粗粒度圖文對中。


第二階段的微調(diào)數(shù)據(jù)一方面可以來源于各種任務(wù)的數(shù)據(jù),如 VQA 數(shù)據(jù)、OCR 數(shù)據(jù)等,也可以來源于 GPT-4V 生成的數(shù)據(jù),如問答對。雖然后者一般能夠生成更復(fù)雜、更多樣化的指令數(shù)據(jù),但這種方式也顯著地增加了成本。值得一提的是,第二階段的訓(xùn)練中一般還會混合部分純文本的對話數(shù)據(jù),這類數(shù)據(jù)可以視為正則化的手段,保留 LLM 原有的能力與內(nèi)嵌知識。


第三階段的數(shù)據(jù)主要是針對于回答的偏好數(shù)據(jù)。這類數(shù)據(jù)通常由人工標注收集,因而成本較高。近期出現(xiàn)一些工作使用自動化的方法對來自不同模型的回復(fù)進行偏好排序,如 Silkie[9]通過調(diào)用 GPT-4V 來收集偏好數(shù)據(jù)。

其他技術(shù)方向

除了提升模型的基礎(chǔ)能力(如支持的輸入/輸出形式、性能指標)外,還有一些有意思的問題以及待探索的方向。本綜述中主要介紹了多模態(tài)幻覺、多模態(tài)上下文學(xué)習(xí)(Multimodal In?Context Learning,M-ICL)、多模態(tài)思維鏈(Multimodal Chain of Thought,M-CoT)和 LLM 輔助的視覺推理(LLM-Aided Visual Reasoning,LAVR)等。


多模態(tài)幻覺的研究主要關(guān)注模型生成的回答與圖片內(nèi)容不符的問題。視覺和文本本質(zhì)上是異構(gòu)的信息,完全對齊兩者本身就具有相當大的挑戰(zhàn)。增大圖像分辨率和提升訓(xùn)練數(shù)據(jù)質(zhì)量是降低多模態(tài)幻覺的兩種最直觀的方式,此外我們?nèi)匀恍枰谠砩咸剿鞫嗄B(tài)幻覺的成因和解法。例如,當前的視覺信息的 Token 化方法、多模態(tài)對齊的范式、多模態(tài)數(shù)據(jù)和 LLM 存儲知識的沖突等對多模態(tài)幻覺的影響仍需深入研究。


多模態(tài)上下文學(xué)習(xí)技術(shù)為少樣本學(xué)習(xí)方法,旨在使用少量的問答樣例提示模型,提升模型的few-shot 性能。提升性能的關(guān)鍵在于讓模型有效地關(guān)注上下文,并將內(nèi)在的問題模式泛化到新的問題上。以 Flamingo[10]為代表的工作通過在圖文交錯的數(shù)據(jù)上訓(xùn)練來提升模型關(guān)注上下文的能力。目前對于多模態(tài)上下文學(xué)習(xí)的研究還比較初步,有待進一步探索。


多模態(tài)思維鏈的基本思想是通過將復(fù)雜的問題分解為較簡單的子問題,然后分別解決并匯總。相較于純文本的推理,多模態(tài)的推理涉及更多的信息來源和更復(fù)雜的邏輯關(guān)系,因此要復(fù)雜得多。當前該方面的工作也比較少。


LLM 輔助的視覺推理方法探索如何利用 LLM 強大的內(nèi)嵌知識與能力,并借助其他工具,設(shè)計各種視覺推理系統(tǒng),解決各種現(xiàn)實問題。相比于通過端到端訓(xùn)練獲得單一模型,這類方法一般關(guān)注如何通過免訓(xùn)練的方式擴展和加強 LLM 的能力,從而構(gòu)建一個綜合性的系統(tǒng)。

挑戰(zhàn)和未來方向

針對 MLLM 的研究現(xiàn)狀,我們進行了深入思考,將挑戰(zhàn)與可能的未來發(fā)展方向總結(jié)如下:

  • 現(xiàn)有 MLLM 處理多模態(tài)長上下文的能力有限,導(dǎo)致模型在長視頻理解、圖文交錯內(nèi)容理解等任務(wù)中面臨巨大挑戰(zhàn)。以 Gemini 1.5 Pro 為代表的 MLLM 正在掀起長視頻理解的浪潮,而多模態(tài)圖文交錯閱讀理解(即長文檔中既有圖像也有文本)則相對空白,很可能會成為接下來的研究熱點。
  • MLLM 服從復(fù)雜指令的能力不足。例如,GPT-4V 可以理解復(fù)雜的指令來生成問答對甚至包含推理信息,但其他模型這方面的能力則明顯不足,仍有較大的提升空間。
  • MLLM 的上下文學(xué)習(xí)和思維鏈研究依然處于初步階段,相關(guān)的能力也較弱,亟需相關(guān)底層機制以及能力提升的研究探索。
  • 開發(fā)基于 MLLM 的智能體是一個研究熱點。要實現(xiàn)這類應(yīng)用,需要全面提升模型的感知、推理和規(guī)劃能力。
  • 安全問題。MLLM 容易受設(shè)計的惡意攻擊影響,生成有偏的或不良的回答。該方面的相關(guān)研究也仍然欠缺。
  • 目前 MLLM 在訓(xùn)練時通常都會解凍 LLM,雖然在訓(xùn)練過程中也會加入部分單模態(tài)的文本訓(xùn)練數(shù)據(jù),但大規(guī)模的多模態(tài)和單模態(tài)數(shù)據(jù)共同訓(xùn)練時究竟對彼此互有增益還是互相損害仍然缺乏系統(tǒng)深入的研究。

?

更詳細內(nèi)容請閱讀

  • 論文鏈接:https://arxiv.org/pdf/2306.13549.pdf
  • 項目鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models


本文轉(zhuǎn)自 AI生成未來 ,作者:AINLP


原文鏈接:??https://mp.weixin.qq.com/s/yRcaw0UW1VOYUtktPzsw2g??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦