自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大型語言模型(MLLM)綜述 原創(chuàng) 精華

發(fā)布于 2024-7-1 13:16
瀏覽
0收藏

摘要—最近,以GPT-4V為代表的多模態(tài)大型語言模型(MLLM)已成為新興的研究熱點(diǎn),它使用強(qiáng)大的大型語言模型(LLMs)作為“大腦”來執(zhí)行多模態(tài)任務(wù)。MLLM出人意料的涌現(xiàn)能力,如基于圖像編寫故事和無需OCR的數(shù)學(xué)推理,是傳統(tǒng)多模態(tài)方法中罕見的,這表明了一條通往人工通用智能的潛在路徑。為此,學(xué)術(shù)界和工業(yè)界都致力于開發(fā)能夠與GPT-4V競爭甚至超越的MLLM,以驚人的速度推動研究的極限。在本文中,我們旨在追蹤并總結(jié)MLLM的最新進(jìn)展。首先,我們介紹了MLLM的基本公式,并概述了與其相關(guān)的概念,包括架構(gòu)、訓(xùn)練策略和數(shù)據(jù),以及評估。然后,我們介紹了關(guān)于如何擴(kuò)展MLLM以支持更細(xì)粒度、模態(tài)、語言和場景的研究主題。我們繼續(xù)討論多模態(tài)幻覺和擴(kuò)展技術(shù),包括多模態(tài)ICL(M-ICL)、多模態(tài)CoT(M-CoT)和LLM輔助視覺推理(LAVR)。為了結(jié)束本文,我們討論了現(xiàn)有的挑戰(zhàn)并指出了有希望的研究方向。鑒于MLLM時(shí)代才剛剛開始,我們將不斷更新這份綜述,并希望它能激發(fā)更多的研究。相關(guān)的GitHub鏈接收集了最新的論文,可在??https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models???找到。

(注釋:"無需OCR的數(shù)學(xué)推理"指的是系統(tǒng)能夠直接理解和處理數(shù)學(xué)內(nèi)容,而無需首先通過光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)將手寫或印刷的數(shù)學(xué)符號轉(zhuǎn)換為機(jī)器可讀的格式。OCR是一種將圖像中的文本轉(zhuǎn)換為機(jī)器編碼文本的技術(shù),它廣泛應(yīng)用于將紙質(zhì)文檔數(shù)字化。然而,OCR在處理復(fù)雜的數(shù)學(xué)符號和公式時(shí)可能會遇到困難,因?yàn)檫@些符號的結(jié)構(gòu)和形狀可能與普通字母數(shù)字字符不同,OCR算法可能難以準(zhǔn)確識別。模型能夠跳過將數(shù)學(xué)內(nèi)容轉(zhuǎn)換為文本的步驟,直接在視覺層面上處理數(shù)學(xué)信息,這可以提高處理速度和準(zhǔn)確性,并且減少因OCR錯誤而導(dǎo)致的問題。

多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning,M-ICL)結(jié)合了自然語言處理(NLP)和計(jì)算機(jī)視覺(CV)等領(lǐng)域的知識,使模型能夠理解和處理包含多種類型信息(如文本、圖像、音頻等)的數(shù)據(jù)。上下文學(xué)習(xí)是指模型利用給定上下文中的信息來指導(dǎo)其學(xué)習(xí)和推理過程。在M-ICL中,這通常意味著模型會考慮輸入的多模態(tài)信息,以及它們之間的關(guān)系和上下文,來生成輸出或做出決策。)

1 引言

近年來,大型語言模型(LLMs)取得了顯著的進(jìn)展[1]、[2]、[3]、[4]、[5]。通過擴(kuò)大數(shù)據(jù)規(guī)模和模型規(guī)模,這些LLMs展現(xiàn)出了非凡的涌現(xiàn)能力,通常包括指令跟隨[5]、[6]、上下文學(xué)習(xí)(ICL)[7]和思維鏈(CoT)[8]。盡管LLMs在大多數(shù)自然語言處理(NLP)任務(wù)上展示了驚人的零樣本/少樣本推理性能,但它們本質(zhì)上對視覺是“盲目”的,因?yàn)樗鼈冎荒芾斫怆x散的文本。同時(shí),大型視覺模型(LVMs)可以清晰地“看”[9]、[10]、[11]、[12],但通常在推理上落后。

鑒于這種互補(bǔ)性,LLM和LVM相互靠近,引領(lǐng)了多模態(tài)大型語言模型(MLLM)的新領(lǐng)域。正式來說,它指的是基于LLM的模型,具有接收、推理和輸出多模態(tài)信息的能力。在MLLM之前,已經(jīng)有很多工作致力于多模態(tài)性,可以分為判別性[13]、[14]、[15]和生成性[16]、[17]、[18]范式。CLIP[13]作為前者的代表,將視覺和文本信息投影到統(tǒng)一的表示空間,為下游多模態(tài)任務(wù)搭建了橋梁。相比之下,OFA[16]是后者的代表,它以序列到序列的方式統(tǒng)一多模態(tài)任務(wù)。根據(jù)序列操作,MLLM可以被歸類為后者,但與傳統(tǒng)對應(yīng)物相比,它表現(xiàn)出兩個(gè)代表性特征:(1)MLLM基于具有十億級參數(shù)規(guī)模的LLM,這在以前的模型中是不可用的。

(2)MLLM使用新的訓(xùn)練范式來釋放其全部潛力,例如使用多模態(tài)指令調(diào)整[19]、[20]來鼓勵模型遵循新的指令。

憑借這兩個(gè)特征,MLLM展現(xiàn)出新的能力,例如基于圖像編寫網(wǎng)站代碼[21],理解梗的深層含義[22],以及無需OCR的數(shù)學(xué)推理[23]。

自從GPT-4[3]發(fā)布以來,由于它展示的驚人多模態(tài)示例,MLLMs的研究熱潮不斷。快速發(fā)展是由學(xué)術(shù)界和工業(yè)界的努力推動的。MLLMs的初步研究集中在基于文本提示和圖像[20]、視頻[25]、音頻[27]的文本內(nèi)容生成上。隨后的工作已經(jīng)擴(kuò)展了能力或使用場景,包括:(1)更好的粒度支持。開發(fā)了更精細(xì)的對用戶提示的控制,以支持通過框[28]或單擊[29]特定對象的特定區(qū)域。(2)增強(qiáng)的輸入和輸出模態(tài)支持[30]、[31],如圖像、視頻、音頻和點(diǎn)云。除了輸入,像NExT-GPT[32]這樣的項(xiàng)目進(jìn)一步支持不同模態(tài)的輸出。(3)改進(jìn)的語言支持。已經(jīng)做出了努力,將MLLMs的成功擴(kuò)展到其他語言(例如中文)上,這些語言的訓(xùn)練語料相對有限[33]、[34]。(4)擴(kuò)展到更多領(lǐng)域和使用場景。一些研究將MLLMs的強(qiáng)大能力轉(zhuǎn)移到其他領(lǐng)域,如醫(yī)學(xué)圖像理解[35]、[36]、[37]和文檔解析[38]、[39]、[40]。此外,開發(fā)了多模態(tài)代理以協(xié)助現(xiàn)實(shí)世界交互,例如具身代理[41]、[42]和GUI代理[43]、[44]、[45]。圖1展示了MLLM的時(shí)間線。

多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)


圖1:代表性多模態(tài)大型語言模型(MLLMs)的時(shí)間線。我們正在見證這一領(lǐng)域的迅速發(fā)展。更多的工作可以在我們發(fā)布的GitHub頁面上找到,該頁面每天都在更新。

鑒于該領(lǐng)域的快速發(fā)展和有希望的結(jié)果,我們編寫了這份綜述,為研究人員提供了對MLLMs的基本思想、主要方法和當(dāng)前進(jìn)展的把握。請注意,我們主要關(guān)注視覺和語言模態(tài),但也包括涉及視頻和音頻等其他模態(tài)的工作。具體來說,我們涵蓋了MLLMs最重要的方面,并提供相應(yīng)的總結(jié),并開放了一個(gè)將實(shí)時(shí)更新的GitHub頁面。據(jù)我們所知,這是關(guān)于MLLM的第一份綜述。

綜述的后續(xù)部分結(jié)構(gòu)如下:綜述首先全面回顧了MLLMs的基本方面,包括(1)主流架構(gòu)(§2);(2)完整的訓(xùn)練策略和數(shù)據(jù)配方(§3);(3)常見的性能評估實(shí)踐(§4)。然后,我們深入討論了一些關(guān)于MLLMs的重要話題,每個(gè)話題都集中在一個(gè)主要問題上:(1)哪些方面可以進(jìn)一步改進(jìn)或擴(kuò)展(§5)?(2)如何緩解多模態(tài)幻覺問題(§6)?綜述繼續(xù)介紹了三種關(guān)鍵技術(shù)(§7),每種技術(shù)都專門用于特定場景:MICL(§7.1)是一種有效的技術(shù),通常在推理階段使用,以提高少樣本性能。另一個(gè)重要的技術(shù)是M-CoT(§7.2),通常用于復(fù)雜的推理任務(wù)。然后,我們概述了一個(gè)一般性的想法,開發(fā)基于LLM的系統(tǒng)來解決復(fù)合推理任務(wù)或解決常見用戶查詢(§7.3)。最后,我們以總結(jié)和潛在研究方向結(jié)束我們的綜述。

2 架構(gòu)

一個(gè)典型的多模態(tài)大型語言模型(MLLM)可以抽象為三個(gè)模塊,即預(yù)訓(xùn)練的模態(tài)編碼器、預(yù)訓(xùn)練的大型語言模型(LLM),以及連接它們的模態(tài)接口。類比于人類,模態(tài)編碼器如圖像/音頻,編碼器是接收和預(yù)處理光學(xué)/聲學(xué)信號的人類眼睛/耳朵,而LLM就像理解并推理處理信號的人類大腦。在兩者之間,模態(tài)接口用于對齊不同的模態(tài)。一些MLLM還包括一個(gè)生成器來輸出除文本之外的其他模態(tài)。架構(gòu)的圖表在圖2中繪制。在這一部分,我們依次介紹每個(gè)模塊。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

圖2:典型多模態(tài)大型語言模型(MLLM)架構(gòu)的示意圖。它包括一個(gè)編碼器、一個(gè)連接器和一個(gè)大型語言模型(LLM)??蛇x的生成器可以附加到LLM上,以生成除文本之外的更多模態(tài)。編碼器接收圖像、音頻或視頻并輸出特征,這些特征由連接器處理,以便LLM能更好地理解。大致有三種類型的連接器:基于投影的、基于查詢的和基于融合的連接器。前兩種類型采用令牌級融合,將特征處理成令牌,與文本令牌一起發(fā)送,而最后一種類型在LLM內(nèi)部實(shí)現(xiàn)了特征級融合。

(注釋:一個(gè)典型的多模態(tài)大型語言模型(MLLM)架構(gòu)的組成部分和它們之間的工作流程。

圖片上半部分:

1. 編碼器(Encoder):編碼器是處理輸入數(shù)據(jù)的組件,它可以接收多種模態(tài)的輸入,如圖像、音頻或視頻。編碼器的任務(wù)是將這些原始的多模態(tài)數(shù)據(jù)轉(zhuǎn)換成模型可以理解的特征表示。

2. 連接器(Connector):連接器是連接編碼器輸出和大型語言模型(LLM)的橋梁。它的主要作用是將編碼器輸出的特征進(jìn)一步處理,使其能夠與LLM的輸入格式兼容,從而讓LLM能夠更好地理解這些特征。

3. 大型語言模型(LLM):LLM是MLLM的核心,通常是一個(gè)預(yù)訓(xùn)練的語言模型,負(fù)責(zé)處理和生成文本。它能夠根據(jù)輸入的文本和其他模態(tài)的特征,進(jìn)行語言理解、生成或推理等任務(wù)。

4. 生成器(Generator)(可選):生成器是一個(gè)可選組件,它可以附加到LLM上,用于生成除文本之外的其他模態(tài)輸出,如圖像、音頻或視頻。

圖片下半部分,連接器主要分為三種類型:

- 基于投影的連接器(Projection-based):這種連接器將編碼器輸出的特征投影到與LLM的詞嵌入相同的維度空間,使得特征可以直接與文本令牌一起被LLM處理。

- 基于查詢的連接器(Query-based):這種連接器使用一組可學(xué)習(xí)的查詢令牌來動態(tài)地從編碼器輸出的特征中提取信息。

- 基于融合的連接器(Fusion-based):這種連接器在LLM內(nèi)部實(shí)現(xiàn)特征級別的融合,允許文本特征和視覺特征在模型內(nèi)部進(jìn)行更深入的交互和整合。

整個(gè)架構(gòu)的目的是實(shí)現(xiàn)對多模態(tài)輸入的有效處理和理解,以及在此基礎(chǔ)上進(jìn)行的語言生成或推理任務(wù)。)

2.1 模態(tài)編碼器

編碼器將原始信息(如圖像或音頻)壓縮成更緊湊的表示形式。與其從頭開始訓(xùn)練,更常見的方法是使用已經(jīng)與其他模態(tài)對齊的預(yù)訓(xùn)練編碼器。例如,CLIP [13]結(jié)合了一個(gè)通過在圖像-文本對上大規(guī)模預(yù)訓(xùn)練而與文本語義對齊的視覺編碼器。因此,使用這種最初已經(jīng)預(yù)對齊的編碼器與LLM通過對齊預(yù)訓(xùn)練(見§3.1)對齊更容易。

表1:常用圖像編碼器的總結(jié)。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

常用的圖像編碼器系列在表1中總結(jié)。除了普通的CLIP圖像編碼器[13],一些工作還探索使用其他變體。例如,MiniGPT-4 [21]采用了EVA-CLIP [47]、[48](ViT-G/14)編碼器,該編碼器通過改進(jìn)的訓(xùn)練技術(shù)進(jìn)行訓(xùn)練。相比之下,Osprey [29]引入了基于卷積的ConvNext-L編碼器[46]以利用更高分辨率和多級特征。一些工作還探索了無編碼器架構(gòu)。例如,F(xiàn)uyu-8b [49]的圖像塊在發(fā)送到LLM之前直接被投影。因此,模型自然支持靈活的圖像分辨率輸入。在選擇編碼器時(shí),人們通常會考慮分辨率、參數(shù)大小和預(yù)訓(xùn)練語料庫等因素。

值得注意的是,許多工作已經(jīng)通過實(shí)證驗(yàn)證,使用更高分辨率可以實(shí)現(xiàn)顯著的性能提升[34]、[50]、[51]、[52]。擴(kuò)大輸入分辨率的方法可以分為直接縮放和塊分割方法。直接縮放的方式將更高分辨率的圖像輸入到編碼器,通常涉及進(jìn)一步調(diào)整編碼器[34]或用更高分辨率的預(yù)訓(xùn)練編碼器替換[50]。類似地,CogAgent [44]使用雙編碼器機(jī)制,其中兩個(gè)編碼器分別處理高分辨率和低分辨率圖像。通過交叉注意力將高分辨率特征注入到低分辨率分支中。塊分割方法將高分辨率圖像切成塊,并重用低分辨率編碼器。例如,Monkey [51]和SPHINX [53]將大圖像分成較小的塊,并將子圖像與下采樣的高分辨率圖像一起發(fā)送到圖像編碼器,其中子圖像和低分辨率圖像分別捕獲局部和全局特征。相比之下,參數(shù)大小和訓(xùn)練數(shù)據(jù)組成與輸入分辨率相比不那么重要,這是通過實(shí)證研究發(fā)現(xiàn)的[52]。

其他模態(tài)也有類似的編碼器。例如,Pengi [27]使用CLAP [54]模型作為音頻編碼器。ImageBind-LLM [30]使用ImageBind [55]編碼器,支持編碼圖像、文本、音頻、深度、熱成像和慣性測量單元(IMU)數(shù)據(jù)。配備強(qiáng)大的編碼器,ImageBind-LLM可以響應(yīng)多種模態(tài)的輸入。

2.2 預(yù)訓(xùn)練LLM

與其從頭開始訓(xùn)練一個(gè)LLM,更有效和實(shí)用的方法是從一個(gè)預(yù)訓(xùn)練的模型開始。通過在網(wǎng)絡(luò)語料庫上進(jìn)行巨大的預(yù)訓(xùn)練,LLM已經(jīng)嵌入了豐富的世界知識,并展示了強(qiáng)大的泛化和推理能力。

我們在表2中總結(jié)了常用的和公開可用的LLM。值得注意的是,大多數(shù)LLM屬于因果解碼器類別,遵循GPT-3 [7]。其中,F(xiàn)lanT5 [56]系列是在BLIP-2 [59]和InstructBLIP [60]等工作中使用的相對早期的LLM。LLaMA系列[5]、[57]和Vicuna家族[4]是吸引了大量學(xué)術(shù)關(guān)注的代表性開源LLM。由于這兩個(gè)LLM主要在英文語料庫上預(yù)訓(xùn)練,它們在多語言支持上受到限制,例如中文。相比之下,Qwen [58]是一個(gè)支持中文和英文的雙語LLM。

表2:常用開源大型語言模型的總結(jié)。en、zh、fr和de分別代表英語、中文、法語和德語。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

值得注意的是,擴(kuò)大LLM的參數(shù)大小也會帶來額外的收益,類似于增加輸入分辨率的情況。具體來說,Liu等人[50]、[61]發(fā)現(xiàn),將LLM從7B簡單擴(kuò)大到13B在各種基準(zhǔn)測試上帶來了全面的改進(jìn)。此外,當(dāng)使用34B LLM時(shí),模型顯示出在訓(xùn)練期間僅使用英文多模態(tài)數(shù)據(jù)時(shí)的零樣本中文能力。Lu等人[62]通過將LLM從13B擴(kuò)大到35B和65B/70B,發(fā)現(xiàn)更大的模型大小在專門為MLLM設(shè)計(jì)的基準(zhǔn)測試上帶來了一致的收益。

也有一些工作使用較小的LLM以便于在移動設(shè)備上部署。例如,MobileVLM系列[63]、[64]使用縮小的LLaMA [5](稱為MobileLLaMA 1.4B/2.7B),實(shí)現(xiàn)在移動處理器上的高效推理。

最近,對LLM的專家混合(MoE)架構(gòu)的探索引起了越來越多的關(guān)注[65]、[66]、[67]。與密集模型相比,稀疏架構(gòu)通過選擇性激活參數(shù),實(shí)現(xiàn)了在不增加計(jì)算成本的情況下擴(kuò)大總參數(shù)大小的能力。實(shí)證上,MM1 [52]和MoE-LLaVA [68]發(fā)現(xiàn)MoE實(shí)現(xiàn)在幾乎所有基準(zhǔn)測試上的性能優(yōu)于密集對應(yīng)物。

2.3 模態(tài)接口

由于LLM只能感知文本,因此有必要彌合自然語言與其他模態(tài)之間的差距。然而,以端到端的方式訓(xùn)練一個(gè)大型多模態(tài)模型將耗費(fèi)巨大。更實(shí)際的方法是在預(yù)訓(xùn)練的視覺編碼器和LLM之間引入一個(gè)可學(xué)習(xí)的連接器。另一種方法是利用專家模型,如圖像字幕模型,將圖像翻譯成語言,然后將語言發(fā)送到LLM。

可學(xué)習(xí)的連接器。它負(fù)責(zé)彌合不同模態(tài)之間的差距。具體來說,該模塊將信息投影到LLM可以高效理解的空間中。根據(jù)多模態(tài)信息的融合方式,大致有兩種實(shí)現(xiàn)此類接口的方法,即令牌級和特征級融合。

對于令牌級融合,編碼器輸出的特征被轉(zhuǎn)換為令牌,并與文本令牌連接,然后發(fā)送到LLM。一個(gè)常見且可行的解決方案是利用一組可學(xué)習(xí)的查詢令牌以基于查詢的方式提取信息[69],這首先在BLIP-2 [59]中實(shí)現(xiàn),隨后被多種工作[26]、[60]、[70]繼承。這種Q-Former風(fēng)格的方法是將視覺令牌壓縮成較少數(shù)量的表示向量。相反,一些方法簡單地使用基于MLP的接口來彌合模態(tài)差距[20]、[37]、[71]、[72]。例如,LLaVA系列采用一個(gè)/兩個(gè)線性MLP[20]、[50]來投影視覺令牌,并將特征維度與詞嵌入對齊。

在相關(guān)話題上,MM1 [52]對連接器的設(shè)計(jì)選擇進(jìn)行了消融,并發(fā)現(xiàn)對于令牌級融合,模態(tài)適配器的類型遠(yuǎn)不如視覺令牌的數(shù)量和輸入分辨率重要。盡管如此,Zeng等人[73]比較了令牌級和特征級融合的性能,并實(shí)證揭示了令牌級融合變體在VQA基準(zhǔn)測試中的性能更好。關(guān)于性能差距,作者建議交叉注意力模型可能需要更復(fù)雜的超參數(shù)搜索過程才能達(dá)到可比的性能。

作為另一條線,特征級融合插入額外的模塊,使文本特征和視覺特征之間能夠進(jìn)行深度交互和融合。例如,F(xiàn)lamingo [74]在LLM的凍結(jié)Transformer層之間插入額外的交叉注意力層,從而用外部視覺線索增強(qiáng)語言特征。類似地,CogVLM [75]在每個(gè)Transformer層中插入一個(gè)視覺專家模塊,以實(shí)現(xiàn)視覺和語言特征之間的雙重交互和融合。為了更好的性能,引入模塊的QKV權(quán)重矩陣是從預(yù)訓(xùn)練的LLM初始化的。類似地,LLaMA-Adapter [76]在Transformer層中引入可學(xué)習(xí)的提示。這些提示首先嵌入視覺知識,然后作為前綴與文本特征連接。

在參數(shù)大小方面,可學(xué)習(xí)的接口通常與編碼器和LLM相比只占一小部分。以Qwen-VL [34]為例,Q-Former的參數(shù)大小約為0.08B,占整個(gè)參數(shù)的不到1%,而編碼器和LLM分別占約19.8%(1.9B)和80.2%(7.7B)。

專家模型。除了可學(xué)習(xí)的接口外,使用專家模型,如圖像字幕模型,也是彌合模態(tài)差距的一種可行方式[77]、[78]、[79]、[80]。基本思想是在不訓(xùn)練的情況下將多模態(tài)輸入轉(zhuǎn)換為語言。通過這種方式,大型語言模型(LLMs)可以通過轉(zhuǎn)換后的語言理解多模態(tài)性。例如,VideoChat-Text[25]使用預(yù)訓(xùn)練的視覺模型提取動作等視覺信息,并使用語音識別模型豐富描述。盡管使用專家模型的方法很直接,但可能不如采用可學(xué)習(xí)的接口那樣靈活。將外來模態(tài)轉(zhuǎn)換為文本會導(dǎo)致信息丟失。例如,將視頻轉(zhuǎn)換為文本描述會扭曲空間-時(shí)間關(guān)系[25]。

3 訓(xùn)練策略和數(shù)據(jù)

一個(gè)成熟的多模態(tài)大型語言模型(MLLM)經(jīng)歷三個(gè)訓(xùn)練階段,即預(yù)訓(xùn)練、指令調(diào)整和對齊調(diào)整。每個(gè)訓(xùn)練階段需要不同類型的數(shù)據(jù),并實(shí)現(xiàn)不同的目標(biāo)。在本節(jié)中,我們討論訓(xùn)練目標(biāo),以及每個(gè)訓(xùn)練階段的數(shù)據(jù)收集和特點(diǎn)。

3.1 預(yù)訓(xùn)練

3.1.1 訓(xùn)練細(xì)節(jié)

作為第一階段的訓(xùn)練,預(yù)訓(xùn)練主要旨在對齊不同的模態(tài)并學(xué)習(xí)多模態(tài)世界知識。預(yù)訓(xùn)練階段通常涉及大規(guī)模文本配對數(shù)據(jù),例如字幕數(shù)據(jù)。通常,字幕對以自然語言句子描述圖像/音頻/視頻。

這里,我們考慮一個(gè)常見的場景,即MLLMs被訓(xùn)練以對齊視覺與文本。如表3所示,給定一張圖像,模型被訓(xùn)練以自回歸方式預(yù)測圖像的字幕,遵循標(biāo)準(zhǔn)的交叉熵?fù)p失。預(yù)訓(xùn)練的一個(gè)常見方法是保持預(yù)訓(xùn)練模塊(例如視覺編碼器和LLMs)固定,并訓(xùn)練一個(gè)可學(xué)習(xí)的接口[20]、[35]、[72]。這個(gè)想法是在不丟失預(yù)訓(xùn)練知識的情況下對齊不同的模態(tài)。一些方法[34]、[81]、[82]也解除了更多模塊(例如視覺編碼器)的凍結(jié),以使更多的可訓(xùn)練參數(shù)用于對齊。需要注意的是,訓(xùn)練方案與數(shù)據(jù)質(zhì)量密切相關(guān)。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

表3:一個(gè)用于結(jié)構(gòu)化標(biāo)題數(shù)據(jù)的簡化模板。{<image>} 是視覺標(biāo)記的占位符,{caption} 是圖片的標(biāo)題。請注意,只有標(biāo)記為紅色的部分用于損失計(jì)算。

對于簡短和嘈雜的字幕數(shù)據(jù),可以采用較低分辨率(例如224)以加快訓(xùn)練過程,而對于更長和更清潔的數(shù)據(jù),最好使用更高的分辨率(例如448或更高)以減少幻覺。此外,ShareGPT4V[83]發(fā)現(xiàn),在預(yù)訓(xùn)練階段使用高質(zhì)量的字幕數(shù)據(jù)時(shí),解鎖視覺編碼器促進(jìn)了更好的對齊。

3.1.2 數(shù)據(jù)

預(yù)訓(xùn)練數(shù)據(jù)主要有兩個(gè)目的,即(1)對齊不同的模態(tài)和(2)提供世界知識。預(yù)訓(xùn)練語料庫可以根據(jù)粒度分為粗粒度和細(xì)粒度數(shù)據(jù),我們將依次介紹。我們在表4中總結(jié)了常用的預(yù)訓(xùn)練數(shù)據(jù)集。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

粗粒度字幕數(shù)據(jù)有一些共同的典型特征:(1)數(shù)據(jù)量大,因?yàn)闃颖就ǔ碓从诨ヂ?lián)網(wǎng)。(2)由于網(wǎng)絡(luò)爬取的特性,字幕通常簡短且嘈雜,因?yàn)樗鼈儊碜跃W(wǎng)絡(luò)圖像的alt文本。這些數(shù)據(jù)可以通過自動工具進(jìn)行清洗和過濾,例如,使用CLIP[13]模型過濾掉圖像-文本對的相似度低于預(yù)定義閾值的樣本。接下來,我們介紹一些代表性的粗粒度數(shù)據(jù)集。

CC. CC-3M[84]是一個(gè)包含3.3M圖像-字幕對的網(wǎng)絡(luò)規(guī)模字幕數(shù)據(jù)集,原始描述來源于與圖像關(guān)聯(lián)的alt文本。作者設(shè)計(jì)了一個(gè)復(fù)雜的數(shù)據(jù)清洗流程:(1)對于圖像,過濾掉不適當(dāng)?shù)膬?nèi)容或縱橫比的圖像。(2)對于文本,使用NLP工具獲取文本注釋,并根據(jù)設(shè)計(jì)好的啟發(fā)式規(guī)則過濾樣本。(3)對于圖像-文本對,通過分類器給圖像分配標(biāo)簽。如果文本注釋與圖像標(biāo)簽不重疊,相應(yīng)的樣本將被丟棄。CC-12M[85]是CC-3M的后續(xù)工作,包含12.4M圖像-字幕對。與之前的工作相比,CC-12M放寬并簡化了數(shù)據(jù)收集流程,因此收集了更多的數(shù)據(jù)。

SBU字幕[86]。它是一個(gè)包含1M圖像-文本對的帶字幕的照片數(shù)據(jù)集,圖像和描述來自Flickr。具體來說,通過使用大量查詢詞查詢Flickr網(wǎng)站獲得一組初始圖像。附加在圖像上的描述因此作為字幕。然后,為確保描述與圖像相關(guān),保留的圖像滿足這些要求:(1)圖像的描述長度令人滿意,由觀察決定。(2)圖像的描述至少包含預(yù)定義詞匯列表中的2個(gè)詞和通常暗示空間關(guān)系的命題詞(例如“on”,“under”)。

LAION。這個(gè)系列是大型網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集,圖像從互聯(lián)網(wǎng)上爬取,并將相關(guān)的alt文本作為字幕。為了過濾圖像-文本對,執(zhí)行了以下步驟:(1)文本長度過短或圖像大小太小或太大的被丟棄。(2)基于URL的圖像去重。(3)提取CLIP[13]嵌入圖像和文本,并使用嵌入丟棄可能的非法內(nèi)容以及嵌入之間余弦相似度低的圖像-文本對。在這里,我們簡要總結(jié)一些典型的變體:

? LAION-5B[87]:這是一個(gè)研究用數(shù)據(jù)集,包含5.85B圖像-文本對。數(shù)據(jù)集是多語言的,有一個(gè)2B的英語子集。

? LAION-COCO[88]:它包含從LAION-5B的英語子集提取的600M圖像。字幕是合成的,使用BLIP[89]生成各種圖像字幕,并使用CLIP[13]選擇最適合圖像的字幕。

COYO-700M[90]。它包含747M圖像-文本對,這些是從CommonCrawl中提取的。為了數(shù)據(jù)過濾,作者設(shè)計(jì)了以下策略:(1)對于圖像,過濾掉不適當(dāng)?shù)拇笮?、?nèi)容、格式或縱橫比的圖像。此外,基于pHash值過濾圖像,以去除與公共數(shù)據(jù)集(如ImageNet和MS-COCO)重疊的圖像。(2)對于文本,只保存長度令人滿意、名詞形式和適當(dāng)詞匯的英文文本。將刪除句子前后的空白,并將連續(xù)的空白字符替換為單個(gè)空白。此外,出現(xiàn)超過10次的文本(例如“image for”)將被丟棄。(3)對于圖像-文本對,基于(圖像pHash,文本)元組去除重復(fù)樣本。

最近,更多工作[83]、[91]、[92]探索了通過提示強(qiáng)大的MLLMs(例如GPT-4V)生成高質(zhì)量的細(xì)粒度數(shù)據(jù)。與粗粒度數(shù)據(jù)相比,這些數(shù)據(jù)通常包含更長、更準(zhǔn)確的圖像描述,從而實(shí)現(xiàn)更細(xì)粒度的圖像和文本模態(tài)之間的對齊。然而,由于這種方法通常需要調(diào)用商業(yè)用途的MLLMs,成本更高,數(shù)據(jù)量相對較小。值得注意的是,ShareGPT4V[83]通過首先使用GPT-4V生成的100K數(shù)據(jù)訓(xùn)練字幕生成器,然后使用預(yù)訓(xùn)練的字幕生成器將數(shù)據(jù)量擴(kuò)大到1.2M,實(shí)現(xiàn)了平衡。

3.2 指令微調(diào)

3.2.1 介紹

指令指的是對任務(wù)的描述。直觀地說,指令微調(diào)旨在教模型更好地理解用戶的指令并完成所需的任務(wù)。通過這種方式微調(diào),LLM(大型語言模型)可以通過遵循新指令來泛化到未見過的任務(wù),從而提升零樣本性能。這個(gè)簡單而有效的想法引發(fā)了后續(xù)NLP工作的成功,例如ChatGPT [2]、InstructGPT [95]、FLAN [19]、[56] 和 OPT-IML [96]。指令微調(diào)與相關(guān)典型學(xué)習(xí)范式的比較如圖3所示。監(jiān)督微調(diào)方法通常需要大量特定任務(wù)的數(shù)據(jù)來訓(xùn)練特定任務(wù)的模型。提示工程方法減少了對大規(guī)模數(shù)據(jù)的依賴,可以通過提示工程完成專門任務(wù)。在這種情況下,盡管少樣本性能有所提高,但零樣本性能仍然相當(dāng)普通[7]。與此不同,指令微調(diào)學(xué)習(xí)如何泛化到未見過的任務(wù),而不是像其他兩種方法那樣擬合特定任務(wù)。此外,指令微調(diào)與多任務(wù)提示高度相關(guān)[97]。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

圖3:三種典型學(xué)習(xí)范式的比較。圖像來自[19]。

在本節(jié)中,我們描述了指令樣本的格式、訓(xùn)練目標(biāo)、收集指令數(shù)據(jù)的典型方式以及常用的數(shù)據(jù)集。

3.2.2 訓(xùn)練細(xì)節(jié)

一個(gè)多模態(tài)指令樣本通常包括一個(gè)可選的指令和一個(gè)輸入輸出對。指令通常是描述任務(wù)的自然語言句子,例如,“詳細(xì)描述這張圖片。”輸入可以是圖文對,例如VQA任務(wù)[99],也可以僅是圖片,例如圖像標(biāo)題任務(wù)[100]。輸出是根據(jù)輸入條件生成的指令答案。指令模板是靈活的,可以根據(jù)人工設(shè)計(jì)進(jìn)行調(diào)整[20]、[25]、[98],如表5所示。需要注意的是,指令模板也可以推廣到多輪對話的情況[20]、[37]、[71]、[98]。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

表5:結(jié)構(gòu)化多模態(tài)指令數(shù)據(jù)的簡化模板。<instruction>是任務(wù)的文本描述。{<image>, <text>}和<output>是數(shù)據(jù)樣本的輸入和輸出。請注意,對于某些數(shù)據(jù)集,輸入中的<text>可能會缺失,例如圖像標(biāo)題數(shù)據(jù)集僅有<image>。該示例改編自[98]。

正式地說,一個(gè)多模態(tài)指令樣本可以表示為三元組形式,即 (I, M, R),其中 I、M、R 分別表示指令、多模態(tài)輸入和真實(shí)響應(yīng)。MLLM 在給定指令和多模態(tài)輸入的情況下預(yù)測一個(gè)答案:

A = f(I, M;θ)

這里,A 表示預(yù)測的答案,θ 是模型的參數(shù)。訓(xùn)練目標(biāo)通常是用于訓(xùn)練LLM的原始自回歸目標(biāo)[20]、[37]、[71]、[101],基于此,MLLM 被鼓勵預(yù)測響應(yīng)的下一個(gè)標(biāo)記。目標(biāo)可以表示為:


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

其中 N 是真實(shí)響應(yīng)的長度。

3.2.3 數(shù)據(jù)收集

由于指令數(shù)據(jù)在格式上更加靈活,任務(wù)形式多樣,通常收集數(shù)據(jù)樣本更為棘手且成本更高。在本節(jié)中,我們總結(jié)了三種典型的大規(guī)模收集指令數(shù)據(jù)的方法,即數(shù)據(jù)適配、自指令和數(shù)據(jù)混合。

數(shù)據(jù)適配。任務(wù)特定的數(shù)據(jù)集是高質(zhì)量數(shù)據(jù)的豐富來源。因此,許多工作[60]、[70]、[76]、[82]、[101]、[102]、[103]、[104] 利用現(xiàn)有的高質(zhì)量數(shù)據(jù)集來構(gòu)建指令格式化的數(shù)據(jù)集。以VQA數(shù)據(jù)集的轉(zhuǎn)換為例,原始樣本是一個(gè)輸入輸出對,其中輸入包括一張圖片和一個(gè)自然語言問題,輸出是根據(jù)圖片的文本答案。這些數(shù)據(jù)集的輸入輸出對自然地構(gòu)成了指令樣本的多模態(tài)輸入和響應(yīng)(見§3.2.2)。指令,即任務(wù)的描述,可以來自人工設(shè)計(jì)或在GPT的幫助下半自動生成。具體來說,一些工作[21]、[35]、[60]、[70]、[102]、[105] 手工制作了候選指令池,并在訓(xùn)練期間從中抽取一個(gè)。我們提供了VQA數(shù)據(jù)集指令模板的示例,如表6所示。其他工作則手動設(shè)計(jì)了一些種子指令,并使用這些指令來提示GPT生成更多指令[25]、[82]、[98]。需要注意的是,由于現(xiàn)有的VQA和標(biāo)題數(shù)據(jù)集的答案通常簡短,直接使用這些數(shù)據(jù)集進(jìn)行指令微調(diào)可能會限制MLLMs的輸出長度。有兩種常見策略來解決這個(gè)問題。第一種是明確在指令中指定。例如,ChatBridge [104] 明確聲明對于簡短答案數(shù)據(jù)使用短小簡潔,以及對于傳統(tǒng)粗粒度標(biāo)題數(shù)據(jù)使用一個(gè)句子和單個(gè)句子。第二種是延長現(xiàn)有答案的長度。例如,M3IT [105] 提議通過提示ChatGPT使用原始問題、答案和圖像的上下文信息(例如標(biāo)題和OCR)來重新措辭原始答案。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

表6:VQA數(shù)據(jù)集的指令模板,引用自[60]。<Image> 和 {Question} 分別是原始VQA數(shù)據(jù)集中的圖像和問題。

自指令。盡管現(xiàn)有的多任務(wù)數(shù)據(jù)集可以提供豐富的數(shù)據(jù)來源,但它們通常不能很好地滿足現(xiàn)實(shí)世界場景中的人類需求,例如多輪對話。為了解決這個(gè)問題,一些工作通過自指令[106] 收集樣本,利用LLMs通過少量手動注釋的樣本生成文本指令跟隨數(shù)據(jù)。具體來說,一些指令跟隨樣本被手工制作作為演示,然后通過提示ChatGPT/GPT-4生成更多指令樣本,并以這些演示作為指導(dǎo)。LLaVA [20] 將這種方法擴(kuò)展到多模態(tài)領(lǐng)域,通過將圖像翻譯成標(biāo)題和邊界框的文本,并提示僅文本的GPT-4根據(jù)要求和演示生成新數(shù)據(jù)。這樣構(gòu)建了一個(gè)多模態(tài)指令數(shù)據(jù)集,稱為LLaVA-Instruct-150k。按照這個(gè)思路,后續(xù)工作如MiniGPT-4 [21]、ChatBridge [104]、GPT4Tools [107] 和DetGPT [72] 開發(fā)了滿足不同需求的不同數(shù)據(jù)集。最近,隨著更強(qiáng)大的多模態(tài)模型GPT-4V的發(fā)布,許多工作采用GPT-4V生成更高質(zhì)量的數(shù)據(jù),如LVIS-Instruct4V [91] 和ALLaVA [92]。我們總結(jié)了通過自指令生成的流行數(shù)據(jù)集,如表7所示。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

表7:自指令生成的流行數(shù)據(jù)集概述。對于輸入/輸出模態(tài),I:圖像,T:文本,V:視頻,A:音頻。對于數(shù)據(jù)組成,M-T和S-T分別表示多輪和單輪。

數(shù)據(jù)混合。除了多模態(tài)指令數(shù)據(jù)外,僅語言的用戶助手對話數(shù)據(jù)也可以用于提高對話能力和指令跟隨能力[81]、[98]、[101]、[103]。LaVIN [101] 通過隨機(jī)抽取語言和多模態(tài)數(shù)據(jù)直接構(gòu)建小批量數(shù)據(jù)。MultiInstruct [102] 探索了使用單模態(tài)和多模態(tài)數(shù)據(jù)融合訓(xùn)練的不同策略,包括混合指令微調(diào)(結(jié)合兩種類型的數(shù)據(jù)并隨機(jī)打亂)和順序指令微調(diào)(文本數(shù)據(jù)后接多模態(tài)數(shù)據(jù))。

3.2.4 數(shù)據(jù)質(zhì)量

最近的研究表明,指令微調(diào)樣本的數(shù)據(jù)質(zhì)量與數(shù)量同樣重要。Lynx [73] 發(fā)現(xiàn),預(yù)訓(xùn)練在大規(guī)模但噪聲較大的圖文對上的模型,其性能不如使用較小但更干凈的數(shù)據(jù)集預(yù)訓(xùn)練的模型。同樣,Wei 等人[108] 發(fā)現(xiàn)較少但質(zhì)量更高的指令微調(diào)數(shù)據(jù)可以實(shí)現(xiàn)更好的性能。為了數(shù)據(jù)過濾,該工作提出了一些評估數(shù)據(jù)質(zhì)量的指標(biāo),并相應(yīng)地提出了一種方法來自動過濾出較差的視覺語言數(shù)據(jù)。在此,我們討論兩個(gè)關(guān)于數(shù)據(jù)質(zhì)量的重要方面。

提示多樣性。提示的多樣性被發(fā)現(xiàn)對模型性能至關(guān)重要。Lynx [73] 通過實(shí)驗(yàn)證實(shí),多樣的提示有助于提高模型的性能和泛化能力。

任務(wù)覆蓋。關(guān)于訓(xùn)練數(shù)據(jù)中涉及的任務(wù),Du 等人[109] 進(jìn)行了一項(xiàng)實(shí)證研究,發(fā)現(xiàn)視覺推理任務(wù)在提高模型性能方面優(yōu)于標(biāo)題和問答任務(wù)。此外,研究表明,增強(qiáng)指令的復(fù)雜性可能比增加任務(wù)多樣性和包含細(xì)粒度空間注釋更有益。

3.3 對齊微調(diào)

3.3.1 介紹

對齊微調(diào)通常用于模型需要與特定人類偏好對齊的場景,例如減少幻覺的響應(yīng)(見第6節(jié))。目前,使用人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和直接偏好優(yōu)化(DPO)是對齊微調(diào)的兩種主要技術(shù)。在本節(jié)中,我們依次介紹這兩種技術(shù)的主要思想,并提供一些它們在解決實(shí)際問題中的應(yīng)用示例,最后匯總相關(guān)數(shù)據(jù)集。

3.3.2 訓(xùn)練細(xì)節(jié)

RLHF [110],[111]。該技術(shù)旨在利用強(qiáng)化學(xué)習(xí)算法使LLM與人類偏好對齊,訓(xùn)練環(huán)節(jié)中以人類注釋作為監(jiān)督。以InstructGPT [95] 為例,RLHF 包括三個(gè)關(guān)鍵步驟:

1)監(jiān)督微調(diào)。此步驟旨在對預(yù)訓(xùn)練模型進(jìn)行微調(diào),以呈現(xiàn)初步的預(yù)期輸出行為。RLHF 設(shè)置中的微調(diào)模型稱為策略模型。注意,這一步驟可能會被跳過,因?yàn)楸O(jiān)督策略模型πSFT可以從指令微調(diào)模型初始化(見 §3.2)。

2)獎勵建模。在此步驟中,使用偏好對訓(xùn)練獎勵模型。給定多模態(tài)提示(例如圖像和文本)x 和響應(yīng)對(yw, yl),獎勵模型 rθ 學(xué)習(xí)為偏好的響應(yīng) yw給出更高的獎勵,反之亦然,如下目標(biāo)所示:


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

其中 D = (x, yw, yl)是由人類注釋者標(biāo)記的比較數(shù)據(jù)集。實(shí)際上,獎勵模型 rθ具有與策略模型相似的結(jié)構(gòu)。

3)強(qiáng)化學(xué)習(xí)。在此步驟中,采用近端策略優(yōu)化(PPO)算法來優(yōu)化RL策略模型 πRLφ。通常在訓(xùn)練目標(biāo)中加入每個(gè)標(biāo)記的KL懲罰,以避免偏離原始策略太遠(yuǎn)[95],結(jié)果目標(biāo)為:


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)


其中 β是KL懲罰項(xiàng)的系數(shù)。通常,RL策略πRFT和參考模型πRLφ都從監(jiān)督模型 πSFT初始化。

通過這個(gè)微調(diào)過程,期望獲得的RL策略模型與人類偏好對齊。

研究人員已經(jīng)探索了使用RLHF技術(shù)來更好地實(shí)現(xiàn)多模態(tài)對齊。例如,LLaVA-RLHF [112] 收集人類偏好數(shù)據(jù),并基于LLaVA [20] 調(diào)整一個(gè)減少幻覺的模型。

DPO [113]。它利用一個(gè)簡單的二元分類損失從人類偏好標(biāo)簽中學(xué)習(xí)。與基于PPO的RLHF算法相比,DPO免除了學(xué)習(xí)顯式獎勵模型的需求,從而簡化了整個(gè)流程為兩個(gè)步驟,即人類偏好數(shù)據(jù)收集和偏好學(xué)習(xí)。學(xué)習(xí)目標(biāo)如下:


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

RLHF-V [114] 通過糾正模型響應(yīng)中的幻覺,收集了細(xì)粒度(片段級別)偏好數(shù)據(jù)對,并使用獲得的數(shù)據(jù)執(zhí)行密集的DPO。Silkie [115] 則通過提示GPT-4V收集偏好數(shù)據(jù),并通過DPO將偏好監(jiān)督提煉到一個(gè)指令微調(diào)模型中。

3.3.3 數(shù)據(jù)

對齊微調(diào)的數(shù)據(jù)收集要點(diǎn)是收集模型響應(yīng)的反饋,即決定哪個(gè)響應(yīng)更好。收集此類數(shù)據(jù)通常更昂貴,并且用于此階段的數(shù)據(jù)量通常比前幾個(gè)階段使用的數(shù)據(jù)還少。在本部分,我們介紹了一些數(shù)據(jù)集并在表8中進(jìn)行了總結(jié)。

表8:用于對齊調(diào)優(yōu)的數(shù)據(jù)集概述。對于輸入/輸出模態(tài),I:圖像,T:文本。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

LLaVA-RLHF [112]。它包含10K個(gè)根據(jù)誠實(shí)和有用性收集的人類反饋偏好對。該數(shù)據(jù)集主要用于減少模型響應(yīng)中的幻覺。

RLHF-V [114]。它收集了5.7K通過片段級別幻覺糾正的細(xì)粒度人類反饋數(shù)據(jù)。

VLFeedback [115]。它利用AI對模型響應(yīng)提供反饋。數(shù)據(jù)集中包含超過380K個(gè)由GPT-4V根據(jù)有用性、真實(shí)性和倫理問題評分的比較對。

4 評估

評估是開發(fā)MLLMs(多模態(tài)大型語言模型)的重要部分,因?yàn)樗鼮槟P蛢?yōu)化提供反饋并有助于比較不同模型的性能。與傳統(tǒng)多模態(tài)模型的評估方法相比,MLLMs的評估展示了幾個(gè)新特征:(1)由于MLLMs通常是多才多藝的,因此全面評估MLLMs非常重要。(2)MLLMs表現(xiàn)出許多需要特別關(guān)注的新興能力(例如無OCR的數(shù)學(xué)推理),因此需要新的評估方案。MLLMs的評估可以根據(jù)問題類型大致分為兩類:封閉集和開放集。

4.1 封閉集

封閉集問題指的是一種可能答案選項(xiàng)是預(yù)定義且有限的問題類型。評估通常在任務(wù)特定的數(shù)據(jù)集上進(jìn)行。在這種情況下,可以自然地通過基準(zhǔn)指標(biāo)[20]、[60]、[70]、[76]、[101]、[102]、[103]、[104]來判斷響應(yīng)。例如,InstructBLIP [60] 報(bào)告了ScienceQA [116] 的準(zhǔn)確性,以及NoCaps [118] 和Flickr30K [119] 的CIDEr得分[117]。評估設(shè)置通常是零樣本[60]、[102]、[104]、[105]或微調(diào)[20]、[35]、[60]、[70]、[76]、[101]、[103]、[105]。前一種設(shè)置通常選擇覆蓋不同一般任務(wù)的廣泛數(shù)據(jù)集,并將它們分為保留集和測試集。在前者上進(jìn)行調(diào)優(yōu)后,在未見過的數(shù)據(jù)集或任務(wù)上評估零樣本性能。相比之下,第二種設(shè)置通常出現(xiàn)在特定領(lǐng)域任務(wù)的評估中。例如,LLaVA [20] 和 LLaMA-Adapter [76] 報(bào)告了ScienceQA [116] 上的微調(diào)性能。LLaVA-Med [35] 報(bào)告了生物醫(yī)學(xué)VQA [120]、[121]、[122]的結(jié)果。

上述評估方法通常限于選定任務(wù)或數(shù)據(jù)集的較小范圍,缺乏全面的定量比較。為此,一些努力開發(fā)了專門為MLLMs設(shè)計(jì)的新基準(zhǔn)[123]、[124]、[125]、[126]、[127]、[128]、[129]。例如,F(xiàn)u等人[123] 構(gòu)建了一個(gè)綜合評估基準(zhǔn)MME,包含14個(gè)感知和認(rèn)知任務(wù)。MME中的所有指令-回答對均為手動設(shè)計(jì),以避免數(shù)據(jù)泄漏。MMBench [124] 是一個(gè)專門設(shè)計(jì)用于評估模型能力多個(gè)維度的基準(zhǔn),使用ChatGPT將開放響應(yīng)與預(yù)定義選項(xiàng)匹配。Video-ChatGPT [130] 和 Video-Bench [131] 關(guān)注視頻領(lǐng)域,并提出了專門的基準(zhǔn)和評估工具進(jìn)行評估。還有一些評估策略設(shè)計(jì)用于評估模型的特定方面[102],例如POPE [132] 用于評估幻覺程度。

4.2 開放集

與封閉集問題相比,開放集問題的回答更靈活,MLLMs通常扮演聊天機(jī)器人的角色。由于聊天內(nèi)容可以是任意的,因此判斷比封閉式輸出更棘手。標(biāo)準(zhǔn)可以分為手動評分、GPT評分和案例研究。手動評分需要人類評估生成的響應(yīng)。這種方法通常涉及手工制作的問題,旨在評估特定維度。例如,mPLUG-Owl [81] 收集了一個(gè)視覺相關(guān)的評估集,以判斷自然圖像理解、圖表和流程圖理解等能力。類似地,GPT4Tools [107] 分別構(gòu)建了微調(diào)和零樣本性能的兩個(gè)數(shù)據(jù)集,并從思維、行動、論點(diǎn)和整體上評估響應(yīng)。

由于手動評估勞動強(qiáng)度大,一些研究人員探索了使用GPT評分的方法。這種方法通常用于評估多模態(tài)對話性能。LLaVA [20] 提議通過僅文本的GPT-4從不同方面(如有用性和準(zhǔn)確性)對響應(yīng)進(jìn)行評分。具體來說,從COCO [133] 驗(yàn)證集中抽取30張圖像,每張圖像都通過GPT-4自指令關(guān)聯(lián)了一個(gè)簡短問題、一個(gè)詳細(xì)問題和一個(gè)復(fù)雜推理問題。模型和GPT-4生成的答案都被發(fā)送給GPT-4進(jìn)行比較。后續(xù)工作遵循這一思路,提示ChatGPT [81] 或GPT-4 [35]、[70]、[101]、[104]、[105] 進(jìn)行評分[35]、[70]、[81]、[101]、[104] 或判斷哪個(gè)更好[103]。

應(yīng)用僅文本的GPT-4作為評估者的主要問題是評估僅基于圖像相關(guān)的文本內(nèi)容,例如標(biāo)題或邊界框坐標(biāo),而沒有訪問圖像[35]。因此,在這種情況下,將GPT-4設(shè)為性能上限可能是有問題的。隨著GPT視覺接口的發(fā)布,一些工作[77]、[134] 利用更先進(jìn)的GPT-4V模型評估MLLMs的性能。例如,Woodpecker [77] 采用GPT-4V根據(jù)圖像判斷模型答案的響應(yīng)質(zhì)量。由于GPT-4V可以直接訪問圖像,因此這種評估被認(rèn)為比使用僅文本的GPT-4更準(zhǔn)確。

一種補(bǔ)充方法是通過案例研究比較MLLMs的不同能力。例如,一些研究評估了兩個(gè)典型的高級商用模型GPT-4V和Gemini。Yang等人[135] 通過在各種領(lǐng)域和任務(wù)中制作一系列樣本,對GPT-4V進(jìn)行了深入的定性分析,涵蓋從基本技能(如標(biāo)題和對象計(jì)數(shù))到需要世界知識和推理的復(fù)雜任務(wù)(如笑話理解和作為具身代理的室內(nèi)導(dǎo)航)。Wen等人[136] 通過設(shè)計(jì)針對自動駕駛場景的樣本,更集中地評估了GPT-4V。Fu等人[137] 通過將模型與GPT-4V進(jìn)行比較,對Gemini-Pro進(jìn)行了全面評估。結(jié)果表明,盡管響應(yīng)風(fēng)格不同,GPT-4V和Gemini在視覺推理能力上表現(xiàn)出相當(dāng)?shù)乃健?/p>

5 擴(kuò)展

最近的研究在擴(kuò)展MLLMs(多模態(tài)大型語言模型)的能力方面取得了顯著進(jìn)展,從更強(qiáng)大的基礎(chǔ)能力到更廣泛的場景覆蓋。我們回顧了MLLMs在這方面的主要發(fā)展。

粒度支持。為了促進(jìn)代理與用戶之間的更好互動,研究人員開發(fā)了在模型輸入和輸出方面具有更細(xì)粒度支持的MLLMs。在輸入方面,支持用戶提示更細(xì)致控制的模型逐漸發(fā)展,從圖像到區(qū)域[28]、[138]、[139],甚至像素[29]、[140]、[141]。具體來說,Shikra [28] 支持區(qū)域級輸入和理解。用戶可以通過指向自然語言形式的邊界框,更靈活地與助手互動。Ferret [141] 更進(jìn)一步,通過設(shè)計(jì)一種混合表示方案,支持更靈活的指向。該模型支持不同形式的提示,包括點(diǎn)、框和草圖。類似地,Osprey [29] 通過利用分割模型[9] 支持點(diǎn)輸入。借助預(yù)訓(xùn)練分割模型的出色能力,Osprey 使得只需一次點(diǎn)擊即可指定單個(gè)實(shí)體或其一部分。在輸出方面,隨著輸入支持的發(fā)展,定位能力得到了改進(jìn)。Shikra [28] 支持帶有框注釋的圖像響應(yīng),從而提供更高的精度和更細(xì)致的指向體驗(yàn)。LISA [142] 進(jìn)一步支持掩碼級理解和推理,使得像素級定位成為可能。

模態(tài)支持。對模態(tài)支持的增加是MLLM研究的一個(gè)趨勢。一方面,研究人員探索了使MLLMs支持更多多模態(tài)內(nèi)容輸入,例如3D點(diǎn)云[41]、[143]、[144]、[145]。另一方面,MLLMs也擴(kuò)展了生成更多模態(tài)響應(yīng)的能力,如圖像[32]、[146]、[147]、[148],音頻[32]、[147]、[149]、[150] 和視頻[32]、[151]。例如,NExT-GPT [32] 提出一個(gè)框架,支持混合模態(tài)的輸入和輸出,具體來說,是文本、圖像、音頻和視頻的組合,借助于附加在MLLM上的擴(kuò)散模型[152]、[153]。該框架采用編碼器-解碼器架構(gòu),并將LLM作為理解和推理的樞紐。

語言支持。當(dāng)前的模型主要是單語的,可能是因?yàn)楦哔|(zhì)量的非英語訓(xùn)練語料稀缺。一些工作致力于開發(fā)多語種模型,以覆蓋更廣泛的用戶。VisCPM [33] 通過設(shè)計(jì)一個(gè)多階段訓(xùn)練方案,將模型能力轉(zhuǎn)移到多語種環(huán)境。具體來說,該方案將英語作為關(guān)鍵語言,擁有豐富的訓(xùn)練語料。利用預(yù)訓(xùn)練的雙語LLM,在指令微調(diào)過程中通過添加一些翻譯樣本將多模態(tài)能力轉(zhuǎn)移到中文。采用類似的方法,Qwen-VL [34] 由雙語LLM Qwen [58] 開發(fā),支持中文和英文。在預(yù)訓(xùn)練過程中,中文數(shù)據(jù)被混合到訓(xùn)練語料中,以保留模型的雙語能力,占整個(gè)數(shù)據(jù)量的22.7%。

場景/任務(wù)擴(kuò)展。除了開發(fā)通用助手外,一些研究專注于需要考慮實(shí)際條件的特定場景,另一些則將MLLMs擴(kuò)展到具有特定專業(yè)知識的下游任務(wù)。

一個(gè)典型的趨勢是將MLLMs適應(yīng)更多特定的現(xiàn)實(shí)生活場景。MobileVLM [63] 探索開發(fā)小尺寸變體的MLLMs以用于資源受限的場景。一些設(shè)計(jì)和技術(shù)用于在移動設(shè)備上部署,例如更小尺寸的LLMs和量化技術(shù)以加速計(jì)算。其他工作開發(fā)了與現(xiàn)實(shí)世界互動的代理[41]、[154]、[155],例如專為圖形用戶界面(GUI)設(shè)計(jì)的用戶友好助手,如CogAgent [44]、AppAgent [43] 和 Mobile-Agent [45]。這些助手擅長規(guī)劃并指導(dǎo)完成用戶指定的任務(wù),作為人機(jī)交互的有用代理。另一條線是通過注入特定技能來增強(qiáng)MLLMs,以解決不同領(lǐng)域的任務(wù),例如文檔理解[38]、[39]、[156]、[157] 和醫(yī)學(xué)領(lǐng)域[35]、[36]、[37]。對于文檔理解,mPLUG-DocOwl [38] 利用各種形式的文檔級數(shù)據(jù)進(jìn)行微調(diào),從而增強(qiáng)了無OCR文檔理解模型。TextMonkey [39] 將與文檔理解相關(guān)的多個(gè)任務(wù)結(jié)合起來,以提高模型性能。除了傳統(tǒng)的文檔圖像和場景文本數(shù)據(jù)集,還添加了與位置相關(guān)的任務(wù),以減少幻覺并幫助模型學(xué)習(xí)將響應(yīng)定位在視覺信息中。MLLMs還可以通過灌輸醫(yī)學(xué)領(lǐng)域的知識擴(kuò)展到醫(yī)學(xué)領(lǐng)域。例如,LLaVA-Med [158] 將醫(yī)學(xué)知識注入基礎(chǔ)LLaVA [20],開發(fā)了一個(gè)專注于醫(yī)學(xué)圖像理解和問答的助手。

6 多模態(tài)幻覺

多模態(tài)幻覺是指MLLMs生成的響應(yīng)與圖像內(nèi)容不一致的現(xiàn)象[77]。作為一個(gè)基本而重要的問題,這個(gè)問題越來越受到關(guān)注。在本節(jié)中,我們簡要介紹一些相關(guān)概念和研究進(jìn)展。

6.1 初步介紹

當(dāng)前關(guān)于多模態(tài)幻覺的研究可以進(jìn)一步分為三類[159]:

1. 存在幻覺 是最基本的形式,意味著模型錯誤地聲稱圖像中存在某些物體。

2. 屬性幻覺 指的是錯誤描述某些物體的屬性,例如未能正確識別狗的顏色。它通常與存在幻覺相關(guān),因?yàn)閷傩缘拿枋鰬?yīng)該基于圖像中存在的物體。

3. 關(guān)系幻覺 是一種更復(fù)雜的類型,也基于物體的存在。它指的是對物體之間關(guān)系的錯誤描述,例如相對位置和交互。

接下來,我們首先介紹一些特定的評估方法(§6.2),這些方法對于評估減少幻覺的方法的性能很有用(§6.3)。然后,我們將根據(jù)每種方法的主要類別詳細(xì)討論當(dāng)前減少幻覺的方法。

6.2 評估方法

CHAIR [160] 是一個(gè)早期的度量,用于評估開放式標(biāo)題中的幻覺水平。該度量衡量帶有幻覺對象或所有提到對象的句子比例。相比之下,POPE [132] 是一種評估封閉式選擇的方法。具體來說,多個(gè)帶有二元選擇的提示被制定,每個(gè)提示詢問圖像中是否存在特定對象。該方法還涵蓋了更具挑戰(zhàn)性的設(shè)置,以評估MLLMs的魯棒性,同時(shí)考慮數(shù)據(jù)統(tǒng)計(jì)。最終評估使用一種簡單的關(guān)鍵詞機(jī)制,即通過檢測關(guān)鍵詞“是/否”,將開放式響應(yīng)轉(zhuǎn)換為封閉式二元選擇。采用類似的評估方法,MME [123] 提供了更全面的評估,涵蓋存在、計(jì)數(shù)、位置和顏色方面,如[77] 所示。

與以前使用匹配機(jī)制檢測和決定幻覺的方法不同,HaELM [161] 提出使用僅文本的LLMs作為評判者,自動決定MLLMs的標(biāo)題是否正確。鑒于僅文本的LLMs只能訪問有限的圖像上下文并需要參考注釋,Woodpecker [77] 使用GPT-4V直接評估基于圖像的模型響應(yīng)。FaithScore [162] 是一個(gè)更細(xì)粒度的度量,基于一個(gè)例程,將描述性子句分解并分別評估每個(gè)子句?;谝郧暗难芯?,AMBER [163] 是一個(gè)不依賴LLM的基準(zhǔn),涵蓋辨別任務(wù)和生成任務(wù),并涉及三種可能的幻覺類型(見§6.1)。

6.3 緩解方法

根據(jù)高層次的想法,目前的方法可以大致分為三類:預(yù)修正、過程修正和后修正。

預(yù)修正?;糜X的一種直觀而直接的解決方案是收集專門的數(shù)據(jù)(例如負(fù)面數(shù)據(jù)),并使用這些數(shù)據(jù)進(jìn)行微調(diào),從而減少幻覺響應(yīng)的模型。

LRV-Instruction [164] 引入了一個(gè)視覺指令微調(diào)數(shù)據(jù)集。除了常見的正面指令外,該數(shù)據(jù)集還結(jié)合了在不同語義層次上精心設(shè)計(jì)的負(fù)面指令,以鼓勵響應(yīng)忠實(shí)于圖像內(nèi)容。LLaVA-RLHF [112] 收集人類偏好對并使用強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行微調(diào),導(dǎo)致模型更符合減少幻覺的答案。

過程修正。另一條途徑是在架構(gòu)設(shè)計(jì)或特征表示方面進(jìn)行改進(jìn)。這些工作試圖探討幻覺的原因,并在生成過程中設(shè)計(jì)相應(yīng)的補(bǔ)救措施來減少幻覺。

HallE-Switch [159] 對對象存在幻覺的可能因素進(jìn)行了經(jīng)驗(yàn)分析,并假設(shè)存在幻覺源于未被視覺編碼器定位的對象,它們實(shí)際上是基于嵌入在LLM中的知識推斷出來的?;谶@一假設(shè),引入了一個(gè)連續(xù)控制因素和相應(yīng)的訓(xùn)練方案,以在推理過程中控制模型輸出中的想象程度。

VCD [165] 認(rèn)為對象幻覺源于兩個(gè)主要原因,即訓(xùn)練語料中的統(tǒng)計(jì)偏差和嵌入在LLM中的強(qiáng)語言先驗(yàn)。作者注意到,當(dāng)向圖像注入噪聲時(shí),MLLMs傾向于依賴語言先驗(yàn)而不是圖像內(nèi)容進(jìn)行響應(yīng)生成,從而導(dǎo)致幻覺。相應(yīng)地,該工作設(shè)計(jì)了一種放大-對比解碼方案,以抵消錯誤的偏差。

HACL [166] 調(diào)查了視覺和語言的嵌入空間?;谟^察,設(shè)計(jì)了一種對比學(xué)習(xí)方案,將配對的跨模態(tài)表示拉近,同時(shí)推開非幻覺和幻覺文本表示。

后修正。不同于以前的范式,后修正以事后補(bǔ)救的方式減少幻覺,并在輸出生成后糾正幻覺。Woodpecker [77] 是一個(gè)不需要訓(xùn)練的通用幻覺修正框架。具體來說,該方法結(jié)合專家模型補(bǔ)充圖像的上下文信息,并設(shè)計(jì)了一個(gè)管道逐步糾正幻覺。該方法是可解釋的,因?yàn)槊恳徊降闹虚g結(jié)果都可以檢查,對象定位在圖像中。另一種方法LURE [167] 訓(xùn)練一個(gè)專門的修訂器來屏蔽描述中不確定性高的對象,并再次重新生成響應(yīng)。

7 擴(kuò)展技術(shù)

7.1 多模態(tài)上下文學(xué)習(xí)

ICL(上下文學(xué)習(xí))是LLMs的一項(xiàng)重要新興能力。ICL有兩個(gè)好的特點(diǎn):(1)不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)范式從大量數(shù)據(jù)中學(xué)習(xí)隱式模式,ICL的關(guān)鍵在于從類比中學(xué)習(xí)[168]。具體來說,在ICL設(shè)置中,LLMs從一些示例以及可選的指令中學(xué)習(xí),并推測新問題,從而以少樣本的方式解決復(fù)雜和未見過的任務(wù)[22]、[169]、[170]。(2)ICL通常以無訓(xùn)練的方式實(shí)現(xiàn)[168],因此可以靈活地集成到推理階段的不同框架中。一項(xiàng)與ICL密切相關(guān)的技術(shù)是指令微調(diào)(見§3.2),實(shí)驗(yàn)證明其可以增強(qiáng)ICL能力[19]。

在MLLM的背景下,ICL已擴(kuò)展到更多模態(tài),形成了多模態(tài)ICL(M-ICL)?;冢ā?.2)中的設(shè)置,在推理時(shí),M-ICL可以通過向原始樣本添加一個(gè)示例集(即上下文中的示例集)來實(shí)現(xiàn)。在這種情況下,模板可以如表9所示擴(kuò)展。需要注意的是,我們列出了兩個(gè)上下文示例用于說明,但示例的數(shù)量和順序可以靈活調(diào)整。事實(shí)上,模型通常對示例的安排敏感[168]、[171]。


多模態(tài)大型語言模型(MLLM)綜述 -AI.x社區(qū)

表9:結(jié)構(gòu)化M-ICL查詢模板的簡化示例,改編自[98]。為了說明,我們列出了兩個(gè)上下文示例和一個(gè)由虛線分隔的查詢。{instruction}和{response}是數(shù)據(jù)樣本中的文本。<image>是表示多模態(tài)輸入的占位符(在本例中為圖像)。<BOS>和<EOS>分別是表示輸入到LLM的開始和結(jié)束的標(biāo)記。

7.1.1 ICL能力的改進(jìn)

最近,越來越多的工作專注于在各種場景下提高ICL性能。在本節(jié)中,我們追蹤了該領(lǐng)域的發(fā)展,并總結(jié)了一些相關(guān)工作。

MIMIC-IT [172] 通過構(gòu)建帶有多模態(tài)上下文的指令數(shù)據(jù)集,將上下文學(xué)習(xí)與指令微調(diào)結(jié)合起來。在引入的數(shù)據(jù)集上進(jìn)行指令微調(diào)的模型在標(biāo)題任務(wù)中的少樣本性能有所提高。Emu [173] 通過在模型生成和相應(yīng)的訓(xùn)練語料中引入額外的模態(tài),擴(kuò)展了Flamingo [74] 的想法。在引入的視覺解碼器(即Stable Diffusion)的幫助下,模型從額外的視覺監(jiān)督中學(xué)習(xí),并在輸出格式和上下文推理中提供更多的靈活性。具體來說,除了以純文本回答外,模型還可以以圖像的形式給出響應(yīng)。Sheng等人[174] 采用了類似的想法,嘗試將輸出模態(tài)擴(kuò)展到文本和圖像。該工作沒有采用專門的圖像編碼器,而是采用了統(tǒng)一量化方案和共享嵌入層。

一些其他工作探索了在特定設(shè)置下提高少樣本學(xué)習(xí)性能的方法。Link-context learning [175] 專注于加強(qiáng)圖像-標(biāo)簽對之間的因果聯(lián)系,通過制定正負(fù)圖像-描述對來進(jìn)行對比訓(xùn)練方案。MMICL [176] 旨在增強(qiáng)多張相關(guān)圖像推理的能力。為了加強(qiáng)圖像和文本之間的聯(lián)系,該工作提出了一種上下文方案,將交織的圖像-文本數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式。Jeong [177] 發(fā)現(xiàn),當(dāng)插入一小部分不相關(guān)的圖像/文本作為噪聲時(shí),MLLMs可能會被誤導(dǎo),給出與上下文不一致的響應(yīng)?;谶@一觀察,該工作相應(yīng)提出了一種預(yù)過濾方法,以去除不相關(guān)的上下文并促進(jìn)更連貫的響應(yīng)。

7.1.2 應(yīng)用

在多模態(tài)應(yīng)用方面,M-ICL主要用于兩種場景:(1)解決各種視覺推理任務(wù)[22]、[74]、[178]、[179]、[180],(2)教LLMs使用外部工具[169]、[170]、[181]。前者通常涉及從一些特定任務(wù)示例中學(xué)習(xí)并泛化到一個(gè)新的但類似的問題。從指令和示例中提供的信息中,LLMs可以了解任務(wù)的執(zhí)行方式和輸出模板,最終生成預(yù)期的答案。相比之下,工具使用的示例更為細(xì)粒度。它們通常包含一系列可以順序執(zhí)行以完成任務(wù)的步驟。因此,第二種場景與鏈?zhǔn)剿季S(CoT,見§7.2)密切相關(guān)。

7.2 多模態(tài)鏈?zhǔn)剿季S

正如開創(chuàng)性工作[8]指出的那樣,CoT(鏈?zhǔn)剿季S)是一系列中間推理步驟,已被證明在復(fù)雜推理任務(wù)中有效[8],[182],[183]。CoT的主要思想是提示LLMs不僅輸出最終答案,還輸出導(dǎo)致答案的推理過程,類似于人類的認(rèn)知過程。

受NLP成功的啟發(fā),多項(xiàng)工作[184],[185],[186],[187]已經(jīng)提出將單模態(tài)CoT擴(kuò)展到多模態(tài)CoT(M-CoT)。我們首先介紹獲取M-CoT能力的不同范式(§7.2.1)。然后,我們描述M-CoT的更多具體方面,包括鏈?zhǔn)脚渲茫ā?.2.2)和模式(§7.2.3)。

7.2.1 學(xué)習(xí)范式

學(xué)習(xí)范式也是一個(gè)值得研究的方面。大致有三種方式來獲取M-CoT能力,即通過微調(diào)和無訓(xùn)練的少/零樣本學(xué)習(xí)。這三種方式對樣本數(shù)量的要求依次遞減。

直觀地說,微調(diào)方法通常涉及為M-CoT學(xué)習(xí)策劃特定數(shù)據(jù)集。例如,Lu等人[116]構(gòu)建了一個(gè)包含講座和解釋的科學(xué)問答數(shù)據(jù)集ScienceQA,可以作為學(xué)習(xí)CoT推理的來源,并在所提出的數(shù)據(jù)集上微調(diào)模型。Multimodal-CoT[185]也使用ScienceQA基準(zhǔn),但以兩步方式生成輸出,即推理過程(鏈?zhǔn)酵评聿襟E)和基于推理過程的最終答案。CoT-PT[187]通過提示微調(diào)和特定步驟的視覺偏差相結(jié)合來學(xué)習(xí)隱式鏈?zhǔn)酵评怼?/p>

與微調(diào)相比,少/零樣本學(xué)習(xí)在計(jì)算上更高效。它們之間的主要區(qū)別在于,少樣本學(xué)習(xí)通常需要手工制作一些上下文示例,以便模型更容易逐步學(xué)習(xí)推理。相比之下,零樣本學(xué)習(xí)不需要任何特定的CoT學(xué)習(xí)示例。在這種情況下,模型通過提示設(shè)計(jì)的指令(如“讓我們逐幀思考”或“這兩個(gè)關(guān)鍵幀之間發(fā)生了什么”)學(xué)習(xí)使用嵌入的知識和推理能力,而無需明確指導(dǎo)[184],[186]。類似地,一些工作[22],[188]通過描述任務(wù)和工具使用來提示模型,將復(fù)雜任務(wù)分解為子任務(wù)。

7.2.2 鏈?zhǔn)脚渲?/strong>

結(jié)構(gòu)和長度是推理鏈的兩個(gè)關(guān)鍵方面。在結(jié)構(gòu)方面,當(dāng)前方法可以分為單鏈和樹形方法。單鏈推理是各種方法中廣泛使用的范式[116],[185]。具體來說,逐步推理過程形成了一個(gè)問題-推理-答案的單鏈。最近,一些方法探索了使用更復(fù)雜的方案,即樹形鏈進(jìn)行推理。具體來說,DDCoT[189]將一個(gè)問題分解為多個(gè)子問題,每個(gè)子問題由LLM本身或視覺專家解決生成推理。然后,LLM匯總并利用這些推理生成最終答案。對于鏈?zhǔn)介L度,可以分為自適應(yīng)和預(yù)定義兩種形式。前者要求LLM自行決定何時(shí)停止推理鏈[22],[116],[169],[170],[185],[188],而后者則在預(yù)定義長度時(shí)停止鏈?zhǔn)酵评韀79],[184],[186],[187]。

7.2.3 生成模式

如何構(gòu)建鏈?zhǔn)酵评硎且粋€(gè)值得研究的問題。我們將當(dāng)前的工作總結(jié)為(1)基于填充的模式和(2)基于預(yù)測的模式。具體來說,基于填充的模式要求在上下文(前后步驟)之間推導(dǎo)步驟,以填補(bǔ)邏輯空白[184],[186]。相比之下,基于預(yù)測的模式要求在給定條件(如指令和先前推理歷史)的情況下擴(kuò)展推理鏈[22],[116],[169],[170],[185],[188]。這兩種模式的共同要求是生成的步驟應(yīng)一致且正確。

7.3 LLM輔助的視覺推理

7.3.1 介紹

受到工具增強(qiáng)LLMs成功的啟發(fā)[190],[191],[192],[193],一些研究探索了調(diào)用外部工具[22],[107],[169],[170]或視覺基礎(chǔ)模型[22],[79],[80],[188],[194],[195],[196]進(jìn)行視覺推理任務(wù)的可能性。這些工作將LLMs作為不同角色的助手,構(gòu)建了任務(wù)特定[79],[197],[198]或通用[22],[169],[170],[181],[188]的視覺推理系統(tǒng)。

與傳統(tǒng)視覺推理模型[199],[200],[201]相比,這些工作表現(xiàn)出幾個(gè)優(yōu)點(diǎn):(1)強(qiáng)大的泛化能力。配備了從大規(guī)模預(yù)訓(xùn)練中學(xué)到的豐富開放世界知識,這些系統(tǒng)可以輕松泛化到未見過的對象或概念,表現(xiàn)出顯著的零樣本/少樣本性能[169],[170],[195],[197],[198],[202]。(2)新興能力。借助LLMs強(qiáng)大的推理能力,這些系統(tǒng)可以執(zhí)行復(fù)雜任務(wù)。例如,給定一張圖片,MM-REACT[22]可以解釋表面下的意義,例如解釋為什么一個(gè)模因很有趣。(3)更好的交互性和控制力。傳統(tǒng)模型通常允許有限的控制機(jī)制,并且通常需要昂貴的策劃數(shù)據(jù)集[203],[204]。相比之下,基于LLM的系統(tǒng)能夠在用戶友好界面中進(jìn)行細(xì)致控制(例如點(diǎn)擊和自然語言查詢)[79]。

在這一部分,我們首先介紹構(gòu)建LLM輔助視覺推理系統(tǒng)中使用的不同訓(xùn)練范式(§7.3.2)。然后,我們深入探討LLMs在這些系統(tǒng)中扮演的主要角色(§7.3.3)。

7.3.2 訓(xùn)練范式

根據(jù)訓(xùn)練范式,LLM輔助視覺推理系統(tǒng)可以分為兩種類型,即無訓(xùn)練和微調(diào)。

無訓(xùn)練。借助預(yù)訓(xùn)練LLMs中存儲的豐富先驗(yàn)知識,一種直觀而簡單的方法是凍結(jié)預(yù)訓(xùn)練模型,并直接提示LLMs滿足各種需求。根據(jù)設(shè)置,推理系統(tǒng)可以進(jìn)一步分類為少樣本模型[22],[169],[170],[181]和零樣本模型[79],[197]。少樣本模型需要一些手工制作的上下文示例(見§7.1)來指導(dǎo)LLMs生成程序或執(zhí)行步驟序列。這些程序或執(zhí)行步驟作為相應(yīng)基礎(chǔ)模型或外部工具/模塊的指令。零樣本模型則更進(jìn)一步,直接利用LLMs的語言/語義知識或推理能力。例如,PointCLIP V2[197]提示GPT-3生成具有3D相關(guān)語義的描述,以更好地與相應(yīng)圖像對齊。在CAT[79]中,LLMs被指示根據(jù)用戶查詢改進(jìn)標(biāo)題。

微調(diào)。一些工作采用進(jìn)一步微調(diào),以改進(jìn)工具使用方面的計(jì)劃能力[107]或系統(tǒng)的定位能力[142],[205]。例如,GPT4Tools[107]引入了指令微調(diào)方法(見§3.2)。相應(yīng)地,收集了一個(gè)新的工具相關(guān)指令數(shù)據(jù)集并用于微調(diào)模型。

7.3.3 功能

為了進(jìn)一步檢查LLMs在LLM輔助視覺推理系統(tǒng)中到底扮演了什么角色,現(xiàn)有相關(guān)工作分為三種類型:

- LLM作為控制器

- LLM作為決策者

- LLM作為語義精煉器

前兩種角色與CoT(見§7.2)相關(guān)。由于復(fù)雜任務(wù)需要分解為中間的簡單步驟,因此這些角色經(jīng)常使用。當(dāng)LLMs作為控制器時(shí),系統(tǒng)通常在單輪中完成任務(wù),而在決策者的情況下,多輪更為常見。我們在以下部分描述LLMs如何在這些角色中發(fā)揮作用。

LLM作為控制器。在這種情況下,LLMs充當(dāng)中央控制器,(1)將復(fù)雜任務(wù)分解為更簡單的子任務(wù)/步驟,(2)將這些任務(wù)分配給適當(dāng)?shù)墓ぞ?模塊。第一步通常利用LLMs的CoT能力完成。具體來說,LLMs被明確提示輸出任務(wù)計(jì)劃[181]或更直接地調(diào)用模塊[107],[169],[170]。例如,VisProg[170]提示GPT-3輸出一個(gè)視覺程序,其中每行程序調(diào)用一個(gè)模塊執(zhí)行子任務(wù)。此外,要求LLMs輸出模塊輸入的參數(shù)名。為了處理這些復(fù)雜要求,一些手工制作的上下文示例被用作參考[169],[170],[181]。這與推理鏈的優(yōu)化密切相關(guān)(見§7.2),或更具體地說,是最小到最多提示技術(shù)[206]。通過這種方式,復(fù)雜問題被分解為按順序解決的子問題。

LLM作為決策者。在這種情況下,復(fù)雜任務(wù)以多輪方式解決,通常是迭代方式[195]。決策者通常履行以下職責(zé):(1)總結(jié)當(dāng)前上下文和歷史信息,決定當(dāng)前步驟的信息是否足以回答問題或完成任務(wù);(2)組織和總結(jié)答案,以用戶友好的方式呈現(xiàn)。

LLM作為語義精煉器。當(dāng)LLM作為語義精煉器時(shí),研究人員主要利用其豐富的語言和語義知識。具體來說,LLMs通常被指示將信息整合成一致且流暢的自然語言句子[202],或根據(jù)不同的具體需求生成文本[79],[197],[198]。

8 挑戰(zhàn)與未來方向

MLLMs的發(fā)展仍處于初級階段,因此有很大的改進(jìn)空間,我們總結(jié)如下:

- 當(dāng)前的MLLMs在處理長上下文的多模態(tài)信息方面有限。這限制了擁有更多多模態(tài)標(biāo)記的高級模型的發(fā)展,例如長視頻理解和交錯圖像與文本的長文檔。

- MLLMs應(yīng)升級以遵循更復(fù)雜的指令。例如,生成高質(zhì)量問答對數(shù)據(jù)的主流方法仍然是提示閉源的GPT-4V,因?yàn)樗哂邢冗M(jìn)的指令遵循能力,而其他模型通常無法實(shí)現(xiàn)這一點(diǎn)。

- 技術(shù)如M-ICL和M-CoT仍有很大的改進(jìn)空間。當(dāng)前對這兩種技術(shù)的研究仍然處于初級階段,MLLMs的相關(guān)能力較弱。因此,探索其潛在機(jī)制和改進(jìn)方向是很有前景的。

- 開發(fā)基于MLLMs的具身代理是一個(gè)熱門話題。開發(fā)能夠與現(xiàn)實(shí)世界互動的代理是有意義的。這類工作需要模型具備關(guān)鍵能力,包括感知、推理、規(guī)劃和執(zhí)行。

- 安全問題。與LLMs類似,MLLMs可能易受精心設(shè)計(jì)的攻擊[177],[207],[208]。換句話說,MLLMs可能會被誤導(dǎo)輸出偏見或不理想的響應(yīng)。因此,提高模型的安全性將是一個(gè)重要課題。

9 結(jié)論

在本文中,我們對現(xiàn)有的MLLM文獻(xiàn)進(jìn)行了綜述,并提供了其主要方向的廣泛視角,包括基本配方和相關(guān)擴(kuò)展。此外,我們強(qiáng)調(diào)了當(dāng)前需要填補(bǔ)的研究空白,并指出了一些有前景的研究方向。希望這篇綜述能為讀者提供清晰的MLLM發(fā)展現(xiàn)狀,并激發(fā)更多的研究工作。

Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[J]. arXiv preprint arXiv:2306.13549, 2023.

Shanghai Jiao Tong University ,Amazon Web Services.


本文轉(zhuǎn)載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:????https://mp.weixin.qq.com/s/a1slqH2ScZnrFmDFpo0R7A???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-7-1 14:10:38修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦