自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

入門必讀!多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解) 精華

發(fā)布于 2024-9-12 10:31
瀏覽
0收藏

入門必讀!多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2402.12451


連接文本和視覺模態(tài)在生成式AI中起著至關重要的作用。受到大語言模型(本文簡稱LLM)成功的啟發(fā),人們正在致力于開發(fā)多模態(tài)大語言模型(MLLMs)。這些模型可以無縫地集成視覺和文本模態(tài),既作為輸入又作為輸出,同時提供基于對話的界面和指令遵循的能力。本文全面回顧了最近基于視覺的MLLMs,分析了它們的架構選擇、多模態(tài)對齊策略和訓練技術。還對這些模型在各種任務上進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解以及領域特定應用。此外編制并描述了訓練數據集和評估基準,對現有模型在性能和計算要求方面進行了比較??傮w上,本綜述提供了對當前技術水平的全面概述,為未來MLLMs奠定了基礎。

介紹

注意力算子和Transformer架構的引入使得我們可以創(chuàng)建大規(guī)模的,能夠處理各種模態(tài)的模型。這一進步主要歸因于算子的多功能性和架構的適應性。最初,它們主要應用于語言模型,但很快就擴展到支持視覺處理骨干,并最終用于集成多種模態(tài)的模型。

隨著復雜的大語言模型的激增,尤其是它們在上下文學習方面的能力的進步,鼓勵研究人員將這些模型的范圍擴大到多種模態(tài),既作為輸入又作為輸出。這種擴展促使了像GPT-4V和Gemini這樣的尖端模型的開發(fā),并展現了相當先進的能力。


多模態(tài)大語言模型(MLLMs)的發(fā)展涉及將視覺和語言的單模態(tài)架構進行融合,通過視覺到語言適配器之間建立有效的連接,并創(chuàng)造出新的訓練方法,這些方法對于確保模態(tài)對齊和準確遵循指令的能力至關重要。


當前新模型發(fā)布迅速,我們的目標是提供關于MLLM領域的詳盡概述,并重點關注利用視覺模態(tài)的模型。本綜述既是對當前現狀的更新,也是對未來發(fā)展的啟示。

本文定義了這類模型的三個核心方面:它們的架構、訓練方法和設計任務。本文首先詳細介紹了當前流行的視覺編碼器和適配器模塊,這些模塊賦予了LLMs跨模態(tài)的能力。接著,深入探討了訓練過程和使用的數據。然后,探討了MLLMs所涉及的任務范圍。最后討論了該領域持續(xù)存在的挑戰(zhàn)以及未來研究的方向。關于訓練數據、評估數據集以及性能和計算要求的更多細節(jié)可以在原文的附錄中找到。

為LLMs賦予多模態(tài)能力

基礎知識

「大語言模型」 Brown等人發(fā)現,在提示中添加幾個示例,演示LLM的期望輸出,即上下文學習,可以提高其性能,尤其是在新任務上。為LLM提供每個訓練樣本所需任務的一段自然語言描述可以進一步提高泛化能力。這種技術被稱為指令微調,它對于調整LLM的行為與人類行為一致至關重要,最終通過從人類反饋中增強學習(RLHF)。


「PEFT (Parameter-Efficient Fine-Tuning) 參數高效微調」 當需要將預訓練的LLM應用于特定領域時,參數高效微調(PEFT)就成為訓練整個LLM的一個重要替代方案,因為這些領域只引入了少量的新參數。其中,prompt調整學習了一小組向量,在輸入文本之前作為軟提示輸入到模型中。另一方面,LoRA(Low-Rank Adaptation of Large Language Models)通過學習低秩矩陣來限制新權重的數量。這種技術與量化方法(如QLoRA(Quant LoRA))是正交的,后者相比通常的半精度權重進一步減少了LLM的內存占用。

「向多模態(tài)LLMs的方向發(fā)展」 MLLMs的發(fā)展路徑與LLMs類似,Flamingo是第一個在視覺-語言領域大規(guī)模探索上下文學習的模型。然后,視覺指令微調迅速成為多模態(tài)領域中最突出的訓練范式,連帶使用PEFT技術微調LLM。任何MLLM至少包含三個組件(見下圖1):LLM骨干作為與用戶的接口,一個(或多個)視覺編碼器,以及一個或多個視覺到語言適配器模塊。

入門必讀!多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

常用的LLM主體通常屬于LLaMA家族系列,因為它們的權重可以自由調整,它們只在公共數據上進行了訓練,并且擁有不同的尺寸以適應各種場景。此外,它們的衍生版本也很受歡迎,如Alpaca和Vicuna。前者在使用GPT-3編寫的指令上對LLaMA進行微調,而后者利用用戶與ChatGPT分享的對話。其他選擇包括OPT、Magnet、MPT以及指令微調或多語言版本的T5(一個為多個任務預先訓練的編碼器-解碼器語言模型)。


本文調研的MLLMs的總結如下表1所示。對于每個模型,表中列出了它所基于的LLM,視覺編碼器,連接視覺和語言組件的適配器,MLLM是否使用視覺指令調整進行訓練,以及主要任務和能力。

入門必讀!多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

視覺編碼器

在MLLMs中,視覺編碼器是一個關鍵組件,它專門用于向LLM提供從視覺中提取的特征。通常采用凍結的預訓練視覺編碼器,同時僅訓練一個可學習的接口,將視覺特征與基礎LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,它基于CLIP,目的是利用CLIP嵌入的固有對齊性。


一些常用的選擇包括:CLIP中的ViT-L模型、OpenCLIP中的ViT-H骨干和EVA-CLIP中的ViT-g版本。CLIP和OpenCLIP編碼器是在網絡收集的圖像上訓練的,采用對比方法來對齊正確的圖像-文本對。相反,EVA-CLIP是一系列模型,為訓練CLIP模型提供了實用且有效的解決方案:EVA模型是預訓練的,以可見圖像塊為條件,重建遮擋的圖像-文本對齊的視覺圖像特征。


更強大的圖像編碼器會提高性能。基于這一認識,一些研究者提出了一種凍結的視覺骨干的合集,以捕獲強大的視覺表示和不同層次的信息粒度。與此同時,PaLI模型注意到語言和視覺參數之間存在不平衡,提議將視覺骨干擴展到一個40億和220億參數的ViT。


利用這些強大的模型的通常做法是在訓練過程中保持視覺編碼器凍結。然而,使用凍結的視覺編碼器也存在一些局限性,主要是由于參數數量受限,導致視覺和語言模態(tài)之間無法準確對齊。具體來說,當輸入語言模型時,從視覺模型中提取的密集特征可能會破壞細粒度的圖像信息,并且由于序列長度而引入大量計算。


為了緩解這個問題,其他研究人員采用了一個兩階段的訓練范式。在第一階段,他們將一個可訓練的視覺骨干引入,同時保持預訓練的LLM凍結。根據他們的研究結果,使視覺編碼器可訓練可以提升視覺問題回答或視覺描述等任務的性能。然而,這可能導致其他任務性能下降,表明這種方案存在一定程度的遺忘,而且破壞了通用視覺表示。

視覺——語言適配器

由于來自不同模態(tài)的輸入同時存在,那么在這些單模態(tài)內整合能夠描繪其潛在對應關系的模塊就十分必要了,這些模塊被稱為“適配器”,目的在于促進視覺和文本領域之間的互通性。在常見的MLLMs中,使用了各種適配器,從基本的架構(如線性層或多層感知機(MLP)),到高級方法(如基于Transformer的解決方案,例如Q-Former模型),并在LLM中添加了條件交叉注意力層。


「線性MLP投影」 將視覺輸入投影到文本embedding的最直接的方法,它涉及到學習線性映射,即將視覺特征轉換為相同維度的對應文本。一些方法只使用單個線性層來執(zhí)行多模態(tài)連接,如LLaMA-Adapter和FROMAGe,而LLaVA-1.5采用了兩層MLP,顯示出改進的多模態(tài)能力。盡管線性投影在早期MLLMs中被廣泛采用,但即使在最近的對視覺輸入有更高級理解的方法中,線性投影的使用也被證明非常有效。因此,這是一種簡單但有效的技術,用于將視覺特征與文本對應物對齊。另一種方法提出用卷積層替換線性層,也有適當的的改進。


「Q-Former」 是在BLIP-2中提出的基于Transformer的模型,并在之后的幾種其他方法中使用。它的特點是其可適應性架構,由兩個Transformer塊組成,這些塊共享各自的自注意力層,促進了視覺和文本表示之間的對齊過程。它包括一組可學習的query,這些query在自注意力層內進行交互,并通過交叉注意力機制與視覺特征進行交互。而文本和視覺元素通過模塊內的共享自注意力進行通信。


受到Q-Former的啟發(fā),又誕生了各種修改版本。比如,mPLUG-Owl模型簡化了Q-Former的架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮成不同的可學習token,從而獲得更豐富的語義視覺表示。在同樣的方向上,Qwen-VL使用一個單層交叉注意力模塊壓縮視覺特征,該模塊具有可學習的query,并且還包含2D位置編碼。


「附加跨注意力層」 這種方法在Flamingo中提出,通過在現有的預訓練LLM層之間集成密集的交叉注意力塊。新添加的層通常與初始化的tanh-gating機制結合在一起,以確保在初始化時,條件模型的行為與其原始版本相同。使用額外的交叉注意力層需要從頭開始訓練它們,增加了可訓練參數的數量,與其他替代方案相比。為了降低計算復雜度,這種策略通常與一個Perceiver-based組件配對,該組件在傳遞到LLM之前減少了視覺token的數量。自其引入以來,幾個模型使用這種技術來將視覺模態(tài)與基礎LLM連接起來,提升了訓練穩(wěn)定性和性能。

多模態(tài)訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段的過程。在兩種情況下,都使用標準的交叉熵損失來預測下一個token,作為自回歸目標。


「單階段訓練」 這是LLaMA-Adapter模型探索的,該模型引入了額外的可訓練參數,以同時封裝視覺知識并管理僅支持文本的指令學習。為了實現這一點,模型通過使用圖像-文本對和指令進行聯合訓練,操作不同的參數。與此同時,還有一些模型通過將兩個對比損失函數用于圖像-文本檢索,以此來調整最終損失函數。在訓練過程中,只有三個線性層被更新。另一方面,Kosmos-1考慮了一個凍結的視覺骨干,并從零開始訓練了1.3B(13億)參數的語言模型。


相反,Flamingo及其開源變體訓練交叉注意力層和基于Perceiver的組件,以連接視覺特征與凍結的LLM模塊。此外,Otter擴展了Flamingo的訓練,以增強其上下文能力。

考慮到當前可用的大量訓練數據,像SPHINX-X這樣的模型選擇執(zhí)行單個一體化訓練階段,更新所有模型組件,還可以僅使用文本數據來保留LLM的對話能力。


「兩階段訓練」 在兩個訓練階段中的第一階段,目標是將圖像特征與文本embedding空間對齊。在此階段之后,輸出往往會出現碎片且不連貫。因此,實施第二步以提高多模態(tài)對話能力。LLaVA是最早引入視覺指令跟隨訓練方案的模型之一,該方案作為第二個訓練階段,更新了多模態(tài)適配器和LLM的參數。在第一階段,只有多模態(tài)適配器是可訓練的。與之不同的是,MiniGPT-4僅訓練負責兩個階段中的多模態(tài)對齊的線性層。在第二階段,它使用經過第一階段模型自身收集和精煉的過濾數據。


另一種方法在"InstructBLIP"中提到,它涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與先前的方法不同,在這些方法中,視覺骨干保持凍結狀態(tài),而"mPLUG-Owl"在初始階段更新視覺骨干,有助于捕獲低級和高級視覺信息。此外,在第二階段,文本數據和多模態(tài)數據一起使用,以增加對齊度。與此不同的是,"Shikra"在兩個階段中更新所有權重,不同之處是保持視覺骨干凍結狀態(tài)。


「訓練數據」 在第一訓練階段(或者單階段)中,通常使用來自不同來源的圖像-文本對,使用諸如LAION-2B、LAION-400M、Conceptual Captions、COYO-700M和DataComp等數據集。一些方法將這些數據與一個或多個特點是文本與圖像交錯的數據集(通常是從網絡上抓取的)結合使用,比如WebLI、MMC4、MMDialog和OBELICS。為了解決先前數據集中的偏差和噪聲,StableLLaVA在第一階段引入了新收集的數據。該方法利用ChatGPT生成圖像提示和基于內容的對話的數據,并利用Stable Diffusion生成相應的圖像。


在接下來的階段中,利用了用于視覺指令微調的數據集。其中,常用的LLaVA-Instruct利用GPT-4生成的指令擴展了COCO。隨著這一趨勢的發(fā)展,有人通過整合手工制作和生成的高質量多樣化數據,擴大了維度規(guī)模。此外,還提出了其他多輪對話數據集,例如引入了一個將26個公開可用數據集轉換為其視覺指令版本的數據集,LLR-Instruction旨在通過更強大的指令減少幻覺,而LLaVAR則專注于文本豐富的圖像。

利用MLLMs處理視覺任務

標準MLLMs可以處理視覺理解任務,如視覺問答(VQA)、圖像描述和多輪對話。然而,最近人們對解決更精細的視覺任務表現出了興趣,如視覺定位和圖像生成。

視覺定位

MLLM的視覺定位能力指能夠與用戶進行包括內容定位的對話,也被稱為指代對話。也有人將指代定義為理解輸入區(qū)域內容的能力,可以在區(qū)域描述和指代表達生成等任務上進行評估。相反,視覺定位則與定位給定文本描述的區(qū)域相關聯,對應于任務,如指代表達理解(REC)、指代表達分割(RES)、短語定位和定位式圖像描述生成。為了賦予MLLMs這些能力,需要兩個核心功能:一個用于處理輸入區(qū)域的區(qū)域轉換序列方法,以及一個用于將名詞和短語與區(qū)域關聯的序列到區(qū)域方法。下表2總結了具有視覺定位能力的MLLMs。

入門必讀!多模態(tài)大語言模型的演變全回顧!(視覺定位、圖像生成、編輯、理解)-AI.x社區(qū)

「區(qū)域轉換文本」 輸出區(qū)域的最常見方式是直接將它們插入生成的文本中,作為一系列坐標,表示成數字或專用于位置范圍的特殊標記。Shikra、Kosmos-2、MiniGPT-v2、Ferret、CogVLM、SPHINX、QwenVL和Griffon通過指定兩個點將邊界框轉換為文本。VisionLLM、VistaLLM、LLaFS和ChatSpot允許MLLM通過將多邊形表示為一系列點的方式來處理它們。


「Embedding-as-Region」 另一種解決方案是通過區(qū)域編碼器讀取輸入區(qū)域,并將輸出區(qū)域作為MLLM最后一層提取的embedding傳遞給解碼器。對于輸入區(qū)域,GLaMM、GPT4RoI、ASM和ChatterBox利用圖像編碼器的特征對邊界框執(zhí)行ROI對齊,而PVIT則利用RegionCLIP。PixelLLM和LLaVA-G分別使用SAM的提示編碼器和Semantic-SAM。對于輸出區(qū)域,LISA、GLaMM、GSVA、NeXtChat和LISA++將與特殊標記對應的embedding發(fā)送到SAM的mask解碼器。LLaVA-G轉換為OpenSeeD,Lenna轉換為Grounding-DINO,PixelLM轉換為自定義輕量級像素解碼器。


不同的是,ContextDET引入了一個解碼器,接收帶有可學習query的名詞的潛在embedding,執(zhí)行與圖像特征的交叉注意力,然后使用分割頭。ChatterBox將iTPN-B編碼器和MLLM的特征組合起來,并提供給DINO檢測器。GELLA在Mask2Former中提出了一個融合模塊,基于多模態(tài)圖像特征提出mask,并使用關聯模塊將潛在embedding分配給它們。PaLI-3通過VQ-VAE解碼器將embedding轉換為分割mask。


「文本轉換位置」 其他方法基于接受文本類別作為輸入的開放詞匯模型。DetGPT為Grounding-DINO生成類別列表。BuboGPT利用RAM、Grounding-DINO和SAM的組合,并將標簽與輸出序列中的名詞進行匹配。

圖像生成與編輯

雖然最初的MLLMs展示了從視覺數據中提取信息的能力,但最新研究已經將其重點擴展到了生成視覺輸出。這一進展是通過將MLLM框架與圖像生成機制相結合實現的,主要體現在 Stable Diffusion模型中。這些模型具有一個以文本或視覺embedding為條件的去噪U-Net架構,通過交叉注意力層實現。所分析模型的完整列表如下表3所示。

入門必讀!多模態(tài)大語言模型的演變全回顧?。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

「將MLLM與擴散模型連接起來」 GILL是將MLLM的輸出embedding空間映射到凍結擴散模型的輸出空間的先驅。具體來說,受Q-Former啟發(fā),他們訓練了一個映射組件,通過最小化語言模型的圖像輸出表示與擴散模型的預期條件embedding之間的?2距離來實現。

雖然GILL避免了對LLM和擴散U-Net進行微調,但是替代方法仍然微調了語言模型以擴展其多模態(tài)生成能力。在這方面,Kosmos-G是通過一個訓練方案開發(fā)的,該方案將LLM的輸出與編碼器-解碼器結構相結合,利用重構損失和在CLIP-文本embedding中的距離最小化。類似地,MiniGPT-5除了GILL的對齊損失外,還包括擴散模型的重構損失。


此外,它將整個訓練過程分為兩個不同的階段:初始階段專注于文本到圖像的生成,而后續(xù)階段則專注于交錯的視覺和語言生成。顯然,研究人員已經研究了從輸入圖像中提取的離散和連續(xù)視覺標記與Stable Diffusion條件embedding的對齊。這通常通過對文本模型進行微調來實現。當然,也有人微調了LLM和Stable Diffusion U-Net。


有研究者提出了一種不同的方法,他們建議通過添加兩個特殊標記(即start和end)對LLM進行微調,并直接使用Stable Diffusion模型中的文本編碼器在這兩個標記之間對生成的文本進行編碼。LLM被訓練以輸出詳細的基于語言的生成提示,這些提示用于生成或編輯任務。U-Net通過更長、更詳細的文本說明進行微調。此外,在DreamLLM中,放棄了對齊損失,而是選擇了分數蒸餾損失,同時保持U-Net凍結。此外,其他研究者還進行了額外的研究努力,將MLLM引入圖像編輯領域。


「端到端Pipelines」 另一個方向是開發(fā)端到端訓練策略。Stable Diffusion U-Net直接通過LLM生成的連續(xù)視覺embedding進行微調。使用特征同步器,在LLM和擴散解碼器的中間層中跨多尺度高分辨率圖像特征進行交叉關注。此外,端到端訓練方法已經被用于非基于擴散的生成器,比如VQ-GAN。Aiello提出了一種不同的方法,通過雙向跨模型架構的交叉關注來混合LLM架構和自回歸生成器CM3Leon。

其他模態(tài)與應用

「視頻理解」 前面提到的大部分研究都集中在圖像上,但也有一些工作提出了專門用于處理視頻序列的MLLMs。這些模型獨立地處理視頻幀,使用基于CLIP的骨干提取幀級特征,然后利用池化機制或基于Q-Former的解決方案將這些特征組合起來。視覺特征與語言模型之間的連接和基于圖像的MLLMs趨勢一致,最常見的選擇是線性投影。然而,也有一些嘗試開發(fā)視頻特定的適配器,可以捕獲細粒度的時間信息。除了編碼視頻幀外,一些工作還利用音頻特征來豐富輸入視頻序列的表示。


「任意模態(tài)模型」 到目前為止,幾乎所有描述的模型都將單一模態(tài)作為LLM的輸入。然而,也有大量工作集中在設計出能夠有效處理多模態(tài)的解決方案。通常,這是通過使用Transformer塊(如Q-Former和Perceiver)來對齊多模態(tài)特征實現的,或者通過利用ImageBind來有效提取固有多模態(tài)特征。圖像、視頻和音頻是最常處理的模態(tài)。此外,一些工作還有效地編碼了3D數據和IMU傳感器信號。盡管所有這些解決方案都可以管理多模態(tài)輸入,但像NExT-GPT和Unified-IO 2這樣的方法也能夠生成不同模態(tài)的輸出。


「特定領域的MLLM」 除了處理通用的視覺輸入之外,一些研究工作致力于開發(fā)針對特定領域和應用的MLLM,可以從預訓練的LLM開始訓練模型,也可以使用特定領域的數據對現有的MLLM進行微調。一些例子包括用于文檔分析和文本密集型視覺輸入的MLLM,為體驗式人工智能和機器人技術設計的MLLM,以及針對特定領域(如醫(yī)學和自動駕駛)量身定制的MLLM。附錄中展示了不同特定領域的MLLM的完整列表。

總結與未來方向

本綜述提供了對MLLM最近發(fā)展的全面概述,首先關注了如何為LLM提供多模態(tài)能力,然后探討了這些模型解決的主要任務。根據綜述分析,闡述了后續(xù)重要的開放性挑戰(zhàn)和有前景的未來研究方向,以進一步增強MLLM的能力。


「幻覺矯正」 一些研究表明,MLLMs在生成較長對話時出現幻覺的概率較高。雖然一些解決方案正在嘗試解決這一問題,但理解和糾正幻覺的根本原因仍然是一個重要的挑戰(zhàn)。對于將這些模型應用于更為關鍵的場境(例如醫(yī)學),解決這一問題并確保其準確性和可信度至關重要。


「預防生成有害和偏見內容」 社會非常關注大模型的安全性和公平性。最新的研究表明,使用網絡抓取的數據訓練的模型很容易生成不當和有偏見的內容。盡管最近在努力減少文本到圖像生成模型中這種現象了,但需要進一步探索如何防止MLLMs中出現相同的行為。


「降低計算負載」 正如補充資料所示,MLLMs需要極高的計算資源。需要采取有效策略(Chu等,2024)來降低計算需求,從而使MLLMs的開發(fā)更加容易。可能的方向包括減少模型規(guī)模和數據量方面的訓練要求,并優(yōu)化推理階段。


本文轉自 AI生成未來 ,作者:Davide Caffagni等


原文鏈接:??https://mp.weixin.qq.com/s/0VeVvO7ETFTfnbWzuc38-g??

收藏
回復
舉報
回復
相關推薦