自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法 精華

發(fā)布于 2024-6-12 12:20
瀏覽
0收藏

大語言模型的進(jìn)展催生出了ChatGPT這樣的應(yīng)用,讓大家對(duì)“第四次工業(yè)革命”和“AGI”的來臨有了一些期待,也作為部分原因共同造就了美股2023年的繁榮。LLM和視覺的結(jié)合也越來越多:比如把LLM作為一種通用的接口,把視覺特征序列作為文本序列的PrefixToken,一起作為LLM的輸入,得到圖片或者視頻的caption;也有把LLM和圖片生成模型、視頻生成模型結(jié)合的工作,以更好控制生成的內(nèi)容。當(dāng)然2023年比較熱門的一個(gè)領(lǐng)域便是多模態(tài)大模型,比如BLIP系列、LLaVA系列、LLaMA-Adapter系列和MiniGPT系列的工作。LLM的預(yù)訓(xùn)練范式也對(duì)視覺基礎(chǔ)模型的預(yù)訓(xùn)練范式產(chǎn)生了一定的影響,比如MAE、BEIT、iBOT、MaskFEAT等工作和BERT的Masked Language Modeling范式就很類似,不過按照GPT系列的自回歸方式預(yù)訓(xùn)練視覺大模型的工作感覺不是特別多。


下面對(duì)最近視覺基礎(chǔ)模型的生成式預(yù)訓(xùn)練的工作作一些簡單的介紹。

LVM

《Sequential Modeling Enables Scalable Learning for Large Vision Models》是UC Berkely和Johns Hopkins University在2023提出的一個(gè)影響比較大的工作,視覺三大中文會(huì)議也在頭版頭條做了報(bào)道,知乎的討論也比較熱烈。



按照自回歸的生成式訓(xùn)練模型的工作之前也有,比如Image Transformer和Generative Pretraining from Pixels等,不過無論是訓(xùn)練的數(shù)據(jù)量還是模型的參數(shù)量都比較小。LVM把訓(xùn)練數(shù)據(jù)統(tǒng)一表述成visual sentences的形式。對(duì)訓(xùn)練數(shù)據(jù)、模型參數(shù)量都做了Scaling,并驗(yàn)證了Scaling的有效性和模型的In-context推理能力。


本文的一大貢獻(xiàn)便是數(shù)據(jù)的收集和整理,和訓(xùn)練LLM的文本數(shù)據(jù)一樣規(guī)模的視覺數(shù)據(jù)在之前缺乏的,因此從開源的各種數(shù)據(jù)源出發(fā),得到了 1.64billion 圖片的數(shù)據(jù)集 UVDv1(Unified Vision Dataset v1)。文中對(duì)數(shù)據(jù)的來源以及將不同數(shù)據(jù)統(tǒng)一為visual sentences描述形式的方法做了詳細(xì)的介紹Fig 1,可以refer原文更多的細(xì)節(jié)。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 1 Visual sentences 能夠?qū)⒉煌囊曈X數(shù)據(jù)格式化為統(tǒng)一的圖像序列結(jié)構(gòu)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 2

Fig 2模型的結(jié)構(gòu)如圖Fig 2所示,主要包含三部分:Tokenizer、Autoregressive Vision Model和DeTokenizer。


其中Tokenizer和DeTokenizer取自于VQ-GAN,codebook大小為8192,輸入圖片分辨率為256X256,下采樣倍數(shù)為16,因此一張輸入圖片對(duì)應(yīng)的Token數(shù)目為16X16=256,這一個(gè)模塊通過LAION 5B數(shù)據(jù)的1.5B的子集來訓(xùn)練。


這樣對(duì)于一個(gè)visual sentence,會(huì)得到一個(gè)Token的序列(和目前的很多多模態(tài)大模型不一樣,這兒沒有特殊的token用以指示視覺任務(wù)的類型),作為Autoregressive Vision Model的輸入,通過causal attention機(jī)制預(yù)測(cè)下一個(gè)Token。文中的自回歸視覺模型的結(jié)果和LLaMA的結(jié)構(gòu)一樣,輸入的token 序列的長度為4096個(gè)token(16張圖片),同時(shí)在序列的開始和結(jié)束分別會(huì)放置[BOS](begin of sentence)和[EOS](end of sentence),代表序列的開始和結(jié)束。整個(gè)模型在UVD v1(包含420 billion tokens)數(shù)據(jù)上訓(xùn)練了一個(gè)epoch,模型的大小包括四種:300 million、600 million、1 billion和3 billion。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 3

從Fig 3可以看出,訓(xùn)練過程中,模型的loss一直在下降,而且模型參數(shù)量越大,loss下降越快


更多的實(shí)驗(yàn)結(jié)果分析可以refer原文。

EMU

《Generative Pretraining in Multimodality》是BAAI、THU和PKU的工作,提出了多模態(tài)大模型EMU,EMU的輸入是image-text interleaved的序列,可以生成文本,也可以橋接一些擴(kuò)散模型的Decoder生成圖片。


  • https://arxiv.org/abs/2307.05222
  • https://github.com/baaivision/Emu

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 4

EMU的結(jié)構(gòu)如圖Fig 4所示,包含四個(gè)部分,Visual Encoder(文中用的EVA-02-CLIP)、Causal Transformer、Multimodal Modeling(LLaMA)和Visual Decoder(Stable Diffusion)。


值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)


text通過文本的tokenizer得到文本特征序列,和視覺信息對(duì)應(yīng)特征序列連接,并在序列的開始和結(jié)束處分別添加表述開始和結(jié)束的特殊token,即[s]和[/s]。最后得到的多模態(tài)序列作為LLaMA的輸入,得到文本輸出,而LLaMA輸出的視覺特征序列作為擴(kuò)散模型的條件輸入,得到生成的圖像。


值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)


對(duì)Emu預(yù)訓(xùn)練之后,會(huì)對(duì)圖片生成的Stable Diffusion的Decoder進(jìn)行微調(diào)。微調(diào)的時(shí)候,只有U-Net的參數(shù)會(huì)更新,其他的參數(shù)固定不變。訓(xùn)練數(shù)據(jù)集為LAION-COCO和LAION-Aesthetics。每一個(gè)訓(xùn)練樣本的文本特征序列的結(jié)尾處都會(huì)添加一個(gè)[IMG] token,最后通過自回歸的方式得到N個(gè)視覺特征,這些特征序列作為Decoder的輸入得到生成的圖片。


文中還對(duì)Emu進(jìn)行多模態(tài)指令微調(diào)以對(duì)其human instructions。數(shù)據(jù)集包括來自于ShareGPT和Alpaca的文本指令、來自于LLaVA的圖像-文本指令以及來自于VideoChat和Video-ChatGPT的video指令。微調(diào)的時(shí)候,Emu的參數(shù)都會(huì)固定不變,只有LoRA模塊的參數(shù)更新。微調(diào)的指令跟隨數(shù)據(jù)集格式如下:


[USER]:[ASSISTANT]:。


[User]和[ASSISTANT]分別是單詞“word”和“assistant”對(duì)應(yīng)的embedding,不同的任務(wù)下也有所不同。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 5

Fig 5是Emu的In-context Learning推理的一個(gè)例子,輸入圖片-描述,以及query文本,會(huì)得到對(duì)應(yīng)的輸出圖片。

4M

《4M: Massively Multimodal Masked Modeling》是瑞士洛桑聯(lián)邦理工和Apple發(fā)表在NeurIPS 2023的一個(gè)工作,提出了一種對(duì)視覺模型做生成式預(yù)訓(xùn)練的范式4M(Massively Multimodal Masked Modeling),將多模態(tài)的輸入信息編碼為特征序列,作為Transformer encoder-decoder的輸入,同時(shí)采用Masked Modeling的方式,在大量的數(shù)據(jù)集上對(duì)模型進(jìn)行了訓(xùn)練預(yù)訓(xùn)練,可以實(shí)現(xiàn)多模態(tài)輸入、多模態(tài)輸出,得到的transformer encoder也可以作為一些視覺任務(wù)的backbone網(wǎng)絡(luò)提取圖片特征。


  • 4M: Massively Multimodal Masked Modeling(https://arxiv.org/abs/2312.06647)
  • 4M: Massively Multimodal Masked Modeling(https://4m.epfl.ch/)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 6

模型的結(jié)構(gòu)如圖Fig 6所示,不同模態(tài)的輸入按照不同的方式編碼為特征序列,同時(shí)從特征序列中隨機(jī)選擇一部分作為context,另外一部分作為需要預(yù)測(cè)的target,模型基于context序列預(yù)測(cè)target序列。


值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)


RGB、normals或者depth圖則是用VQ_VAE的的encoder得到特征序列,同時(shí)用擴(kuò)散模型的decoder得到重建結(jié)果,損失不是擴(kuò)散模型里面常用的噪聲回歸損失,而是重建clean image的損失。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 7

預(yù)訓(xùn)練之后的模型可以通過自回歸的方式得到輸出的特征序列,這些特征序列可以通過對(duì)應(yīng)的decoder解碼得到輸出的圖片、文本等,如圖Fig7所示。訓(xùn)練之后encoder可以作為目標(biāo)檢測(cè)、語義分割等視覺任務(wù)的骨架網(wǎng)絡(luò)。

VL-GPT

《VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation》是西交、騰訊和港大提出的一個(gè)工作。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 8

模型的結(jié)構(gòu)如圖Fig 8所示,包含兩個(gè)部分,第一個(gè)部分是image tokenizer-detokenizer框架的訓(xùn)練,第二個(gè)部分是VL-GPT模型的預(yù)訓(xùn)練和指令微調(diào)。輸入模型的文本、圖片分別通過Image Tokenizer和Text Tokenizer得到圖像和文本特征序列,連接之后得到imate-text interleaved的文本-圖像特征序列,作為LLM的輸入,通過自回歸的方式得到輸出的特征序列,輸出的特征序列通過Image和Text Detokenizer得到生成的圖片和文本。


值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 9

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)


更多的細(xì)節(jié)可以refer原文。

VILA

《VILA: On Pre-training for Visual Language Models》是NVIDIA和MIT提出的一個(gè)工作,文中對(duì)視覺語言模型預(yù)訓(xùn)練的有效機(jī)制進(jìn)行了一些總結(jié),并提出了一系列視覺語言的大模型VILA(Visual Language)。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 10

模型的結(jié)構(gòu)如圖Fig 10左圖所示,和LLaVA系列差不多,模型的訓(xùn)練包含三個(gè)階段,如圖Fig 10所示。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

通過一系列的實(shí)驗(yàn),文中得到了下面的三個(gè)結(jié)論:


  1. LLM凍結(jié)與更新:在預(yù)訓(xùn)練過程中,凍結(jié)大型語言模型(LLM)可以實(shí)現(xiàn)不錯(cuò)的零樣本(zero-shot)性能,但缺乏上下文學(xué)習(xí)能力(in-context learning capability)。為了獲得更好的上下文學(xué)習(xí)能力,需要對(duì)LLM進(jìn)行更新。實(shí)驗(yàn)表明,更新LLM有助于在更深層次上對(duì)齊視覺和文本的潛在嵌入,這對(duì)于繼承LLM的上下文學(xué)習(xí)能力至關(guān)重要。
  2. 交錯(cuò)預(yù)訓(xùn)練數(shù)據(jù):交錯(cuò)的視覺語言數(shù)據(jù)(如MMC4數(shù)據(jù)集)對(duì)于預(yù)訓(xùn)練是有益的,而僅使用圖像-文本對(duì)(如COYO數(shù)據(jù)集)則不是最佳選擇。交錯(cuò)數(shù)據(jù)結(jié)構(gòu)有助于模型在保持文本能力的同時(shí),學(xué)習(xí)與圖像相關(guān)的信息。
  3. 文本數(shù)據(jù)重混合:在指令微調(diào)(instruction fine-tuning)階段,將文本指令數(shù)據(jù)重新混合到圖像-文本數(shù)據(jù)中,不僅能夠修復(fù)LLM在文本任務(wù)的性能退化,還能提高視覺語言任務(wù)的準(zhǔn)確性。這種數(shù)據(jù)混合策略有助于模型在保持文本能力的同時(shí),提升對(duì)視覺語言任務(wù)的處理能力。

EMU2

《Generative Multimodal Models are In-Context Learners》是Emu的團(tuán)隊(duì)提出的另外一個(gè)工作,文中提出的多模態(tài)大語言模型Emu2對(duì)Emu進(jìn)行了一些結(jié)構(gòu)和訓(xùn)練策略上的改進(jìn)。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 11

模型的結(jié)構(gòu)如圖Fig 11所示,包含三個(gè)部分:Visual Encoder、Multimodal LLM和Visual Decoder,文中分別用EVA-02-CLIP-E-plus、LLaMA-33B和SDXL對(duì)上述的三個(gè)模塊進(jìn)行參數(shù)初始化。和Emu相比,少了Casual Transformer,輸入的圖片通過mean pooling以及Visual Encoder提取圖像特征之后,通過線性映射連接Visual Encoder和Multimodal LLM。


在預(yù)訓(xùn)練階段,用到的訓(xùn)練數(shù)據(jù)包括image-text pair形式的數(shù)據(jù)(LAION-2B、CapsFusion-120M)、video-text pair形式的數(shù)據(jù)(WebVid-10M)、interleaved image-text形式的數(shù)據(jù)(Multimodal-C4 MMC4)、interleaved video-text形式的數(shù)據(jù)(YT-Storyboard-1B)、grounded image-text pair形式的數(shù)據(jù)(GRIT-20M、CapsFusoion-grounded-100M),同時(shí)為了保持模型的文本推理能力,還在只有文本數(shù)據(jù)的Pile上對(duì)模型進(jìn)行了訓(xùn)練。圖片都會(huì)通過visual encoder得到大小為N=64的圖像特征序列。


  • 模型首先在image-text和video-text形式的數(shù)據(jù)上做了訓(xùn)練,損失函數(shù)只在text token上進(jìn)行了計(jì)算。
  • 接下來,固定住Visual Encoder的參數(shù),對(duì)linear projection layer和Multimodal LLM的參數(shù)進(jìn)行訓(xùn)練,包括文本的分類損失(這兒應(yīng)該就是Cross Entropy)以及圖像回歸損失(針對(duì)圖像特征L2的損失)。訓(xùn)練的時(shí)候,所有形式的數(shù)據(jù)都用來對(duì)模型進(jìn)行了訓(xùn)練。
  • 最后會(huì)對(duì)Visual Decoder進(jìn)行訓(xùn)練,文中用SDXL-base對(duì)Visual Decoder的參數(shù)進(jìn)行初始化,LLM輸出的 大小為N的圖像特征序列會(huì)做為Decoder的條件,引導(dǎo)圖片或者視頻的生成。用到的訓(xùn)練數(shù)據(jù)包括LAION-COCO和LAION-Aesthetics,SDXL里面的Visual Encoder和VAE的參數(shù)都會(huì)固定不變,只有U-Net的參數(shù)會(huì)進(jìn)行更新。


在指令微調(diào)階段,用不同類型的數(shù)據(jù),得到兩個(gè)不同的指令微調(diào)模型,分別為Emu2-Chat和Emu2-Gen。Emu2-Chat可以基于多模態(tài)的輸入得到對(duì)應(yīng)的輸出,Emu2-Gen則是接受文本、位置和圖片的輸入,生成符合輸入條件的圖片。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

在訓(xùn)練Emu2-Gen的時(shí)候,用到的數(shù)據(jù)包括CapsFusion-grounded-100M、Kosmos-2提到的GRIT、InstructPix2Pix里面數(shù)據(jù)、CapsFusion、LAION-Asthetics、SA-1B和LAION-High-Resolution,文中還從其他付費(fèi)渠道收集了數(shù)據(jù)(比如Unsplash、Midjourney-V5和DALL-E-3生成的圖片等)。和其他多模態(tài)大模型不一樣,物體的坐標(biāo)不是以文本的形式或者ROI特征向量的方式送入LLM,而是直接在黑白圖片上對(duì)應(yīng)的坐標(biāo)位置處繪制相應(yīng)的框,得到的圖片通過Visual Encoder提取特征。整個(gè)序列如下:<s>A photo of <p>a man</p><coor>image embedding of object localization image</coor>[IMG]image embedding of man[/IMG]sitting next to <p>a dog</p><coor>image embedding of object localization image</coor>[IMG]image embedding of dog[/IMG][IMG]image embedding of the whole image[/IMG]</s>

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 12

生成的一些示例圖片如圖Fig 12所示。

DeLVM

《Data-efficient Large Vision Models through Sequential Autoregression》是華為諾亞實(shí)驗(yàn)室的一個(gè)工作,是在LVM基礎(chǔ)上提出的一個(gè)工作。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 13

模型結(jié)構(gòu)和LVM一直,如圖Fig 13 a 所示,這篇文章主要在兩個(gè)方面做了改進(jìn)探索,比如數(shù)據(jù)增強(qiáng)和蒸餾。數(shù)據(jù)增強(qiáng)主要是對(duì)存在長尾分布的數(shù)據(jù)中數(shù)量較少的這一類型的數(shù)據(jù)做重復(fù)的采樣,也提高這部分?jǐn)?shù)據(jù)的數(shù)量。

AIM

《Scalable Pre-training of Large Autoregressive Image Models》是蘋果提出的一個(gè)工作,也是通過自回歸的方式訓(xùn)練視覺基礎(chǔ)模型,也發(fā)現(xiàn)了和LVM類似的和數(shù)據(jù)、模型參數(shù)量有關(guān)的Scaling效果,不過實(shí)現(xiàn)方式和LVM還是存在不小的差異。


值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 14

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 15

如圖Fig 16,AIM觀察到了和LVM一樣的Scaling現(xiàn)象,即模型參數(shù)量越多,訓(xùn)練的時(shí)候損失下降越快,效果也更好。在圖Fig 17中也可以看到,訓(xùn)練的數(shù)據(jù)量越大,在驗(yàn)證集上的損失下降就越低。

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 16

值得細(xì)讀的八個(gè)視覺大模型生成式預(yù)訓(xùn)練方法-AI.x社區(qū)

Fig 17

整體來說,是非常solid的一個(gè)工作,更多的細(xì)節(jié)可以refer原文。


本文轉(zhuǎn)自 AI生成未來 ,作者:vasgaowei


原文鏈接:??https://mp.weixin.qq.com/s/nGv_BCJxdcyJStaHIp-nLw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦