自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) 原創(chuàng) 精華

發(fā)布于 2024-5-24 13:15
瀏覽
0收藏

我在專欄[大語言模型的技術(shù)原理和應(yīng)用]中介紹了大語言模型(LLM)原理和應(yīng)用,LLM對(duì)語言建模,輸入輸出都是文本,屬于單模態(tài)模型。

LLM的出現(xiàn)讓人們看到了AGI的希望,但要實(shí)現(xiàn)AGI,就要讓機(jī)器像人類一樣實(shí)現(xiàn)多種感官協(xié)作,所以多模態(tài)是AGI必經(jīng)之路。從今天開始我們將進(jìn)入多模態(tài)領(lǐng)域。openAI剛剛發(fā)布的GPT-4o就是一種多模態(tài)大模型。

一、初識(shí)多模態(tài)大模型

1.1多模態(tài)大模型定義

所謂“多模態(tài)”簡單來講就是模型能夠處理多種數(shù)據(jù)模態(tài),例如,文本、圖像、視頻、音頻等。

因?yàn)橐曨l是由多幀圖像組成,音頻轉(zhuǎn)化為頻譜圖后也可以看作是一種特殊的圖像,所以多模態(tài)主要關(guān)注圖像和文本這兩種數(shù)據(jù)模態(tài)。

*openAI的文生視頻模型Sora,則是將圖像看作是一種特殊的視頻*

所謂“大模型”是相對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型而言的,傳統(tǒng)機(jī)器學(xué)習(xí)模型使用特定數(shù)據(jù)完成特定任務(wù),一旦訓(xùn)練完成很難泛化到其它任務(wù),大模型是在海量數(shù)據(jù)下進(jìn)行預(yù)訓(xùn)練使其具備通用能力,然后通過微調(diào)完成某一個(gè)任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

1.2多模態(tài)任務(wù)類型

了解完多模態(tài)大模型的定義,接下來看看多模態(tài)大模型到底能干什么。這也是學(xué)好多模態(tài)以及能夠順利讀完后續(xù)內(nèi)容的重要前提。


GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

多模態(tài)任務(wù)大體可以分為理解生成兩大類。

圖文檢索,即給定文本或者圖片,檢索出與之匹配的圖片或文本。本質(zhì)上就是分類任務(wù),在這個(gè)過程中沒有新內(nèi)容生成,只是基于輸入做出判斷,所以被視為理解型任務(wù),

視覺推理、視覺問答都是圖生文任務(wù),與之對(duì)應(yīng)的是文生圖任務(wù),像這種有新內(nèi)容生成的則被視為生成型任務(wù)。

文生圖,例如,Stable Diffusion和DALL-E,輸入一段描述文字,模型輸出一張圖片。

圖生文,例如,視覺問答,輸入一張圖片,再輸入一個(gè)問題,模型輸出答案。

除此之外,多模態(tài)還有很多應(yīng)用,文生視頻、Lanuguage Guided Detection、Lanuguage Guided Segmentation等等。

1.3多模態(tài)大模型在線體驗(yàn)

理解這些任務(wù)類型的最好方式就是親身體驗(yàn)一下,這里給大家介紹幾個(gè)在線體驗(yàn)的網(wǎng)址。

GPT-4o:OpenAI,受限免費(fèi)
https://chatgpt.com/
Gemini 1.5 pro: Google 免費(fèi)
https://aistudio.google.com/app/prompts/new_chat
騰訊混元大模型:騰訊,免費(fèi)
https://hunyuan.tencent.com/bot/chat

為了測試到底哪家強(qiáng)?我決定考考它們,讓它們分析下面圖片中的四面體有幾個(gè)三角形?還是有點(diǎn)難度的,要識(shí)別三角形,就得能識(shí)別出這是個(gè)多面體,要識(shí)別多面體,就得能區(qū)分實(shí)現(xiàn)和虛線的意義,并且還得排除由于圖像質(zhì)量引起的鋸齒干擾。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下面分別是它們的回答。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

目前看,還是GPT-4o略勝一籌。

二、多模態(tài)大模型結(jié)構(gòu)

人腦可以同時(shí)處理多種模態(tài)輸入,并且各種模態(tài)起到相互輔助理解的作用,人類大腦皮層中的不同功能區(qū)負(fù)責(zé)處理不同的信號(hào),在多模態(tài)大模型中,處理不同的數(shù)據(jù)模態(tài),也需要不同的模型架構(gòu)。

*題外話:馬斯克的腦機(jī)接口就是將極細(xì)的電極一端插入到控制行為的大腦皮層中,將收集到的信號(hào)傳送給機(jī)械設(shè)備替代人類完成動(dòng)作,或者跳過壞死的脊柱,將電極另一端連接到完好的脊柱上進(jìn)行信號(hào)傳遞*

如果有圖片輸入,則需要有能理解圖像的組件,我們稱之為圖像編碼器;如果有文本輸入,則需要有能理解文本的組件,我們稱之為文本編碼器;如果有圖片輸出,則需要有能生成圖像的組件,我們稱之為圖像解碼器;如果有文本輸出,則需要有能生成文本的組件,我們稱之為文本解碼器。

*對(duì)于解碼器,有的地方也會(huì)叫生成器*

以視覺問答為例,它是一種圖生文任務(wù),輸入是圖像,還會(huì)輸入一個(gè)問題,輸出是文本。

2.1圖像編碼器

圖像編碼器負(fù)責(zé)提取視覺表征,也就是理解圖像上有什么。無論是CV中的圖像分類、目標(biāo)檢測、圖像分割,表征提取都是必要步驟,甚至可以說深度學(xué)習(xí)其實(shí)就是表征學(xué)習(xí)。

*題外話:如果你去相親,回來后父母問你對(duì)方怎么樣?你說濃眉大眼櫻桃口,這就是一種外貌表征,就算只有一面之緣,過了很久再次碰到你也能瞬間認(rèn)出,這是視覺提取表征后與記憶匹配了。*

能夠提取圖像特征的,首先想到的肯定是卷積神經(jīng)網(wǎng)絡(luò)CNN,圖像經(jīng)過卷積層后輸出特征圖,在淺層網(wǎng)絡(luò)(靠近輸入端)會(huì)提取一些具體的特征,例如邊緣、角點(diǎn)或簡單的紋理,隨著層數(shù)的加深,特征會(huì)變得抽象。如物體的整體形狀和結(jié)構(gòu)。

在NLP中,當(dāng)Transformer處理一個(gè)單詞時(shí),它會(huì)計(jì)算這個(gè)單詞與其它所有詞的注意力分?jǐn)?shù),而CNN只會(huì)考慮卷積核范圍內(nèi)的像素,即使特征圖的感受野會(huì)隨著層數(shù)增加越來越大,但CNN仍是局部注意力,而Transformer則是全局注意力,全局注意力能更好的提取圖像特征。

隨著Transformer在NLP中取得成功,有人將這種架構(gòu)遷移到了CV領(lǐng)域,就有了ViT(Vision Transformer)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ViT

除了模型架構(gòu),成為大模型的另一個(gè)因素是能在大規(guī)模語料上預(yù)訓(xùn)練,有人將NLP中的預(yù)訓(xùn)練方法照搬到了CV中,在NLP中,BERT在預(yù)訓(xùn)練時(shí)會(huì)將句子中的單詞進(jìn)行隨機(jī)掩碼,通過反向傳播調(diào)整模型參數(shù),讓模型去準(zhǔn)確預(yù)測出掩碼的token,ViT則是將圖像劃分為patches,再對(duì)patches進(jìn)行隨機(jī)掩碼,然后讓模型去預(yù)測缺失部分,這個(gè)過程是自監(jiān)督的。

但是在ViT之前,CV中使用的是另一種更常用的預(yù)訓(xùn)練方法,就是先在ImageNet這種大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練,讓模型學(xué)習(xí)到一些提取基本特征的能力,然后在專用數(shù)據(jù)上進(jìn)行微調(diào)。

總結(jié)一下,圖像編碼器通常采用ViT架構(gòu),并且采用掩碼的方式預(yù)訓(xùn)練。

2.2文本編碼器

對(duì)于VQA任務(wù),還會(huì)輸入一個(gè)問題,所以還需要文本編碼器對(duì)文本進(jìn)行表征提取,文本編碼器通常采用Tranformer Encoder架構(gòu),因?yàn)镋ncoder在處理每個(gè)token時(shí)會(huì)考慮所有詞,所以擅長理解任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對(duì)文本編碼到底是什么意思?這個(gè)我在動(dòng)畫講解Tranformer一,動(dòng)畫講解Tranformer二中講的很清楚了。

舉個(gè)例子,“一個(gè)棕色的臘腸狗”,在進(jìn)入Transformer編碼器前,先轉(zhuǎn)換成Tokens,假設(shè)基于詞的Tokenlization,{“一個(gè)”,“棕色的”,“臘腸狗”},然后轉(zhuǎn)換成詞嵌入,假設(shè)詞嵌入維度為2,假設(shè)采用word2vec進(jìn)行初始化{(0.1,0.2),(0.3,0.4),(0.5,0.6)},經(jīng)過多頭注意力和MLP后輸出{(0.1,0.2),(0.3,0.4),(0.48,0.56)},“臘腸狗”的詞嵌入被修改了,新的詞嵌入具有了棕色臘腸的含義了。這里我們假設(shè)詞嵌入一個(gè)維度編碼了狗的品種,第二個(gè)維度則編碼了顏色。而最初那個(gè)詞嵌入,也就是在這個(gè)二維空間中(0.5,0.6)這個(gè)點(diǎn)則表示狗。

這里我們僅使用了2維的詞嵌入,GPT3的詞嵌入維度是12288,12288維度空間能表達(dá)很豐富的語義信息,人類很難想象高維度空間,因?yàn)榻柚?jì)算機(jī)也只能顯示三維空間,對(duì)于這個(gè)例子,在12288維空間中,別說是“棕色的臘腸狗”就算是“脾氣暴躁棕色的臘腸狗”,““脾氣暴躁棕色皮毛藍(lán)色眼睛的臘腸狗””等等,即使添加多個(gè)修飾詞也都能在這個(gè)高維空間中找到對(duì)應(yīng)的點(diǎn)。

*將Token轉(zhuǎn)換成詞嵌入,通常LLM會(huì)有一個(gè)嵌入層,也就是一個(gè)矩陣,我叫它詞嵌入轉(zhuǎn)換表,矩陣的高度是訓(xùn)練數(shù)據(jù)中所有唯一詞的個(gè)數(shù),矩陣的寬度是詞嵌入維度,根據(jù)token id去查找這個(gè)表就能獲取詞嵌入向量了,這個(gè)表中的值在訓(xùn)練開始時(shí)是隨機(jī)初始化的,并在訓(xùn)練過程中進(jìn)行更新*

2.3文本解碼器

VQA任務(wù)的輸出也是文本,這個(gè)任務(wù)由文本解碼器來完成,文本解碼器通常采用Tranformer Decoder架構(gòu),因?yàn)檫@種自回歸模型擅長文本生成,一個(gè)典型的例子就是GPT。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對(duì)于預(yù)測下一個(gè)詞,一開始是用統(tǒng)計(jì)學(xué)的方法實(shí)現(xiàn)的,如果訓(xùn)練數(shù)據(jù)中出現(xiàn)“臘腸狗”的次數(shù)比較多,那么,當(dāng)出現(xiàn)“臘腸”時(shí),模型很可能就會(huì)預(yù)測下一個(gè)詞是“狗”,這個(gè)例子是通過前面兩個(gè)詞預(yù)測下一個(gè)詞,也可以通過前面一個(gè)詞預(yù)測下一個(gè)詞,這個(gè)被稱為多元文法,當(dāng)然也可以通過前后兩個(gè)詞預(yù)測中間詞,當(dāng)給出“臘”和“狗”時(shí),很容易預(yù)測中間詞是“腸”,你發(fā)現(xiàn)沒,BERT和GPT的預(yù)訓(xùn)練方法跟這個(gè)很像??!。

2.4多模態(tài)融合

多模態(tài)融合的目的是,讓圖像編碼器對(duì)一幅狗的圖像的編碼輸出和文本編碼器對(duì)“一只狗”的編碼輸出不僅維度相同,而且在向量空間中越接近越好。否則你干你的,我干我的,就沒辦法將多模態(tài)融合在一起。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

當(dāng)獲得了這只臘腸狗的圖像編碼后,讓它分別與“一只臘腸狗”,“一只加菲貓”等的文本編碼進(jìn)行相似度計(jì)算,就能夠?qū)崿F(xiàn)圖像分類和檢索的任務(wù)。

如果將圖像編碼作為文本解碼器交叉注意力模塊的K,V,“what is in the picture?”作為文本解碼器交叉注意力模塊的Q,就實(shí)現(xiàn)了一個(gè)視覺問答任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

而如果圖像編碼與“一只棕色臘腸狗在草坪上玩耍”更接近,這就實(shí)現(xiàn)了更深層次融合,這對(duì)于視覺問答和推理這種生成任務(wù)更友好。

2.5圖像解碼器

VAE,GAN,Stable Diffusion將在下一篇文章介紹。

多模態(tài)大模型的發(fā)展過程中,圖像編碼器,文本編碼器,文本解碼器比較穩(wěn)定,基本上就是ViT和Transformer,主要變化的是多模態(tài)融合模塊,下面就來看一下多模態(tài)發(fā)展史。

三、多模態(tài)發(fā)展史

CLIP:Learning Transferable Visual Models From Natural Language Supervision(2021)

??https://arxiv.org/pdf/2103.00020??

我們都知道,機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。而在多模態(tài)領(lǐng)域,更確切地說在多模態(tài)的開山之作CLIP中又提出了一個(gè)叫做對(duì)比學(xué)習(xí)的概念,對(duì)比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)方法,也是一種特殊的無監(jiān)督學(xué)習(xí)方法。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對(duì)比學(xué)習(xí)最重要的是要構(gòu)造正負(fù)樣本對(duì)。

拿ImageNet為例,每一張圖像和它的標(biāo)簽就是一個(gè)正樣本對(duì),和其它標(biāo)簽就是負(fù)樣本,一幅狗的圖像和“a dog”就是正樣本,從不同角度拍攝的狗的圖像和“a dog”也是正樣本,但和“a cat”就是負(fù)樣本。

在訓(xùn)練過程中,CLIP通過對(duì)比學(xué)習(xí)不僅將圖像和文本編碼統(tǒng)一到一個(gè)向量空間中,而且通過對(duì)比損失函數(shù)調(diào)整模型參數(shù),讓正樣本的距離拉進(jìn),同時(shí)負(fù)樣本的距離疏遠(yuǎn)。

距離的衡量是通過計(jì)算向量的余弦夾角也就是向量的點(diǎn)乘。

那如何獲取整個(gè)句子或者整個(gè)圖片的編碼呢?我們都知道編碼器輸出每個(gè)單詞的詞嵌入,答案是CLS token,它編碼了整個(gè)句子,或者更直接的將所有詞的向量加權(quán)平均。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

圖像編碼器:ResNet或者ViT

文本編碼器:Tranformer

對(duì)比學(xué)習(xí)充當(dāng)了多模態(tài)融合的作用。

經(jīng)過預(yù)訓(xùn)練后的CLIP可以直接用于zero shot分類任務(wù),將閉集模型擴(kuò)展到開集模型,將標(biāo)簽替換成語言。例如,ImageNet分類。給一張圖像,先用圖像編碼器提取特征,然后構(gòu)造文本a photo of{class},并用文本編碼器編碼,計(jì)算余弦相似度,找到相似度最大的類別。

CLIP還有一個(gè)好處是可以提前計(jì)算好圖像和文本的編碼并存儲(chǔ)起來,當(dāng)來一個(gè)新的圖像和文本時(shí),可以直接拿出來用,并不需要重新計(jì)算。

所以,CLIP對(duì)于圖文檢索任務(wù)特別友好。

道有所能,則必有所不能,通過簡單的向量點(diǎn)乘實(shí)現(xiàn)多模態(tài)融合對(duì)檢索任務(wù)非常友好,但對(duì)于生成任務(wù)就有點(diǎn)力不從心了。

從此進(jìn)入了融合能力提升時(shí)代,也就是需要一個(gè)更復(fù)雜的多模態(tài)融合模塊。

ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision(2021)

??https://arxiv.org/pdf/2102.03334??

ViLT首先在模型結(jié)構(gòu)上做了改進(jìn),在ViT出現(xiàn)之前,圖像編碼器用的是CNN,具體來說是一個(gè)目標(biāo)檢測模型或者直接使用像ResNet這樣的骨干網(wǎng)絡(luò)提取特征,無論對(duì)于訓(xùn)練還是推理效率都很低。所以ViLT文本編碼器和圖像編碼器使用簡單的線性映射層。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ViLT另一大貢獻(xiàn)是改進(jìn)了CLIP的缺點(diǎn),也就是強(qiáng)化了多模態(tài)融合模塊,來增強(qiáng)多模態(tài)融合能力。所以,ViLT使用Transformer Encoder作為融合模塊。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

正是由于ViLT模型圖像編碼器過于簡單,使其跟復(fù)雜的視覺文本編碼器的模型比,效果不理想。而且實(shí)驗(yàn)證明,其訓(xùn)練過程中模型收斂的也很慢。

在損失函數(shù)上,ViLT沒有使用CLIP中的ITC(Image-Text Contrast)損失函數(shù),而是使用了ITM(Image Text Matching)損失函數(shù)和MLM(Masked Language Modeling)損失函數(shù),還有一個(gè)Word Patch Alignment損失函數(shù)。

MLM損失函數(shù):

對(duì)于一個(gè)Transformer Encoder模型,例如Bert,在預(yù)訓(xùn)練過程中會(huì)通過對(duì)序列中的token進(jìn)行掩碼方式進(jìn)行預(yù)訓(xùn)練,讓模型預(yù)測缺失的被掩碼token,這個(gè)損失函數(shù)也是評(píng)估模型的這個(gè)能力的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ITM損失函數(shù):

如上圖,BERT編碼器有個(gè)CLS Token,這個(gè)損失函數(shù)用于判斷圖文匹配程度。通過最小化這個(gè)損失函數(shù)來達(dá)到融合的目的。

雖然ViLT沒有達(dá)到預(yù)期,但在ViLT這篇論文中,對(duì)多模態(tài)模型也進(jìn)行了經(jīng)驗(yàn)性總結(jié),也為后續(xù)模型發(fā)展定下了基調(diào)。也就是在模型結(jié)構(gòu)上視覺編碼器要比文本編碼器大,而且模態(tài)融合也要強(qiáng),不能只是簡單的使用向量余弦夾角。

對(duì)于損失函數(shù),ITC,ITM和MLM這三個(gè)也被認(rèn)定是最有效的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

為什么視覺編碼器要比文本編碼器大?

文字是人造的,圖像是自然的,每個(gè)詞包含的語義信息要比圖像的單個(gè)像素更豐富,你可以做個(gè)實(shí)驗(yàn),你把文本和圖像都做隨機(jī)遮擋,把圖像遮擋80%仍可分析圖像中的是什么,但文本就做不到了。

從此之后,多模態(tài)大模型朝著大一統(tǒng)的方向發(fā)展。

模型結(jié)構(gòu)上的統(tǒng)一,例如,都使用無論視覺編碼器,文本編碼器還是多模態(tài)融合編碼器,都統(tǒng)一使用Transformer架構(gòu)。

任務(wù)上的統(tǒng)一,用同一個(gè)模型完成理解和生成任務(wù),圖文檢索,分類,VR,VE,VQA等。

ALBEF:Align before Fuse: Vision and Languag Representation Learning with Momentum Distillation(2021)

??https://arxiv.org/pdf/2107.07651??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

ALBEF模型符合我們在ViLT中對(duì)一個(gè)好的多模態(tài)模型的定義,就是視覺編碼器要比文本編碼器強(qiáng),多模態(tài)融合能力要強(qiáng),并且模型既能很好的用于圖文檢索又能用于生成任務(wù)。

但有人會(huì)問了,生成任務(wù)是需要解碼器的,可到目前為止用的都是Transformer編碼器啊,而且編碼器也主要用于多模態(tài)融合任務(wù)。

那是如何實(shí)現(xiàn)VQA的?

其實(shí)也可以變相實(shí)現(xiàn)的,我們稱之為閉集VQA。

在此之前,先來說一下如何使用Bert實(shí)現(xiàn)問答,本質(zhì)上就是將其轉(zhuǎn)換成一個(gè)分類任務(wù),例如將CLS Embedding后面加一個(gè)多分類模型,或者將問題和一個(gè)上下文一起發(fā)給Bert,然后通過一個(gè)二分類預(yù)測答案在上下文中的起始位置和結(jié)束位置。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

對(duì)于VQA而言,也可以看作一個(gè)分類任務(wù),也就是事先準(zhǔn)備好答案,例如一共10個(gè)答案,然后將圖像編碼作為交叉注意力模塊的K,V,問題作為Q,然后將融合模塊的CLS token的輸出輸入到一個(gè)10分類MLP中。

但這種方法的缺點(diǎn)顯而易見了,不夠靈活,后面我們會(huì)看到將使用帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

ALBEF全部采用Transformer架構(gòu),圖像編碼器有12層,將另一個(gè)12層的Transformer編碼器拆開,一半用于文本編碼,一半用于多模態(tài)融合。視覺編碼器要比文本編碼器復(fù)雜,使用編碼器作為融合模塊,這都符合前面對(duì)于“一個(gè)合理的多模態(tài)大模型”的預(yù)期。

視覺編碼器會(huì)使用DeiT預(yù)訓(xùn)練模型,文本編碼器和融合模塊用Bert預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化,如果直接將視覺文本特征送入融合模塊,效果不會(huì)很好,因?yàn)樗麄儾皇菍?duì)齊的,所以在進(jìn)入融合模塊之前,先采用前面提到的對(duì)比學(xué)習(xí)進(jìn)行多模態(tài)對(duì)齊。

損失函數(shù)同樣使用了ITC,MLM和ITM。

從網(wǎng)上爬下來的圖像文本對(duì)往往帶有很嚴(yán)重的噪聲,例如,華山的宣傳畫,描述的是青山綠水,有人嬉戲玩耍,但為了提高檢索率,往往只會(huì)用華山等關(guān)鍵詞。但關(guān)鍵詞往往不能描述圖像中的內(nèi)容,所以使用Momentum Model去生成為標(biāo)簽,本質(zhì)上就是為了生成高質(zhì)量的訓(xùn)練數(shù)據(jù)。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts(2022)

??https://arxiv.org/pdf/2111.02358??

前面的CLIP是一種雙塔對(duì)偶結(jié)構(gòu),一個(gè)圖像編碼器和一個(gè)文本編碼器,然后采用向量點(diǎn)乘實(shí)現(xiàn)模態(tài)之間的交互,好處是可以預(yù)先計(jì)算所有圖文的向量,來加快圖文檢索任務(wù)。但缺點(diǎn)也很明顯,不善于生成任務(wù)。

為了增強(qiáng)融合能力以適應(yīng)生成任務(wù),后續(xù)都是單塔模型,將一個(gè)Transformer分成兩部分,一部分用于文本編碼器,另一部分用于多模態(tài)編碼器,雖然提升了融合能力,但不靈活,對(duì)于圖文檢索任務(wù),需要計(jì)算Transformer Encoder融合編碼器的相似度分?jǐn)?shù),但這對(duì)圖文檢索不友好。

那能不能把雙塔和單塔的優(yōu)點(diǎn)結(jié)合起來呢?既能單獨(dú)用來對(duì)文本視覺編碼,又能融合。

所以VLMO中提出了混合專家模型(MOE)

(對(duì)于MOE,這是一種思想,大家可以回想下傳統(tǒng)機(jī)器學(xué)習(xí)中的集成學(xué)習(xí),在VLMO中,不同專家能夠處理不同的數(shù)據(jù)模態(tài),架構(gòu)不同,還有一種MOE思想是采用同一種架構(gòu),但每個(gè)專家去學(xué)習(xí)不同領(lǐng)域的知識(shí),例如,馬斯克開源的Grok大模型)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

MOME整體上就是一個(gè)Transformer Encoder結(jié)構(gòu),這實(shí)現(xiàn)了模型架構(gòu)上的統(tǒng)一,但是對(duì)Transformer Block里面做了改動(dòng),主要是對(duì)MLP層做了改動(dòng),多頭注意力層共享參數(shù)。其MLP層劃分為三種模態(tài)專家,分別是視覺專家(V-FFN)用于圖像編碼,語言專家(L-FFN)用于文本編碼,以及視覺-語言專家(VL-FFN)用于圖像-文本融合。

訓(xùn)練時(shí),也是迭代進(jìn)行,先像BEiT那樣視覺預(yù)訓(xùn)練,然后,凍結(jié)MSA和V-FFN參數(shù),再像BERT那樣文本預(yù)訓(xùn)練,最后輸入圖像文本對(duì)視覺語言預(yù)訓(xùn)練。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

VLMO不僅實(shí)現(xiàn)了模型架構(gòu)上的統(tǒng)一,而且也實(shí)現(xiàn)了任務(wù)上的統(tǒng)一,既能像CLIP那樣實(shí)現(xiàn)圖文檢索,也能處理生成任務(wù)。

BeiT v3:Image as a Foreign Language: BEIT Pretraining for  All Vision and Vision-Language Tasks(2022)

??https://arxiv.org/pdf/2208.10442??

以前我們使用ViT作為圖像編碼器,使用Transformer處理文本,兩者本質(zhì)上還是不同的,為了實(shí)現(xiàn)大一統(tǒng),能不能把圖像也看做是一種特殊的語言?

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

多模態(tài)繼續(xù)朝大一統(tǒng)的方向努力。

BEiT-3出現(xiàn)了,它將圖像看作是一種特殊的語言(Imglish)。

它與VLMO在模型架構(gòu)上很類似,也使用了MoE架構(gòu),所以可以適用于不同下游任務(wù),例如,a和b中用于分別編碼圖像和文本,c中用于視覺和文本融合,d中類似CLIP的對(duì)比學(xué)習(xí),以及e中的文本生成。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

損失函數(shù)不需要ITM和ITC,只要MLM損失。

但前面我們也說過,只有編碼器的模型在處理生成任務(wù)上是不靈活的,接下來我們將看到帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation(2022)

??https://arxiv.org/pdf/2201.12086??

BLIP這篇論文有兩個(gè)貢獻(xiàn)點(diǎn),一個(gè)是從模型,二個(gè)是數(shù)據(jù)。

前面提到的這些模型只使用了Transformer Encoder,適合理解任務(wù),不能直接用于生成任務(wù)。這時(shí)候需要加一個(gè)Decoder模塊。并且提出了一個(gè)統(tǒng)一的模型來處理不同的任務(wù)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

BLIP包括三個(gè)編碼器和一個(gè)解碼器,編碼器負(fù)責(zé)編碼圖像和文本,解碼器負(fù)責(zé)根據(jù)編碼器的輸出生成文本。

損失函數(shù)ITC和ITM,LM。通過ITC損失函數(shù)對(duì)齊圖像和文本;圖像編碼特征通過交叉注意力與文本特征融合。生成多模態(tài)特征,通過image-ground Text encoder去計(jì)算ITM損失。因?yàn)槭荰ransformer Decoder,用于文本生成,而不是預(yù)測掩碼,所以損失函數(shù)由MLM變成了LM。

注意,顏色相同的模塊參數(shù)是共享的。圖片經(jīng)歷一次前向過程,文本需要經(jīng)歷三次。

在數(shù)據(jù)上,提升預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量對(duì)于多模態(tài)性能提升很重要,但從網(wǎng)上下載的圖像文本對(duì)有噪音,還是通過有個(gè)方法提升訓(xùn)練數(shù)據(jù)質(zhì)量。論文提出了Captioner和Filter。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

如上圖,從互聯(lián)網(wǎng)爬下來的圖像描述是“blue sky bakery in sunset park”,這句話更適合搜索引擎,并沒有很好的描述圖片。

下面是Captioner模塊根據(jù)圖片生成的文本描述,很好的描述了圖片中的內(nèi)容。Filter則會(huì)判斷是互聯(lián)網(wǎng)上爬的好還是Cap生成的好,最后過濾掉質(zhì)量不好的。

具體過程是,Cap中用最大的BLIP模型生成40描述,F(xiàn)ilter中用CLIP檢索出質(zhì)量最好的5個(gè)。再用CLIP ResNet找到最好的。

CoCa:Contrastive Captioners are Image-Text Foundation Models(2022)

??https://arxiv.org/pdf/2205.01917??

與ALBEF很像,一個(gè)圖像編碼器,一個(gè)Transformer decoder分兩半。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

只使用Decoder,只使用ITC和LM損失,解決訓(xùn)練效率問題。其它模型都要forward好幾次。

Flamingo: a Visual Language Model for Few-Shot Learning(2022)

??https://arxiv.org/pdf/2204.14198??

當(dāng)前大語言模型就有很強(qiáng)的語言理解和生成能力,具有in context few-shot推理能力,那能不能利用這些LLM資源呢?

Flamingo借鑒LLM的Few-Shot推理能力,使其善于VR VE VQA等生成任務(wù)。

視覺編碼器也是用預(yù)訓(xùn)練好的ViT模型,例如BeiT,如果訓(xùn)練過程中參數(shù)保持不變,直接將視覺編碼器的輸出給LLM肯定不是對(duì)齊的,那如何實(shí)現(xiàn)多模態(tài)的融合?

要么微調(diào)ViT的參數(shù),要么中間加一個(gè)Adapter。

Flamingo選擇凍結(jié)大語言模型以及視覺預(yù)訓(xùn)練模型參數(shù),然后通過加一個(gè)Adapter實(shí)現(xiàn)模態(tài)之間的對(duì)齊。

從此進(jìn)入大語言模型加持時(shí)代。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

視覺問答

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是Flamingo的模型結(jié)構(gòu),藍(lán)色的模型參數(shù)是凍結(jié)的。

視覺編碼器是一個(gè)預(yù)訓(xùn)練的ResNet。

Perceiver Resampler就是Adapter,將ResNet的輸出特征映射成視覺tokens。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

GATED XATTN-DENSE layers:類似交叉注意力,視覺tokens作為LLM的條件輸入。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)


BLIP-2: Bootstrapping Language-Image Pre-training  with Frozen Image Encoders and Large Language Models(2023)

??https://arxiv.org/pdf/2301.12597??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

BLIP-2與BLIP相比,也是引入了LLM,總體上就是圖像編碼器提取圖像表征,然后將表征與用戶Query一起輸入到類似GPT的大語言模型,然后以自回歸的方式生成文本。這里圖像的表征,就像是RAG中的上下文,也就是告訴大語言模型,要基于圖像表征的內(nèi)容,針對(duì)我的問題給出答案。

BLIP2同樣凍結(jié)了圖像編碼器和LLM的參數(shù),然后讓Querying Transformer充當(dāng)Adapter的角色。

預(yù)訓(xùn)練分兩個(gè)階段,第一個(gè)階段,視覺文本表示學(xué)習(xí),讓Querying Transformer學(xué)習(xí)到的視覺表示與文本靠近,第二階段讓LLM理解Querying Transformer的輸出。這兩個(gè)過程都是調(diào)節(jié)Querying Transformer的參數(shù),其它都是凍結(jié)參數(shù)的。

下圖是第一階段訓(xùn)練過程。輸入圖像文本對(duì),損失函數(shù)ITC,ITM以及ITG。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是第二階段預(yù)訓(xùn)練,全連接層的目的是將Q-Former的輸出維度調(diào)整到LLM的輸入維度。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)


同樣使用Cap Filter模塊去除互聯(lián)網(wǎng)數(shù)據(jù)的噪聲,生成質(zhì)量更好的圖像文本對(duì)。

上述模型雖然是多模態(tài),但大多聚焦在文本和圖像,下面的模型能夠處理,語音,點(diǎn)云,紅外線,射線,圖,時(shí)序,視頻,是真正意義上的多模態(tài)。

IMAGEBIND: One Embedding Space To Bind Them All(2023)

??https://arxiv.org/pdf/2305.05665??

ImageBind的核心思想是,雖然有多種數(shù)據(jù)模態(tài),如果實(shí)現(xiàn)兩兩對(duì)齊很復(fù)雜,如果能找到一個(gè)中間人,也就是Image,讓其它模態(tài)與Image對(duì)齊,那么其它模態(tài)間也就能實(shí)現(xiàn)對(duì)齊了。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

Meta-Transformer: A Unified Framework for Multimodal Learning (2023)

??https://arxiv.org/pdf/2307.10802??

前面所有模型都需要構(gòu)造圖像文本對(duì),Meta-Transformer不需要構(gòu)造多模態(tài)輸入配對(duì)訓(xùn)練數(shù)據(jù),它通過Data-to-Sequence Tokenization將不同模態(tài)映射到同一個(gè)嵌入空間,然后通過Unified Encoder提取表征,最后通過Task-Specific Heads處理不同任務(wù),Meta-Transformer雖然不需要配對(duì)多模態(tài)數(shù)據(jù),但需要與任務(wù)相關(guān)的標(biāo)簽信息來訓(xùn)練模型。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)

下圖是Meta-Transformer與其它模型的對(duì)比。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態(tài)大模型系列之一) -AI.x社區(qū)



本文轉(zhuǎn)載自公眾號(hào)人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/-7bEdhR3FXmWRCpDO56Ung??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦