多模態(tài)大模型最全綜述導(dǎo)讀 原創(chuàng)
多模態(tài)大模型最新研究綜述簡單版。
不知道最近微軟出的多模態(tài)大模型最全綜述 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 大家有沒有看~
包含5大主題一共119頁,內(nèi)容又干又多,目前網(wǎng)上找到的中文解讀干貨內(nèi)容都比較全比較長,很容易迷失其中,一直難以看完。
本期來給大家做一個這篇論文相對簡單的導(dǎo)讀;如果大家有想要著重了解部分或感興趣的內(nèi)容可以先針對性地看。
下面是一個快捷目錄。
1. 章節(jié)分布
2. 具體內(nèi)容解讀?
章節(jié)分布
論文從目前已經(jīng)完善的和還處于最前沿的兩類多模態(tài)大模型研究方向出發(fā),全面總結(jié)了五個具體研究主題:
- 視覺理解
- 視覺生成
- 統(tǒng)一視覺模型
- LLM加持的多模態(tài)大模型
- 多模態(tài)agent
這里瓦力畫了一個比較簡單的圖,大致總結(jié)一下各個主題的內(nèi)容,大家可以參考。
具體內(nèi)容解讀
具體的模型、算法大家都可以針對性地自己了解,這里先給大家總結(jié)一些比較關(guān)鍵的點(diǎn):
1. 語言或視覺多模態(tài)的開發(fā)路線
上述四個類別中,第一類是任務(wù)特定模型,后面三類屬于基礎(chǔ)模型。
下面以語言為例,聊聊AI的演進(jìn)趨勢:
- Task-Specific Models:可以對標(biāo)以前LSTM/RNN時代,需要一個任務(wù)訓(xùn)練一個模型。
- Pre-trained Models:transformer(BERT、GPT)時代,先有預(yù)訓(xùn)練的權(quán)重,再繼續(xù)適配下游任務(wù)進(jìn)行一次訓(xùn)練,但還是不同下游任務(wù)適配的不一樣權(quán)重;這個時代大家站transformer比較多,GPT此類單向注意力的模型一般在生成任務(wù)且要求序列生成較穩(wěn)定的情況下使用。
- Unified Models with Emerging Capabilities開始,GPT3已經(jīng)展現(xiàn)了一些涌現(xiàn)能力。
- General-purpose Assistant時代:OpenAI堅定地走了GPT路線,并對生成結(jié)果進(jìn)行了對齊,ChatGPT就此誕生了~
2. 多模態(tài)中經(jīng)典的5個問題
論文中回答了經(jīng)典的5個問題,也闡述了多模態(tài)基礎(chǔ)模型旨在解決的三個代表性問題:視覺理解任務(wù)、視覺生成任務(wù)和具有語言理解和生成的通用界面。
Q1:如何學(xué)習(xí)視覺表示?
Q2:如何做視覺生成?
Q3:如何不基于大語言模型訓(xùn)練一個通用視覺模型?
Q4:如何訓(xùn)練多模態(tài)大語言模型
Q5:如何為大語言模型鏈接一個多模態(tài)專家?
下面是論文中各章節(jié)及經(jīng)典的模型推薦,其中橙色的部分,也就是視覺理解主題部分回答了Q1;綠色的部分,視覺生成主題部分回答了Q2;藍(lán)色的部分,回答了Q3~Q5。
下面我從文章摘取一些內(nèi)容簡單回答來上述5個問題,如果大家需要詳細(xì)了解的話可以從上圖中對應(yīng)章節(jié)去研讀:
Q1:如何學(xué)習(xí)視覺表示?
下圖比較清晰的展現(xiàn)了現(xiàn)有的四種方法:
此外,論文中還列出了上述方法的代表模型。
- 監(jiān)督學(xué)習(xí)
- 對比語言-圖像預(yù)訓(xùn)練
- 純圖像自我監(jiān)督學(xué)習(xí)(對比學(xué)習(xí)、非對比學(xué)習(xí))
- 掩碼圖像建模
Q2:如何做視覺生成?
現(xiàn)有方法的代表模型。
1) 具有代表性的文本到圖像生成模型
2)經(jīng)典的擴(kuò)散模型架構(gòu)
3)未來研究趨勢:統(tǒng)一調(diào)優(yōu),實(shí)現(xiàn)人工對齊
具體又可以分為這三個方向:
- 統(tǒng)一的圖像和文本輸入。
- 調(diào)整以對齊為中心的損失和獎勵。
- 多模態(tài)內(nèi)容理解和生成的閉環(huán)。
Q3:如何不基于大語言模型訓(xùn)練一個通用視覺模型?
現(xiàn)有方法的代表模型。
1)從封閉集到開放集
通過引入對比語言-圖像預(yù)訓(xùn)練方法來訓(xùn)練開放集模型,解決了傳統(tǒng)封閉集模型的局限性。如圖 4.2 (a) 所示,CLIP 不是學(xué)習(xí)從輸入到標(biāo)簽的映射,而是使用數(shù)億個圖像-文本對學(xué)習(xí)對齊的視覺語義空間。
2)從特殊任務(wù)到通用
可分為I/O Unification 和Functionality Unification,也就是I/O統(tǒng)一和功能統(tǒng)一。
- I/O統(tǒng)一:使用分詞器將各種任務(wù)中使用的不同模式的原始輸入和輸出 (I/O) 分詞化為連貫的序列(視覺或文本)分詞,然后利用統(tǒng)一的序列到序列模型。
- 功能統(tǒng)一:最近許多研究都使用了類似于transformer 的 Encoder-Decoder 架構(gòu),需要復(fù)雜的模型設(shè)計來適應(yīng)各種任務(wù)。
3)從靜態(tài)到可提示
這里的研究主要是一些增強(qiáng)靜態(tài)視覺模型的能力,目的是為了支持:(i) 多模態(tài)提示;(ii) 上下文提示。
Q4:如何訓(xùn)練多模態(tài)大語言模型?
這里文中舉了兩個例子:
1)LMM 使用圖像-文本成對實(shí)例進(jìn)行訓(xùn)練
大多數(shù) LMM 都是在大量圖像-文本對上訓(xùn)練的,其中每個訓(xùn)練樣本都是一對。
2)使用交錯圖像文本序列實(shí)例訓(xùn)練的 LMM。
論文中以Flamingo為例, Flamingo 使用僅來自 Web 的互補(bǔ)大規(guī)模多模態(tài)數(shù)據(jù)的混合進(jìn)行訓(xùn)練,而不使用任何用于機(jī)器學(xué)習(xí)目的的注釋數(shù)據(jù)。訓(xùn)練完成后,F(xiàn)lamingo可以通過簡單的few-shot learning 直接適應(yīng)視覺任務(wù),而無需任何額外的任務(wù)特定調(diào)整。
Q5:如何為大語言模型鏈接一個多模態(tài)專家?
這里以MM-ReAct為例,其系統(tǒng)范式由 Chat GPT 組成了多模態(tài)工具,用于多模態(tài)推理和動作。通過使用各種多模態(tài)工具增強(qiáng)純語言的 ChatGPT,MM-REACT 支持多模態(tài)的輸入和輸出,包括文本、圖像和視頻。
再下面是MM-REAC涌現(xiàn)的多模態(tài)推理和動作功能。
那么論文的簡單導(dǎo)讀就是這樣了,如果大家覺得論文過長文本看不進(jìn)去還可以看論文中1.4節(jié)附上的視頻,B站和youtube都有;雖然是英文的,但結(jié)合PPT整體看下來是比較容易理解的。
參考文獻(xiàn):
[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)
文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
原文鏈接:??https://mp.weixin.qq.com/s/fTiUSPZi8q3qy-Lnt6_EZQ??
