融合語言模型的多模態(tài)大模型研究
近年來,大語言模型(Large language model, LLM)取得了顯著進展。以ChatGPT為代表的LLM在自然語言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類的性能,但是單純的LLM只能處理文本類任務(wù)。與此同時,在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺基礎(chǔ)模型也在快速發(fā)展。盡管在視覺領(lǐng)域還沒有出現(xiàn)“ChatGPT時刻”,但是預(yù)訓(xùn)練視覺基礎(chǔ)模型已經(jīng)可以在很多真實視覺場景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性能。如何將兩者在各自領(lǐng)域的優(yōu)秀性能結(jié)合起來,實現(xiàn)在視覺-語言領(lǐng)域具有推理能力的通用大模型是當(dāng)前一個熱門研究課題。
1.模型介紹
GPT-4在技術(shù)報告中展示了驚艷的多模態(tài)能力,如圖1、2、3所示。但是GPT-4還沒開放多模態(tài)能力的接口。很多研究者已經(jīng)基于開源LLM進行了相關(guān)的研究,力圖達到GPT-4展示的強大多模態(tài)性能。
下面以發(fā)布時間為順序,介紹主流的融合LLM的多模態(tài)模型各自的一些特點,以此窺見此類技術(shù)的發(fā)展趨勢。
▲ 圖1 讓GPT-4描述圖中有趣的地方
GPT-4可以識別出VGA接口和lightning接口,而且判斷出VGA接口與手機是不匹配的。
▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服,也能夠識別出租車在行駛,最終識別出這兩個場景出現(xiàn)在一個畫面中是不正常的。
▲ 圖3 GPT-4推理能力
GPT-4在這個畫面的識別中展現(xiàn)出了較為強大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內(nèi)容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態(tài)模型構(gòu)想的工作,整體結(jié)構(gòu)如圖5。這個工作主要提出了Q-former這個跨視覺語言模態(tài)的連接結(jié)構(gòu)。如圖4所示,Q-former結(jié)構(gòu)設(shè)計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設(shè)計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型,這些模型在語言生成方面的能力不是特別強。BLIP2的預(yù)訓(xùn)練分為兩階段,第一階段Q-former與一個凍結(jié)參數(shù)的image encoder訓(xùn)練,學(xué)習(xí)視覺語言表征;第二階段Q-former與凍結(jié)的LLM訓(xùn)練,學(xué)習(xí)視覺到文本的生成能力。在進行一些下游任務(wù),如image caption,visual question answering(VQA),BLIP2模型仍需要微調(diào)Q-former和image-encoder的模型權(quán)重。BLIP2模型的一個缺陷是,沒有in context learning能力,上下文關(guān)聯(lián)對話能力較差。作者認(rèn)為原因是BLIP2的訓(xùn)練數(shù)據(jù)是單對的圖文對,數(shù)據(jù)本身就缺少多輪對話相關(guān)性。
▲ 圖4 Q-former結(jié)構(gòu)
▲ 圖5 Q-former兩階段預(yù)訓(xùn)練
MiniGPT-4是作者場景復(fù)現(xiàn)GPT-4強大的多模態(tài)能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數(shù)凍結(jié)的整體。LLM也保持參數(shù)凍結(jié)。如圖所示,MiniGPT-4通過一個線性層來跨模態(tài)連接這兩個部分。Mini-GPT4使用語言生成能力較強的Vicuna模型(基于開源LLaMA模型構(gòu)建)作為LLM,生成文本質(zhì)量進一步提高。MiniGPT-4性能表現(xiàn)的提高也得益于訓(xùn)練數(shù)據(jù)的質(zhì)量。作者表示只使用來自公開數(shù)據(jù)集的圖文對數(shù)據(jù)是無法訓(xùn)練出優(yōu)秀的多模態(tài)語言模型的。MiniGPT-4使用了3500對高質(zhì)量圖文數(shù)據(jù)對模型進行微調(diào)。MiniGPT-4模型的訓(xùn)練分為兩階段,第一階段是在大量圖文對數(shù)據(jù)集上預(yù)訓(xùn)練,獲得視覺語言對齊能力。第二階段是在高質(zhì)量圖文數(shù)據(jù)上微調(diào)以獲得較強的對話能力。這種兩階段的訓(xùn)練方法也成為了未來一些工作的主流訓(xùn)練范式。MiniGPT-4使用的3500對高質(zhì)量數(shù)據(jù)集是來源于作者使用第一階段預(yù)訓(xùn)練完成的模型,通過提示工程的方法為每張圖片生成長度更長,描述信息更加豐富、細節(jié)的文本。這些文本通常具有很多噪聲和內(nèi)容錯誤,作者利用ChatGPT對第一階段的生成文本進行再優(yōu)化。MiniGPT4這個工作進一步說明了數(shù)據(jù)質(zhì)量對于模型對話能力的重要性。
▲ 圖6 MiniGPT-4模型結(jié)構(gòu)
微軟團隊在MiniGPT-4發(fā)布相近的時間點提出了LLaVA模型這篇工作。兩篇工作都提升了多模態(tài)語言模型在復(fù)雜對話方面的能力,具有一定相似性,實現(xiàn)技術(shù)方案各有特點。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令,共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結(jié)構(gòu),直接使用線性層連接視覺語言模態(tài),第一次將跨模態(tài)連接結(jié)構(gòu)簡化至這個程度。LLaVA模型的訓(xùn)練也分為兩個階段。第一階段使用圖文對數(shù)據(jù)進行訓(xùn)練,這一階段是為了對齊視覺和圖像特征,這個階段視覺編碼器和LLM的參數(shù)均凍結(jié),僅訓(xùn)練連接層。第二階段使用多輪對話圖文數(shù)據(jù)進行訓(xùn)練,在這個階段訓(xùn)練連接層和LLM的參數(shù)。LLaVA在多模態(tài)推理評測數(shù)據(jù)集Science QA上達到了最高水平。LLaVA強大的性能來自于作者構(gòu)造的一套指令跟隨數(shù)據(jù)集(instruction-following)。與MiniGPT-4主要利用一階段訓(xùn)練模型進行微調(diào)數(shù)據(jù)生成,還需要進行文本噪聲、錯誤后處理不同,LLaVA調(diào)用GPT-4接口,結(jié)合人類標(biāo)注的圖文信息,進行高質(zhì)量的多輪對話圖文數(shù)據(jù)生成。作者將這個高質(zhì)量圖文對話數(shù)據(jù)集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構(gòu)造的“對話、細節(jié)描述、復(fù)雜推理”三種類型的文本內(nèi)容。
▲ 圖7 InstructBLIP使用的多種數(shù)據(jù)集及其任務(wù)類型
2.總結(jié)
從以上這些融合了LLM的多模態(tài)模型,我們可以得到一些發(fā)現(xiàn)。這些工作主要都是集中在23年,可能是受GPT4所展示的多模態(tài)能力的啟發(fā)。目前融合LLM和視覺模型的方式還相對簡單粗暴,但是已經(jīng)展現(xiàn)出了優(yōu)秀的效果,未來多模態(tài)通用模型可能成為人工智能的下一個發(fā)展目標(biāo)。視覺研究者和語言大模型研究者的研究范式呈現(xiàn)出越來越相近的趨勢。
參考文獻
[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.
[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.
[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.
本文轉(zhuǎn)載自??AI遇見云???,作者:張燚鈞
