MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態(tài)任務(wù)
幾個月前,來自 KAUST(沙特阿卜杜拉國王科技大學(xué))的幾位研究者提出了一個名為 MiniGPT-4 的項目,它能提供類似 GPT-4 的圖像理解與對話能力。
例如 MiniGPT-4 能夠回答下圖中出現(xiàn)的景象:「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠(yuǎn)處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發(fā)生在現(xiàn)實世界中嗎?MiniGPT-4 給出的回答是這張圖片在現(xiàn)實世界中并不常見,并給出了原因。
短短幾個月過去了,近日,KAUST 團(tuán)隊以及來自 Meta 的研究者宣布,他們將 MiniGPT-4 重磅升級到了 MiniGPT-v2 版本。
論文地址:https://arxiv.org/pdf/2310.09478.pdf
論文主頁:https://minigpt-v2.github.io/
Demo: https://minigpt-v2.github.io/
具體而言,MiniGPT-v2 可以作為一個統(tǒng)一的接口來更好地處理各種視覺 - 語言任務(wù)。同時,本文建議在訓(xùn)練模型時對不同的任務(wù)使用唯一的識別符號,這些識別符號有利于模型輕松的區(qū)分每個任務(wù)指令,并提高每個任務(wù)模型的學(xué)習(xí)效率。
為了評估 MiniGPT-v2 模型的性能,研究者對不同的視覺 - 語言任務(wù)進(jìn)行了廣泛的實驗。結(jié)果表明,與之前的視覺 - 語言通用模型(例如 MiniGPT-4、InstructBLIP、 LLaVA 和 Shikra)相比,MiniGPT-v2 在各種基準(zhǔn)上實現(xiàn)了 SOTA 或相當(dāng)?shù)男阅?。例?MiniGPT-v2 在 VSR 基準(zhǔn)上比 MiniGPT-4 高出 21.3%,比 InstructBLIP 高出 11.3%,比 LLaVA 高出 11.7%。
下面我們通過具體的示例來說明 MiniGPT-v2 識別符號的作用。
例如,通過加 [grounding] 識別符號,模型可以很容易生成一個帶有空間位置感知的圖片描述:
通過添加 [detection] 識別符號,模型可以直接提取輸入文本里面的物體并且找到它們在圖片中的空間位置:
框出圖中的一個物體,通過加 [identify] ,可以讓模型直接識別出來物體的名字:
通過加 [refer] 和一個物體的描述,模型可以直接幫你找到物體對應(yīng)的空間位置:
你也可以不加任何任務(wù)識別符合,和圖片進(jìn)行對話:
模型的空間感知也變得更強(qiáng),可以直接問模型誰出現(xiàn)在圖片的左面,中間和右面:
方法介紹
MiniGPT-v2 模型架構(gòu)如下圖所示,它由三個部分組成:視覺主干、線性投影層和大型語言模型。
視覺主干:MiniGPT-v2 采用 EVA 作為主干模型,并且在訓(xùn)練期間會凍結(jié)視覺主干。訓(xùn)練模型的圖像分辨率為 448x448 ,并插入位置編碼來擴(kuò)展更高的圖像分辨率。
線性投影層:本文旨在將所有的視覺 token 從凍結(jié)的視覺主干投影到語言模型空間中。然而,對于更高分辨率的圖像(例如 448x448),投影所有的圖像 token 會導(dǎo)致非常長的序列輸入(例如 1024 個 token),顯著降低了訓(xùn)練和推理效率。因此,本文簡單地將嵌入空間中相鄰的 4 個視覺 token 連接起來,并將它們一起投影到大型語言模型的同一特征空間中的單個嵌入中,從而將視覺輸入 token 的數(shù)量減少了 4 倍。
大型語言模型:MiniGPT-v2 采用開源的 LLaMA2-chat (7B) 作為語言模型主干。在該研究中,語言模型被視為各種視覺語言輸入的統(tǒng)一接口。本文直接借助 LLaMA-2 語言 token 來執(zhí)行各種視覺語言任務(wù)。對于需要生成空間位置的視覺基礎(chǔ)任務(wù),本文直接要求語言模型生成邊界框的文本表示以表示其空間位置。
多任務(wù)指令訓(xùn)練
本文使用任務(wù)識別符號指令來訓(xùn)練模型,分為三個階段。各階段訓(xùn)練使用的數(shù)據(jù)集如表 2 所示。
階段 1:預(yù)訓(xùn)練。本文對弱標(biāo)記數(shù)據(jù)集給出了高采樣率,以獲得更多樣化的知識。
階段 2:多任務(wù)訓(xùn)練。為了提高 MiniGPT-v2 在每個任務(wù)上的性能,現(xiàn)階段只專注于使用細(xì)粒度數(shù)據(jù)集來訓(xùn)練模型。研究者從 stage-1 中排除 GRIT-20M 和 LAION 等弱監(jiān)督數(shù)據(jù)集,并根據(jù)每個任務(wù)的頻率更新數(shù)據(jù)采樣比。該策略使本文模型能夠優(yōu)先考慮高質(zhì)量對齊的圖像文本數(shù)據(jù),從而在各種任務(wù)中獲得卓越的性能。
階段 3:多模態(tài)指令調(diào)優(yōu)。隨后,本文專注于使用更多多模態(tài)指令數(shù)據(jù)集來微調(diào)模型,并增強(qiáng)其作為聊天機(jī)器人的對話能力。
最后,官方也提供了 Demo 供讀者測試,例如,下圖中左邊我們上傳一張照片,然后選擇 [Detection] ,接著輸入「red balloon」,模型就能識別出圖中紅色的氣球:
感興趣的讀者,可以查看論文主頁了解更多內(nèi)容。