自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項圖文任務(wù)取得SOTA效果

發(fā)布于 2024-10-10 14:48
瀏覽
0收藏

這篇文章給大家介紹一下阿里發(fā)表的多模態(tài)大模型工作mPLUG-Owl,共2篇文章,建立在前序圖像表征對齊預(yù)訓(xùn)練大語言模型的思路,提出了不同的參數(shù)訓(xùn)練方式、多模態(tài)解耦映射等優(yōu)化方法,在多項任務(wù)取得了SOTA效果。

相關(guān)論文:

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

1.核心思路

多模態(tài)大模型希望構(gòu)建一個能同時處理文本、圖像等不同模態(tài)信息的數(shù)據(jù),解決復(fù)雜的圖文推理等多模態(tài)任務(wù)。在NLP中的大語言模型逐漸興起后,多模態(tài)模型的一個主要構(gòu)建思路為:以預(yù)訓(xùn)練的大語言模型LLM為基座,通過ViT等Vision Encoder將圖像映射成表征,和文本token embedding拼接到一起輸入大模型,結(jié)合預(yù)訓(xùn)練、Instruction Tuning等方法進(jìn)行訓(xùn)練

這種多模態(tài)大模型的建模方法,經(jīng)過2年的研究,逐漸完善起來。阿里的mPLUG-Owl工作,就建立在這個思路基礎(chǔ)之上。

2.基礎(chǔ)模型結(jié)構(gòu)

第一版本的mPLUG-Owl核心結(jié)構(gòu)如下圖,主要包括一個預(yù)訓(xùn)練的LLM、一個圖像編碼器、一個視覺抽象器3個部分。

其中的核心是,如何將圖像信息進(jìn)行比較好的處理,和LLM的表征空間對齊。對于圖像信息,對圖像分patch后,采用預(yù)訓(xùn)練ViT進(jìn)行處理,生成每個patch的embedding。由于圖像中包含背景等噪聲信息,且維度較高,直接將原始圖像信息輸入語言模型難以學(xué)習(xí)且復(fù)雜度高。因此,文中引入了Visual Abstractor模塊,對基礎(chǔ)的圖像特征進(jìn)行抽象。

Visual Abstractor由cross attention構(gòu)成,使用一些可學(xué)習(xí)的token embedding和原始圖像的patch embedding進(jìn)行cross attention計算,token的數(shù)量遠(yuǎn)小于patch的數(shù)量,選擇性的將patch embedding的重要信息匯聚到可學(xué)習(xí)token上。

Visual Abstractor輸出多個視覺token embedding,和文本的token embedding拼接到一起,輸入到預(yù)訓(xùn)練的LLM中。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項圖文任務(wù)取得SOTA效果-AI.x社區(qū)

3.訓(xùn)練方式

視覺特征對齊語言模型的多模態(tài)大模型,一般采用兩個階段進(jìn)行訓(xùn)練。在第一個階段,使用基礎(chǔ)的圖文數(shù)據(jù)構(gòu)建生成式任務(wù),第二階段利用Instruction Tuning的方式讓模型進(jìn)一步提升復(fù)雜多模態(tài)理解能力。

在之前的很多工作中,都采用這種兩階段的訓(xùn)練,但是更新的參數(shù)不同。比如MiniGPT4只更新圖像表征到LLM輸入的MLP映射網(wǎng)絡(luò),其他方法也對Visual Encoder進(jìn)行了凍結(jié)。為了提升多模態(tài)的聯(lián)合學(xué)習(xí)能力,本文在預(yù)訓(xùn)練階段,打開Visual Encoder的參數(shù)更新,強化模型的多模態(tài)訓(xùn)練過程。在第二階段,凍結(jié)Visual Encoder參數(shù),finetune語言模型參數(shù)。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項圖文任務(wù)取得SOTA效果-AI.x社區(qū)

4.V2版本優(yōu)化

在近期阿里發(fā)布的mPLUG-Owl2工作中,主要對多模態(tài)的對齊進(jìn)行了優(yōu)化。

這里的核心優(yōu)化點是對語言模型的self-attention機制進(jìn)行了優(yōu)化,對于兩個模態(tài)的表征,分別使用獨立layer normalization縮放到相同scale后,使用兩組不同的MLP網(wǎng)絡(luò)分別進(jìn)行兩個模態(tài)表征到同空間的映射。

相比之前共享MLP的映射方法,這種獨立映射的方法保留了兩個模態(tài)個性化的信息,又能映射到相同空間。在attention后再分別接各自模態(tài)的layer normalization生成最終預(yù)測結(jié)果。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項圖文任務(wù)取得SOTA效果-AI.x社區(qū)

在知識星球中,也為大家整理了這種視覺對齊LLM的多模態(tài)大模型歷史工作,感興趣的同學(xué)可以加入學(xué)習(xí)。

5.實驗效果

文中對比了mPLUG-Owl在各項任務(wù)上和MiniGPT、BLIP、LLaVA等多模態(tài)大模型的效果,均取得了SOTA效果,驗證了mPLUG-Owl的多模態(tài)理解能力。

阿里達(dá)摩院最新多模態(tài)大模型介紹,多項圖文任務(wù)取得SOTA效果-AI.x社區(qū)

本文轉(zhuǎn)載自??圓圓的算法筆記??,作者: Fareise ????

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦