新多模態(tài)大模型霸榜!支持圖文混合輸入,不懂知識(shí)還能現(xiàn)學(xué)
多模態(tài)大模型家族,又有新成員了!
不僅能將多張圖像與文本結(jié)合分析,還能處理視頻中的時(shí)空關(guān)系。
這款免費(fèi)開(kāi)源的模型,在MMbench和MME榜單同時(shí)登頂,目前浮動(dòng)排名也保持在前三位。
△MMBench榜單,MMBench是上海AI lab和南洋理工大學(xué)聯(lián)合推出的基于ChatGPT的全方位多模能力評(píng)測(cè)體系
△MME榜單,MME為騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合廈門(mén)大學(xué)開(kāi)展的多模態(tài)大語(yǔ)言模型測(cè)評(píng)
這款多模態(tài)大模型名叫MMICL,由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。
MMICL一共有兩個(gè)基于不同LLM的版本,分別基于Vicuna和FlanT5XL兩種核心模型。
這兩個(gè)版本都已經(jīng)開(kāi)源,其中,F(xiàn)lanT5XL版可以商用,Vicuna版本只能用于科研用途。
在MME的多項(xiàng)任務(wù)測(cè)試中,F(xiàn)lanT5XL版MMICL的成績(jī)已連續(xù)數(shù)周保持著領(lǐng)先地位。
其中認(rèn)知方面取得了428.93的總成績(jī)(滿(mǎn)分800),位列第一,大幅超過(guò)了其他模型。
感知方面的總分1381.78(滿(mǎn)分2000),在最新版榜單中僅次于阿里的千問(wèn)-7B和昆侖萬(wàn)維的天工模型。
所需配置方面,官方給出的說(shuō)法是在訓(xùn)練階段需要6塊A40,推理階段則可以在一塊A40上運(yùn)行。
僅僅只需要從開(kāi)源數(shù)據(jù)集中構(gòu)建的0.5M的數(shù)據(jù)即可完成第二階段的訓(xùn)練,耗時(shí)僅需幾十小時(shí)。
那么,這個(gè)多模態(tài)大模型都有哪些特色呢?
會(huì)看視頻,還能“現(xiàn)學(xué)現(xiàn)賣(mài)”
MMICL支持文本和圖片穿插形式的prompt,用起來(lái)就像微信聊天一樣自然。
用正常說(shuō)話(huà)的方式把兩張圖喂給MMICL,就可以分析出它們的相似和不同之處。
除了超強(qiáng)的圖像分析能力,MMICL還知道“現(xiàn)學(xué)現(xiàn)賣(mài)”。
比如我們丟給MMICL一張“我的世界”中像素風(fēng)格的馬。
由于訓(xùn)練數(shù)據(jù)都是真實(shí)世界的場(chǎng)景,這種過(guò)于抽象的像素風(fēng)MMICL并不認(rèn)識(shí)。
但我們只要讓MMICL學(xué)習(xí)幾個(gè)例子,它便能很快地進(jìn)行類(lèi)比推理。
下圖中,MMICL分別學(xué)習(xí)了有馬、驢和什么都沒(méi)有這三種場(chǎng)景,然后便正確判斷出了更換背景后的像素馬。
除了圖片,動(dòng)態(tài)的視頻也難不倒MMICL,不僅是理解每一幀的內(nèi)容,還能準(zhǔn)確地分析出時(shí)空關(guān)系。
不妨來(lái)看一下這場(chǎng)巴西和阿根廷的足球大戰(zhàn),MMICL準(zhǔn)確地分析出了兩支隊(duì)伍的行動(dòng)。
針對(duì)視頻當(dāng)中的細(xì)節(jié),也可以向MMICL提問(wèn),比如巴西球員是怎么阻擋阿根廷隊(duì)員的。
除了準(zhǔn)確把握視頻中的時(shí)空關(guān)系,MMICL還支持實(shí)時(shí)視頻流輸入。
我們可以看到,監(jiān)控畫(huà)面中的人正在摔倒,MMICL檢測(cè)到了這一異?,F(xiàn)象并發(fā)出了提示,詢(xún)問(wèn)是否需要幫助。
如果把MME榜上感知和認(rèn)知兩項(xiàng)的前五名放在一張圖里比較,我們可以看出,MMICL的表現(xiàn)在各個(gè)方面都有不俗的成績(jī)。
那么,MMICL是如何做到的,背后又有什么樣的技術(shù)細(xì)節(jié)呢?
訓(xùn)練分兩階段完成
MMICL致力于解決視覺(jué)語(yǔ)言模型在理解具有多個(gè)圖像的復(fù)雜多模態(tài)輸入方面遇到的問(wèn)題。
MMICL利用Flan-T5 XXL模型作為骨干,整個(gè)模型的結(jié)構(gòu)和流程如下圖所示:
MMICL使用類(lèi)似于BLIP2的結(jié)構(gòu),但是能夠接受交錯(cuò)的圖文的輸入。
MMICL將圖文平等對(duì)待,把處理后的圖文特征,都按照輸入的格式,拼接成圖文交錯(cuò)的形式輸入到語(yǔ)言模型中進(jìn)行訓(xùn)練和推理。
類(lèi)似于InstructBLIP,MMICL的開(kāi)發(fā)過(guò)程是將LLM凍結(jié),訓(xùn)練Q-former,并在特定數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。
MMICL的訓(xùn)練流程和數(shù)據(jù)構(gòu)造如下圖所示:
具體來(lái)說(shuō),MMICL的訓(xùn)練一共分成了兩個(gè)階段:
- 預(yù)訓(xùn)練階段,使用了LAION-400M(參考LLaVA)數(shù)據(jù)集
- 多模態(tài)in-context tuning,使用了自有的MIC(Multi-Model In-Context Learning)數(shù)據(jù)集
MIC數(shù)據(jù)集由公開(kāi)數(shù)據(jù)集構(gòu)建而來(lái),上圖展示了MIC數(shù)據(jù)集當(dāng)中所包含的內(nèi)容,而MIC數(shù)據(jù)集還具有這幾個(gè)特色:
第一是圖文間建立的顯式指代,MIC在圖文交錯(cuò)的數(shù)據(jù)中,插入圖片聲明(image declaration),使用圖片代理(image proxy)token來(lái)代理不同的圖片,利用自然語(yǔ)言來(lái)建立圖文間的指代關(guān)系。
第二是空間,時(shí)間或邏輯上互相關(guān)聯(lián)的多圖數(shù)據(jù)集,確保了MMICL模型能對(duì)圖像間的關(guān)系有更準(zhǔn)確的理解。
第三個(gè)特色是示例數(shù)據(jù)集,類(lèi)似于讓MMICL“現(xiàn)場(chǎng)學(xué)習(xí)”的過(guò)程,使用多模態(tài)的上下文學(xué)習(xí)來(lái)增強(qiáng)MMICL對(duì)圖文穿插式的復(fù)雜圖文輸入的理解。
MMICL在多個(gè)測(cè)試數(shù)據(jù)集上取得的成績(jī)超過(guò)了同樣使用FlanT5XXL的BLIP2和InstructionBLIP。
尤其是對(duì)于涉及多張圖的任務(wù),對(duì)這種復(fù)雜圖文輸入,MMICL表現(xiàn)了極大的提升。
研究團(tuán)隊(duì)認(rèn)為,MMICL解決了視覺(jué)語(yǔ)言模型中常常存在的語(yǔ)言偏見(jiàn)(language bais)問(wèn)題是取得優(yōu)異成績(jī)的原因之一。
大多數(shù)視覺(jué)語(yǔ)言模型在面對(duì)大量文本的上下文內(nèi)容時(shí)會(huì)忽視視覺(jué)內(nèi)容,而這是回答需要視覺(jué)信息的問(wèn)題時(shí)的致命缺陷。
而得益于研究團(tuán)隊(duì)的方法,MMICL成功緩解了在視覺(jué)語(yǔ)言模型中的這種語(yǔ)言偏見(jiàn)。
對(duì)這個(gè)多模態(tài)大模型感興趣的讀者,可以到GitHub頁(yè)面或論文中查看更多詳情。
GitHub頁(yè)面:https://github.com/HaozheZhao/MIC
論文地址:https://arxiv.org/abs/2309.07915在線(xiàn)demo:
http://www.testmmicl.work/