自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新多模態(tài)大模型霸榜!支持圖文混合輸入,不懂知識(shí)還能現(xiàn)學(xué)

人工智能 新聞
這款多模態(tài)大模型名叫MMICL,由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

多模態(tài)大模型家族,又有新成員了!

不僅能將多張圖像與文本結(jié)合分析,還能處理視頻中的時(shí)空關(guān)系。

這款免費(fèi)開(kāi)源的模型,在MMbench和MME榜單同時(shí)登頂,目前浮動(dòng)排名也保持在前三位。

△MMBench榜單,MMBench是上海AI lab和南洋理工大學(xué)聯(lián)合推出的基于ChatGPT的全方位多模能力評(píng)測(cè)體系

圖片

△MME榜單,MME為騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合廈門(mén)大學(xué)開(kāi)展的多模態(tài)大語(yǔ)言模型測(cè)評(píng)

這款多模態(tài)大模型名叫MMICL,由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

MMICL一共有兩個(gè)基于不同LLM的版本,分別基于Vicuna和FlanT5XL兩種核心模型。

這兩個(gè)版本都已經(jīng)開(kāi)源,其中,F(xiàn)lanT5XL版可以商用,Vicuna版本只能用于科研用途。

在MME的多項(xiàng)任務(wù)測(cè)試中,F(xiàn)lanT5XL版MMICL的成績(jī)已連續(xù)數(shù)周保持著領(lǐng)先地位。

其中認(rèn)知方面取得了428.93的總成績(jī)(滿(mǎn)分800),位列第一,大幅超過(guò)了其他模型。

感知方面的總分1381.78(滿(mǎn)分2000),在最新版榜單中僅次于阿里的千問(wèn)-7B和昆侖萬(wàn)維的天工模型。

圖片

所需配置方面,官方給出的說(shuō)法是在訓(xùn)練階段需要6塊A40,推理階段則可以在一塊A40上運(yùn)行。

僅僅只需要從開(kāi)源數(shù)據(jù)集中構(gòu)建的0.5M的數(shù)據(jù)即可完成第二階段的訓(xùn)練,耗時(shí)僅需幾十小時(shí)。

那么,這個(gè)多模態(tài)大模型都有哪些特色呢?

會(huì)看視頻,還能“現(xiàn)學(xué)現(xiàn)賣(mài)”

MMICL支持文本和圖片穿插形式的prompt,用起來(lái)就像微信聊天一樣自然。

用正常說(shuō)話(huà)的方式把兩張圖喂給MMICL,就可以分析出它們的相似和不同之處。

除了超強(qiáng)的圖像分析能力,MMICL還知道“現(xiàn)學(xué)現(xiàn)賣(mài)”。

比如我們丟給MMICL一張“我的世界”中像素風(fēng)格的馬。

由于訓(xùn)練數(shù)據(jù)都是真實(shí)世界的場(chǎng)景,這種過(guò)于抽象的像素風(fēng)MMICL并不認(rèn)識(shí)。

但我們只要讓MMICL學(xué)習(xí)幾個(gè)例子,它便能很快地進(jìn)行類(lèi)比推理

下圖中,MMICL分別學(xué)習(xí)了有馬、驢和什么都沒(méi)有這三種場(chǎng)景,然后便正確判斷出了更換背景后的像素馬。

圖片

除了圖片,動(dòng)態(tài)的視頻也難不倒MMICL,不僅是理解每一幀的內(nèi)容,還能準(zhǔn)確地分析出時(shí)空關(guān)系。

不妨來(lái)看一下這場(chǎng)巴西和阿根廷的足球大戰(zhàn),MMICL準(zhǔn)確地分析出了兩支隊(duì)伍的行動(dòng)。

針對(duì)視頻當(dāng)中的細(xì)節(jié),也可以向MMICL提問(wèn),比如巴西球員是怎么阻擋阿根廷隊(duì)員的。

圖片

除了準(zhǔn)確把握視頻中的時(shí)空關(guān)系,MMICL還支持實(shí)時(shí)視頻流輸入。

我們可以看到,監(jiān)控畫(huà)面中的人正在摔倒,MMICL檢測(cè)到了這一異?,F(xiàn)象并發(fā)出了提示,詢(xún)問(wèn)是否需要幫助。

如果把MME榜上感知和認(rèn)知兩項(xiàng)的前五名放在一張圖里比較,我們可以看出,MMICL的表現(xiàn)在各個(gè)方面都有不俗的成績(jī)。

圖片

那么,MMICL是如何做到的,背后又有什么樣的技術(shù)細(xì)節(jié)呢?

訓(xùn)練分兩階段完成

MMICL致力于解決視覺(jué)語(yǔ)言模型在理解具有多個(gè)圖像的復(fù)雜多模態(tài)輸入方面遇到的問(wèn)題。

MMICL利用Flan-T5 XXL模型作為骨干,整個(gè)模型的結(jié)構(gòu)和流程如下圖所示:

圖片

MMICL使用類(lèi)似于BLIP2的結(jié)構(gòu),但是能夠接受交錯(cuò)的圖文的輸入。

MMICL將圖文平等對(duì)待,把處理后的圖文特征,都按照輸入的格式,拼接成圖文交錯(cuò)的形式輸入到語(yǔ)言模型中進(jìn)行訓(xùn)練和推理。

類(lèi)似于InstructBLIP,MMICL的開(kāi)發(fā)過(guò)程是將LLM凍結(jié),訓(xùn)練Q-former,并在特定數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。

MMICL的訓(xùn)練流程和數(shù)據(jù)構(gòu)造如下圖所示:

圖片

具體來(lái)說(shuō),MMICL的訓(xùn)練一共分成了兩個(gè)階段:

  • 預(yù)訓(xùn)練階段,使用了LAION-400M(參考LLaVA)數(shù)據(jù)集
  • 多模態(tài)in-context tuning,使用了自有的MIC(Multi-Model In-Context Learning)數(shù)據(jù)集

圖片

MIC數(shù)據(jù)集由公開(kāi)數(shù)據(jù)集構(gòu)建而來(lái),上圖展示了MIC數(shù)據(jù)集當(dāng)中所包含的內(nèi)容,而MIC數(shù)據(jù)集還具有這幾個(gè)特色:

第一是圖文間建立的顯式指代,MIC在圖文交錯(cuò)的數(shù)據(jù)中,插入圖片聲明(image declaration),使用圖片代理(image proxy)token來(lái)代理不同的圖片,利用自然語(yǔ)言來(lái)建立圖文間的指代關(guān)系。

圖片

第二是空間,時(shí)間或邏輯上互相關(guān)聯(lián)的多圖數(shù)據(jù)集,確保了MMICL模型能對(duì)圖像間的關(guān)系有更準(zhǔn)確的理解。

圖片

第三個(gè)特色是示例數(shù)據(jù)集,類(lèi)似于讓MMICL“現(xiàn)場(chǎng)學(xué)習(xí)”的過(guò)程,使用多模態(tài)的上下文學(xué)習(xí)來(lái)增強(qiáng)MMICL對(duì)圖文穿插式的復(fù)雜圖文輸入的理解。

圖片

MMICL在多個(gè)測(cè)試數(shù)據(jù)集上取得的成績(jī)超過(guò)了同樣使用FlanT5XXL的BLIP2和InstructionBLIP。

尤其是對(duì)于涉及多張圖的任務(wù),對(duì)這種復(fù)雜圖文輸入,MMICL表現(xiàn)了極大的提升。

圖片

研究團(tuán)隊(duì)認(rèn)為,MMICL解決了視覺(jué)語(yǔ)言模型中常常存在的語(yǔ)言偏見(jiàn)(language bais)問(wèn)題是取得優(yōu)異成績(jī)的原因之一。

大多數(shù)視覺(jué)語(yǔ)言模型在面對(duì)大量文本的上下文內(nèi)容時(shí)會(huì)忽視視覺(jué)內(nèi)容,而這是回答需要視覺(jué)信息的問(wèn)題時(shí)的致命缺陷。

而得益于研究團(tuán)隊(duì)的方法,MMICL成功緩解了在視覺(jué)語(yǔ)言模型中的這種語(yǔ)言偏見(jiàn)。

圖片

對(duì)這個(gè)多模態(tài)大模型感興趣的讀者,可以到GitHub頁(yè)面或論文中查看更多詳情。

GitHub頁(yè)面:https://github.com/HaozheZhao/MIC
論文地址:https://arxiv.org/abs/2309.07915在線(xiàn)demo:
http://www.testmmicl.work/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-08 08:21:16

2023-09-29 22:31:25

高斯混合模型機(jī)器學(xué)習(xí)

2024-03-25 12:40:19

訓(xùn)練模型

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-03-12 09:24:38

智能駕駛

2024-09-25 14:53:00

2024-09-23 08:20:00

模型訓(xùn)練

2024-03-25 12:30:18

AI訓(xùn)練開(kāi)源

2024-04-01 12:10:48

數(shù)據(jù)訓(xùn)練

2023-06-28 13:55:30

模型AI

2024-11-11 15:11:23

2025-04-28 14:13:43

開(kāi)源SOTA多模態(tài)

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2024-01-30 13:17:00

AI數(shù)據(jù)

2024-05-17 16:02:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)