自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="riuom"></sub><sup id="riuom"><rt id="riuom"><strong id="riuom"></strong></rt></sup>

<thead id="riuom"><i id="riuom"><video id="riuom"></video></i></thead>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

新多模態(tài)大模型霸榜！支持圖文混合輸入，不懂知識(shí)還能現(xiàn)學(xué)

作者：克雷西 2023-09-19 13:48:02

人工智能新聞

這款多模態(tài)大模型名叫MMICL，由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

多模態(tài)大模型家族，又有新成員了！

不僅能將多張圖像與文本結(jié)合分析，還能處理視頻中的時(shí)空關(guān)系。

這款免費(fèi)開(kāi)源的模型，在MMbench和MME榜單同時(shí)登頂，目前浮動(dòng)排名也保持在前三位。

△MMBench榜單，MMBench是上海AI lab和南洋理工大學(xué)聯(lián)合推出的基于ChatGPT的全方位多模能力評(píng)測(cè)體系

△MME榜單，MME為騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合廈門(mén)大學(xué)開(kāi)展的多模態(tài)大語(yǔ)言模型測(cè)評(píng)

這款多模態(tài)大模型名叫MMICL，由北京交通大學(xué)、北京大學(xué)、UCLA、足智多模公司等機(jī)構(gòu)聯(lián)合推出。

MMICL一共有兩個(gè)基于不同LLM的版本，分別基于Vicuna和FlanT5XL兩種核心模型。

這兩個(gè)版本都已經(jīng)開(kāi)源，其中，F(xiàn)lanT5XL版可以商用，Vicuna版本只能用于科研用途。

在MME的多項(xiàng)任務(wù)測(cè)試中，F(xiàn)lanT5XL版MMICL的成績(jī)已連續(xù)數(shù)周保持著領(lǐng)先地位。

其中認(rèn)知方面取得了428.93的總成績(jī)（滿(mǎn)分800），位列第一，大幅超過(guò)了其他模型。

感知方面的總分1381.78（滿(mǎn)分2000），在最新版榜單中僅次于阿里的千問(wèn)-7B和昆侖萬(wàn)維的天工模型。

所需配置方面，官方給出的說(shuō)法是在訓(xùn)練階段需要6塊A40，推理階段則可以在一塊A40上運(yùn)行。

僅僅只需要從開(kāi)源數(shù)據(jù)集中構(gòu)建的0.5M的數(shù)據(jù)即可完成第二階段的訓(xùn)練，耗時(shí)僅需幾十小時(shí)。

那么，這個(gè)多模態(tài)大模型都有哪些特色呢？

會(huì)看視頻，還能“現(xiàn)學(xué)現(xiàn)賣(mài)”

MMICL支持文本和圖片穿插形式的prompt，用起來(lái)就像微信聊天一樣自然。

用正常說(shuō)話(huà)的方式把兩張圖喂給MMICL，就可以分析出它們的相似和不同之處。

除了超強(qiáng)的圖像分析能力，MMICL還知道“現(xiàn)學(xué)現(xiàn)賣(mài)”。

比如我們丟給MMICL一張“我的世界”中像素風(fēng)格的馬。

由于訓(xùn)練數(shù)據(jù)都是真實(shí)世界的場(chǎng)景，這種過(guò)于抽象的像素風(fēng)MMICL并不認(rèn)識(shí)。

但我們只要讓MMICL學(xué)習(xí)幾個(gè)例子，它便能很快地進(jìn)行類(lèi)比推理。

下圖中，MMICL分別學(xué)習(xí)了有馬、驢和什么都沒(méi)有這三種場(chǎng)景，然后便正確判斷出了更換背景后的像素馬。

除了圖片，動(dòng)態(tài)的視頻也難不倒MMICL，不僅是理解每一幀的內(nèi)容，還能準(zhǔn)確地分析出時(shí)空關(guān)系。

不妨來(lái)看一下這場(chǎng)巴西和阿根廷的足球大戰(zhàn)，MMICL準(zhǔn)確地分析出了兩支隊(duì)伍的行動(dòng)。

針對(duì)視頻當(dāng)中的細(xì)節(jié)，也可以向MMICL提問(wèn)，比如巴西球員是怎么阻擋阿根廷隊(duì)員的。

除了準(zhǔn)確把握視頻中的時(shí)空關(guān)系，MMICL還支持實(shí)時(shí)視頻流輸入。

我們可以看到，監(jiān)控畫(huà)面中的人正在摔倒，MMICL檢測(cè)到了這一異?，F(xiàn)象并發(fā)出了提示，詢(xún)問(wèn)是否需要幫助。

如果把MME榜上感知和認(rèn)知兩項(xiàng)的前五名放在一張圖里比較，我們可以看出，MMICL的表現(xiàn)在各個(gè)方面都有不俗的成績(jī)。

那么，MMICL是如何做到的，背后又有什么樣的技術(shù)細(xì)節(jié)呢？

訓(xùn)練分兩階段完成

MMICL致力于解決視覺(jué)語(yǔ)言模型在理解具有多個(gè)圖像的復(fù)雜多模態(tài)輸入方面遇到的問(wèn)題。

MMICL利用Flan-T5 XXL模型作為骨干，整個(gè)模型的結(jié)構(gòu)和流程如下圖所示：

MMICL使用類(lèi)似于BLIP2的結(jié)構(gòu)，但是能夠接受交錯(cuò)的圖文的輸入。

MMICL將圖文平等對(duì)待，把處理后的圖文特征，都按照輸入的格式，拼接成圖文交錯(cuò)的形式輸入到語(yǔ)言模型中進(jìn)行訓(xùn)練和推理。

類(lèi)似于InstructBLIP，MMICL的開(kāi)發(fā)過(guò)程是將LLM凍結(jié)，訓(xùn)練Q-former，并在特定數(shù)據(jù)集上對(duì)其進(jìn)行微調(diào)。

MMICL的訓(xùn)練流程和數(shù)據(jù)構(gòu)造如下圖所示：

具體來(lái)說(shuō)，MMICL的訓(xùn)練一共分成了兩個(gè)階段：

預(yù)訓(xùn)練階段，使用了LAION-400M（參考LLaVA）數(shù)據(jù)集
多模態(tài)in-context tuning，使用了自有的MIC（Multi-Model In-Context Learning）數(shù)據(jù)集

MIC數(shù)據(jù)集由公開(kāi)數(shù)據(jù)集構(gòu)建而來(lái)，上圖展示了MIC數(shù)據(jù)集當(dāng)中所包含的內(nèi)容，而MIC數(shù)據(jù)集還具有這幾個(gè)特色：

第一是圖文間建立的顯式指代，MIC在圖文交錯(cuò)的數(shù)據(jù)中，插入圖片聲明（image declaration），使用圖片代理（image proxy）token來(lái)代理不同的圖片，利用自然語(yǔ)言來(lái)建立圖文間的指代關(guān)系。

第二是空間，時(shí)間或邏輯上互相關(guān)聯(lián)的多圖數(shù)據(jù)集，確保了MMICL模型能對(duì)圖像間的關(guān)系有更準(zhǔn)確的理解。

第三個(gè)特色是示例數(shù)據(jù)集，類(lèi)似于讓MMICL“現(xiàn)場(chǎng)學(xué)習(xí)”的過(guò)程，使用多模態(tài)的上下文學(xué)習(xí)來(lái)增強(qiáng)MMICL對(duì)圖文穿插式的復(fù)雜圖文輸入的理解。

MMICL在多個(gè)測(cè)試數(shù)據(jù)集上取得的成績(jī)超過(guò)了同樣使用FlanT5XXL的BLIP2和InstructionBLIP。

尤其是對(duì)于涉及多張圖的任務(wù)，對(duì)這種復(fù)雜圖文輸入，MMICL表現(xiàn)了極大的提升。

研究團(tuán)隊(duì)認(rèn)為，MMICL解決了視覺(jué)語(yǔ)言模型中常常存在的語(yǔ)言偏見(jiàn)（language bais）問(wèn)題是取得優(yōu)異成績(jī)的原因之一。

大多數(shù)視覺(jué)語(yǔ)言模型在面對(duì)大量文本的上下文內(nèi)容時(shí)會(huì)忽視視覺(jué)內(nèi)容，而這是回答需要視覺(jué)信息的問(wèn)題時(shí)的致命缺陷。

而得益于研究團(tuán)隊(duì)的方法，MMICL成功緩解了在視覺(jué)語(yǔ)言模型中的這種語(yǔ)言偏見(jiàn)。

對(duì)這個(gè)多模態(tài)大模型感興趣的讀者，可以到GitHub頁(yè)面或論文中查看更多詳情。

GitHub頁(yè)面：https://github.com/HaozheZhao/MIC
論文地址:https://arxiv.org/abs/2309.07915在線(xiàn)demo:
http://www.testmmicl.work/

責(zé)任編輯：張燕妮來(lái)源：量子位

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="e9pog"></sub>