自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院

發(fā)布于 2024-6-17 10:43
瀏覽
0收藏

GPT-4o掀起一股全模態(tài)(Omni-modal)熱潮,去年的熱詞多模態(tài)仿佛已經(jīng)不夠看了。

要構(gòu)建全模態(tài)智能,意味著能夠理解任何模態(tài)并學(xué)習(xí)通用表示 (Universal Representations)。


現(xiàn)在,港中文、中科院等提出了一種大規(guī)模的全模態(tài)預(yù)訓(xùn)練范式,稱為多模態(tài)上下文MiCo(Multimodal Context),它可以在預(yù)訓(xùn)練過(guò)程中引入更多的模態(tài),數(shù)據(jù)量,模型參數(shù)。

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

借助 MiCo,團(tuán)隊(duì)預(yù)訓(xùn)練的模型在多模態(tài)學(xué)習(xí)中表現(xiàn)出極為令人印象深刻的性能,在目前主流的三大類任務(wù)上的評(píng)估結(jié)果顯示出:


  • 10種不同模態(tài)的單模態(tài)感知基準(zhǔn)。
  • 25種跨模態(tài)理解任務(wù),包括檢索、問(wèn)答、描述。
  • 18種多模態(tài)大型語(yǔ)言模型基準(zhǔn),MiCo取得了37項(xiàng)最強(qiáng)性能的記錄。

大規(guī)模全模態(tài)預(yù)訓(xùn)練

在AI的發(fā)展歷程中, 大規(guī)模的預(yù)訓(xùn)練已經(jīng)逐漸成為一種非常有前景的途徑來(lái)實(shí)現(xiàn)通用智能(譬如大規(guī)模訓(xùn)練的GPT-4o, LLaMA, Stable Diffusion)。


其中圖文對(duì)比學(xué)習(xí)是社區(qū)最有影響力的預(yù)訓(xùn)練方法之一,比如,CLIP構(gòu)建起了數(shù)百萬(wàn)的圖文數(shù)據(jù)對(duì)來(lái)實(shí)現(xiàn)跨模態(tài)的對(duì)比學(xué)習(xí)。


研究者將這樣的對(duì)比學(xué)習(xí)范式推廣到了更多的數(shù)據(jù)模態(tài)上(音頻,點(diǎn)云)同時(shí)也實(shí)現(xiàn)了更深入的語(yǔ)義理解(LLaVA, VideoChat)。


但是在這多模態(tài)與AIGC的時(shí)代里,越來(lái)越多的數(shù)據(jù)模態(tài)(比如,音頻,3D內(nèi)容等)被廣泛使用時(shí),僅限于圖文預(yù)訓(xùn)練的基礎(chǔ)模型帶來(lái)了包括多模態(tài)錯(cuò)位、誤解、幻覺(jué)和偏見(jiàn)放大等問(wèn)題,這些難題都阻礙了連貫的多模態(tài)理解(coherent multimodal understanding)。

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

因此,團(tuán)隊(duì)希望提出一種能適用于全模態(tài)(不局限于僅圖文音視頻3D內(nèi)容)的大規(guī)模預(yù)訓(xùn)練方法,如圖所示,團(tuán)隊(duì)將視頻與相配對(duì)的音頻、文字描述、深度還有法線進(jìn)行聯(lián)合預(yù)訓(xùn)練。

如何設(shè)計(jì)全模態(tài)預(yù)訓(xùn)練中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)?

參考人腦中多模態(tài)認(rèn)知的過(guò)程,如下圖所示,根據(jù)理查德·梅耶的多媒體學(xué)習(xí)認(rèn)知理論(Richard E Mayer. Multimedia learning. In Psychology of learning and motivation, volume 41,305 pages 85–139. Elsevier, 2002.),人腦對(duì)耳朵和眼睛的感知內(nèi)容(圖/文/視頻/音頻/3D)有兩個(gè)不同的通道來(lái)處理他們的感覺(jué)記憶。


感覺(jué)記憶通過(guò)文字將這些多模態(tài)信號(hào)與先驗(yàn)知識(shí)整合在一起,將新的多媒體信息轉(zhuǎn)化為長(zhǎng)期記憶。


由此團(tuán)隊(duì)能推斷:1)大腦中的多媒體信號(hào)共享感知通道,2)文字在大腦中充當(dāng)推理接口。

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

受此啟發(fā),團(tuán)隊(duì)將不同的模態(tài)分為兩類:“知識(shí)模態(tài)”“接口模態(tài)”


知識(shí)模態(tài)主要來(lái)自原始傳感器,以不同的形式貢獻(xiàn)知識(shí)。例如,圖像和深度圖提供視覺(jué)知識(shí),而音頻和視頻提供聽(tīng)覺(jué)和時(shí)空知識(shí)。人類語(yǔ)言模態(tài)本質(zhì)上更為抽象,自然地作為了接口模態(tài),促進(jìn)大腦學(xué)習(xí)、推理和知識(shí)的協(xié)調(diào)。


為此,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全模態(tài)學(xué)習(xí)架構(gòu)(詳細(xì)嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)設(shè)計(jì)見(jiàn)文3.2),如上圖 (b) 所示,它有兩個(gè)不同的分支:一個(gè)用于知識(shí)模態(tài),一個(gè)用于接口模態(tài),即自然語(yǔ)言。知識(shí)和界面模態(tài)通過(guò)一種新穎的生成推理方法進(jìn)行對(duì)齊(見(jiàn)方法3.4)。

大規(guī)模的全模態(tài)預(yù)訓(xùn)練算法:多模態(tài)上下文與多模態(tài)尺度定律(Scaling Law)

“上下文”這一概念在本文指的是在注意力機(jī)制為序列中的每個(gè)標(biāo)記分配一個(gè)唯一向量來(lái)強(qiáng)化了位置之間的潛在關(guān)聯(lián)。


不同的模態(tài)(例如,文本、圖像、音頻)提供了互補(bǔ)信息,因此學(xué)習(xí)多模態(tài)的上下文可以更全面、細(xì)致地理解數(shù)據(jù),還可以利用每種模態(tài)的優(yōu)勢(shì),引導(dǎo)模型理解不同類型信息之間的交互。因此,團(tuán)隊(duì)尋求構(gòu)建跨越不同模態(tài)的上下文關(guān)系,使得模態(tài)之間能夠相互增強(qiáng)(見(jiàn)下圖)并將學(xué)習(xí)能力擴(kuò)展到全模態(tài)。

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

多模態(tài)配對(duì)數(shù)據(jù)中的多模態(tài)上下文

首先團(tuán)隊(duì)構(gòu)建了多模態(tài)配對(duì)數(shù)據(jù)的數(shù)據(jù)集 (圖像,深度,法線,圖像的配對(duì)文字,音頻,音頻配對(duì)文字,視頻,視頻配對(duì)文字)。


然后使用一個(gè)全模態(tài)編碼器(ViT) 提取多模態(tài)特征,然后使用文本編碼器提取文本特征。通過(guò)自上而下的設(shè)計(jì)構(gòu)建多模態(tài)上下文關(guān)系:


  1. 對(duì)于整個(gè)多模態(tài)Embeddings,它們共享一套位置編碼,以構(gòu)建跨越不同模態(tài)的融合上下文關(guān)系。
    2.然后,對(duì)于每個(gè)特定模態(tài)的上下文,它們通過(guò)不同的模態(tài)標(biāo)記來(lái)指示模態(tài)類別。
  2. 在同一模態(tài)上下文中,團(tuán)隊(duì)使用單獨(dú)的上下文編碼構(gòu)建單一模態(tài)上下文關(guān)系(詳見(jiàn)原文)上下文編碼取決于特定模態(tài)的樣本長(zhǎng)度。


同時(shí),不同模態(tài)的配對(duì)文本內(nèi)容可以簡(jiǎn)單的拼接起來(lái),其位置編碼同樣是共享的:

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

多數(shù)據(jù)集中的多模態(tài)上下文:圖-文/音頻-文字/視頻-文字等

團(tuán)隊(duì)提出的范式還可以利用現(xiàn)有的大規(guī)模文本-圖像、文本-音頻和文本-視頻數(shù)據(jù)集,共同預(yù)訓(xùn)練模型來(lái)學(xué)習(xí)通用表征。給定數(shù)據(jù)集 圖文/音頻-文字/視頻-文字?jǐn)?shù)據(jù)集,每對(duì)數(shù)據(jù)擁有局部的簡(jiǎn)單的上下文,例如,圖文數(shù)據(jù)對(duì)在CLIP中僅對(duì)應(yīng)一個(gè)簡(jiǎn)單的上下文,這可能會(huì)限制模型學(xué)習(xí)表征(工程中增大Batch Size來(lái)緩解)。團(tuán)隊(duì)提出通過(guò)跨數(shù)據(jù)集的聯(lián)合采樣,使用采樣編碼(Sampling Embeddings) 標(biāo)記同一個(gè)數(shù)據(jù)集的配對(duì)數(shù)據(jù),再層次化地在多數(shù)據(jù)之間構(gòu)建多模態(tài)上下文。


通過(guò)這種方式,團(tuán)隊(duì)成功地結(jié)合了現(xiàn)有的多種跨模態(tài)數(shù)據(jù)集,通過(guò)構(gòu)建更通用和復(fù)雜的多模態(tài)上下文(見(jiàn)上述公式)來(lái)預(yù)訓(xùn)練模型,從而實(shí)現(xiàn)更好的泛化學(xué)習(xí)能力、更完善的模態(tài)擴(kuò)展性和數(shù)據(jù)擴(kuò)展性來(lái)超越現(xiàn)有的預(yù)訓(xùn)練方法。

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

10種單模態(tài)感知基準(zhǔn): 7項(xiàng)SOTA

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

25種跨模態(tài)檢索、問(wèn)答、描述基準(zhǔn): 20項(xiàng)SOTA

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

18種多模態(tài)大模型問(wèn)答基準(zhǔn):10項(xiàng)SOTA

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)


37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示|港中文&中科院-AI.x社區(qū)

結(jié)論

在本文中,團(tuán)隊(duì)提出了一個(gè)新的大規(guī)模預(yù)訓(xùn)練框架 MiCo,用于訓(xùn)練具有全模態(tài)理解能力的基礎(chǔ)模型。通過(guò)大規(guī)模的實(shí)驗(yàn),團(tuán)隊(duì)得出結(jié)論,全模態(tài)學(xué)習(xí)的關(guān)鍵是模擬人腦的多模態(tài)認(rèn)知過(guò)程。在 MiCo中,團(tuán)隊(duì)使用RGB圖像、深度和法線圖來(lái)模擬人類視覺(jué)認(rèn)知的基本視覺(jué)感知能力、距離空間感知和幾何感知。


此外,文字描述、音頻和視頻提供先驗(yàn)知識(shí)、聽(tīng)覺(jué)感知,時(shí)空感知能力,有效地提升了模型的對(duì)于多模態(tài)信息的理解能力,在未來(lái)的工作中,團(tuán)隊(duì)計(jì)劃通過(guò)結(jié)合其他更多模態(tài)來(lái)繼續(xù)增強(qiáng)全模態(tài)聯(lián)合預(yù)訓(xùn)練,包括光流、IMU 數(shù)據(jù)和事件文件等。


團(tuán)隊(duì)相信MiCo中多模態(tài)上下文預(yù)訓(xùn)練算法是人工智能模擬人腦多模態(tài)認(rèn)知的重要嘗試,團(tuán)隊(duì)期待它能夠啟發(fā)未來(lái)的工作,開(kāi)發(fā)更強(qiáng)大的全模態(tài)基礎(chǔ)模型。


項(xiàng)目網(wǎng)站:??https://invictus717.github.io/MiCo/???
開(kāi)源代碼:???https://github.com/invictus717/MiCo???
Hugging Face模型:???https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K??

本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/1dvP9XmdMyVVzv5dCisCIw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦