自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

37項(xiàng)SOTA!全模態(tài)預(yù)訓(xùn)練范式MiCo:理解任何模態(tài)并學(xué)習(xí)通用表示

人工智能
在本文中,團(tuán)隊(duì)提出了一個(gè)新的大規(guī)模預(yù)訓(xùn)練框架 MiCo,用于訓(xùn)練具有全模態(tài)理解能力的基礎(chǔ)模型。通過大規(guī)模的實(shí)驗(yàn),團(tuán)隊(duì)得出結(jié)論,全模態(tài)學(xué)習(xí)的關(guān)鍵是模擬人腦的多模態(tài)認(rèn)知過程。

GPT-4o掀起一股全模態(tài)(Omni-modal)熱潮,去年的熱詞多模態(tài)仿佛已經(jīng)不夠看了。

要構(gòu)建全模態(tài)智能,意味著能夠理解任何模態(tài)并學(xué)習(xí)通用表示 (Universal Representations)。

現(xiàn)在,港中文、中科院等提出了一種大規(guī)模的全模態(tài)預(yù)訓(xùn)練范式,稱為多模態(tài)上下文MiCo(Multimodal Context),它可以在預(yù)訓(xùn)練過程中引入更多的模態(tài),數(shù)據(jù)量,模型參數(shù)。

圖片圖片

借助 MiCo,團(tuán)隊(duì)預(yù)訓(xùn)練的模型在多模態(tài)學(xué)習(xí)中表現(xiàn)出極為令人印象深刻的性能,在目前主流的三大類任務(wù)上的評(píng)估結(jié)果顯示出:

  • 10種不同模態(tài)的單模態(tài)感知基準(zhǔn)。
  • 25種跨模態(tài)理解任務(wù),包括檢索、問答、描述。
  • 18種多模態(tài)大型語言模型基準(zhǔn),MiCo取得了37項(xiàng)最強(qiáng)性能的記錄。

大規(guī)模全模態(tài)預(yù)訓(xùn)練

在AI的發(fā)展歷程中, 大規(guī)模的預(yù)訓(xùn)練已經(jīng)逐漸成為一種非常有前景的途徑來實(shí)現(xiàn)通用智能(譬如大規(guī)模訓(xùn)練的GPT-4o, LLaMA, Stable Diffusion)。

其中圖文對(duì)比學(xué)習(xí)是社區(qū)最有影響力的預(yù)訓(xùn)練方法之一,比如,CLIP構(gòu)建起了數(shù)百萬的圖文數(shù)據(jù)對(duì)來實(shí)現(xiàn)跨模態(tài)的對(duì)比學(xué)習(xí)。

研究者將這樣的對(duì)比學(xué)習(xí)范式推廣到了更多的數(shù)據(jù)模態(tài)上(音頻,點(diǎn)云)同時(shí)也實(shí)現(xiàn)了更深入的語義理解(LLaVA, VideoChat)。

但是在這多模態(tài)與AIGC的時(shí)代里,越來越多的數(shù)據(jù)模態(tài)(比如,音頻,3D內(nèi)容等)被廣泛使用時(shí),僅限于圖文預(yù)訓(xùn)練的基礎(chǔ)模型帶來了包括多模態(tài)錯(cuò)位、誤解、幻覺和偏見放大等問題,這些難題都阻礙了連貫的多模態(tài)理解(coherent multimodal understanding)。

圖片圖片

因此,團(tuán)隊(duì)希望提出一種能適用于全模態(tài)(不局限于僅圖文音視頻3D內(nèi)容)的大規(guī)模預(yù)訓(xùn)練方法,如圖所示,團(tuán)隊(duì)將視頻與相配對(duì)的音頻、文字描述、深度還有法線進(jìn)行聯(lián)合預(yù)訓(xùn)練。

如何設(shè)計(jì)全模態(tài)預(yù)訓(xùn)練中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)?

參考人腦中多模態(tài)認(rèn)知的過程,如下圖所示,根據(jù)理查德·梅耶的多媒體學(xué)習(xí)認(rèn)知理論(Richard E Mayer. Multimedia learning. In Psychology of learning and motivation, volume 41,305 pages 85–139. Elsevier, 2002.),人腦對(duì)耳朵和眼睛的感知內(nèi)容(圖/文/視頻/音頻/3D)有兩個(gè)不同的通道來處理他們的感覺記憶。

感覺記憶通過文字將這些多模態(tài)信號(hào)與先驗(yàn)知識(shí)整合在一起,將新的多媒體信息轉(zhuǎn)化為長期記憶。

由此團(tuán)隊(duì)能推斷:1)大腦中的多媒體信號(hào)共享感知通道,2)文字在大腦中充當(dāng)推理接口。

圖片圖片

受此啟發(fā),團(tuán)隊(duì)將不同的模態(tài)分為兩類:“知識(shí)模態(tài)”“接口模態(tài)”

知識(shí)模態(tài)主要來自原始傳感器,以不同的形式貢獻(xiàn)知識(shí)。例如,圖像和深度圖提供視覺知識(shí),而音頻和視頻提供聽覺和時(shí)空知識(shí)。人類語言模態(tài)本質(zhì)上更為抽象,自然地作為了接口模態(tài),促進(jìn)大腦學(xué)習(xí)、推理和知識(shí)的協(xié)調(diào)。

為此,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全模態(tài)學(xué)習(xí)架構(gòu)(詳細(xì)嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)設(shè)計(jì)見文3.2),如上圖 (b) 所示,它有兩個(gè)不同的分支:一個(gè)用于知識(shí)模態(tài),一個(gè)用于接口模態(tài),即自然語言。知識(shí)和界面模態(tài)通過一種新穎的生成推理方法進(jìn)行對(duì)齊(見方法3.4)。

大規(guī)模的全模態(tài)預(yù)訓(xùn)練算法:多模態(tài)上下文與多模態(tài)尺度定律(Scaling Law)

“上下文”這一概念在本文指的是在注意力機(jī)制為序列中的每個(gè)標(biāo)記分配一個(gè)唯一向量來強(qiáng)化了位置之間的潛在關(guān)聯(lián)。

不同的模態(tài)(例如,文本、圖像、音頻)提供了互補(bǔ)信息,因此學(xué)習(xí)多模態(tài)的上下文可以更全面、細(xì)致地理解數(shù)據(jù),還可以利用每種模態(tài)的優(yōu)勢(shì),引導(dǎo)模型理解不同類型信息之間的交互。因此,團(tuán)隊(duì)尋求構(gòu)建跨越不同模態(tài)的上下文關(guān)系,使得模態(tài)之間能夠相互增強(qiáng)(見下圖)并將學(xué)習(xí)能力擴(kuò)展到全模態(tài)。

圖片圖片

多模態(tài)配對(duì)數(shù)據(jù)中的多模態(tài)上下文

首先團(tuán)隊(duì)構(gòu)建了多模態(tài)配對(duì)數(shù)據(jù)的數(shù)據(jù)集 (圖像,深度,法線,圖像的配對(duì)文字,音頻,音頻配對(duì)文字,視頻,視頻配對(duì)文字)。

然后使用一個(gè)全模態(tài)編碼器(ViT) 提取多模態(tài)特征,然后使用文本編碼器提取文本特征。通過自上而下的設(shè)計(jì)構(gòu)建多模態(tài)上下文關(guān)系:

  1. 對(duì)于整個(gè)多模態(tài)Embeddings,它們共享一套位置編碼,以構(gòu)建跨越不同模態(tài)的融合上下文關(guān)系。
    2.然后,對(duì)于每個(gè)特定模態(tài)的上下文,它們通過不同的模態(tài)標(biāo)記來指示模態(tài)類別。
  2. 在同一模態(tài)上下文中,團(tuán)隊(duì)使用單獨(dú)的上下文編碼構(gòu)建單一模態(tài)上下文關(guān)系(詳見原文)上下文編碼取決于特定模態(tài)的樣本長度。

同時(shí),不同模態(tài)的配對(duì)文本內(nèi)容可以簡單的拼接起來,其位置編碼同樣是共享的:

圖片圖片

多數(shù)據(jù)集中的多模態(tài)上下文:圖-文/音頻-文字/視頻-文字等

團(tuán)隊(duì)提出的范式還可以利用現(xiàn)有的大規(guī)模文本-圖像、文本-音頻和文本-視頻數(shù)據(jù)集,共同預(yù)訓(xùn)練模型來學(xué)習(xí)通用表征。給定數(shù)據(jù)集 圖文/音頻-文字/視頻-文字?jǐn)?shù)據(jù)集,每對(duì)數(shù)據(jù)擁有局部的簡單的上下文,例如,圖文數(shù)據(jù)對(duì)在CLIP中僅對(duì)應(yīng)一個(gè)簡單的上下文,這可能會(huì)限制模型學(xué)習(xí)表征(工程中增大Batch Size來緩解)。團(tuán)隊(duì)提出通過跨數(shù)據(jù)集的聯(lián)合采樣,使用采樣編碼(Sampling Embeddings) 標(biāo)記同一個(gè)數(shù)據(jù)集的配對(duì)數(shù)據(jù),再層次化地在多數(shù)據(jù)之間構(gòu)建多模態(tài)上下文。

通過這種方式,團(tuán)隊(duì)成功地結(jié)合了現(xiàn)有的多種跨模態(tài)數(shù)據(jù)集,通過構(gòu)建更通用和復(fù)雜的多模態(tài)上下文(見上述公式)來預(yù)訓(xùn)練模型,從而實(shí)現(xiàn)更好的泛化學(xué)習(xí)能力、更完善的模態(tài)擴(kuò)展性和數(shù)據(jù)擴(kuò)展性來超越現(xiàn)有的預(yù)訓(xùn)練方法。

圖片圖片

實(shí)驗(yàn)結(jié)果

10種單模態(tài)感知基準(zhǔn): 7項(xiàng)SOTA

圖片圖片

25種跨模態(tài)檢索、問答、描述基準(zhǔn): 20項(xiàng)SOTA

圖片圖片

18種多模態(tài)大模型問答基準(zhǔn):10項(xiàng)SOTA

圖片圖片

圖片圖片

結(jié)論

在本文中,團(tuán)隊(duì)提出了一個(gè)新的大規(guī)模預(yù)訓(xùn)練框架 MiCo,用于訓(xùn)練具有全模態(tài)理解能力的基礎(chǔ)模型。通過大規(guī)模的實(shí)驗(yàn),團(tuán)隊(duì)得出結(jié)論,全模態(tài)學(xué)習(xí)的關(guān)鍵是模擬人腦的多模態(tài)認(rèn)知過程。在 MiCo中,團(tuán)隊(duì)使用RGB圖像、深度和法線圖來模擬人類視覺認(rèn)知的基本視覺感知能力、距離空間感知和幾何感知。

此外,文字描述、音頻和視頻提供先驗(yàn)知識(shí)、聽覺感知,時(shí)空感知能力,有效地提升了模型的對(duì)于多模態(tài)信息的理解能力,在未來的工作中,團(tuán)隊(duì)計(jì)劃通過結(jié)合其他更多模態(tài)來繼續(xù)增強(qiáng)全模態(tài)聯(lián)合預(yù)訓(xùn)練,包括光流、IMU 數(shù)據(jù)和事件文件等。

團(tuán)隊(duì)相信MiCo中多模態(tài)上下文預(yù)訓(xùn)練算法是人工智能模擬人腦多模態(tài)認(rèn)知的重要嘗試,團(tuán)隊(duì)期待它能夠啟發(fā)未來的工作,開發(fā)更強(qiáng)大的全模態(tài)基礎(chǔ)模型。

項(xiàng)目網(wǎng)站:https://invictus717.github.io/MiCo/
開源代碼:https://github.com/invictus717/MiCo
Hugging Face模型:https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-03-25 12:40:19

訓(xùn)練模型

2023-06-20 16:19:00

機(jī)器3D

2023-10-25 09:50:07

自動(dòng)駕駛訓(xùn)練

2024-03-25 12:30:18

AI訓(xùn)練開源

2024-11-04 13:30:00

模型AI

2022-03-04 19:07:03

模型視覺人工智能

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-05-27 07:21:43

2024-06-03 06:49:53

2023-07-17 11:02:36

模型開源

2025-04-07 00:00:00

多模態(tài)大模型

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦

2024-11-13 09:39:13

2025-04-09 02:10:00

模態(tài)編碼器SigLIP多模態(tài)

2021-12-23 10:00:38

谷歌訓(xùn)練技術(shù)

2025-04-28 02:03:00

多模態(tài)大模型EVEv2

2025-01-07 09:11:07

2025-01-21 09:00:00

2025-04-28 14:13:43

開源SOTA多模態(tài)

2010-07-15 09:11:59

JavaScrip
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)