自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="hs6ft"></sub>

<sub id="hs6ft"><p id="hs6ft"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院

發(fā)布于 2024-6-17 10:43

瀏覽

0收藏

GPT-4o掀起一股全模態(tài)（Omni-modal）熱潮，去年的熱詞多模態(tài)仿佛已經(jīng)不夠看了。

要構(gòu)建全模態(tài)智能，意味著能夠理解任何模態(tài)并學(xué)習(xí)通用表示 (Universal Representations)。

現(xiàn)在，港中文、中科院等提出了一種大規(guī)模的全模態(tài)預(yù)訓(xùn)練范式，稱為多模態(tài)上下文MiCo（Multimodal Context），它可以在預(yù)訓(xùn)練過(guò)程中引入更多的模態(tài)，數(shù)據(jù)量，模型參數(shù)。

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

借助 MiCo，團(tuán)隊(duì)預(yù)訓(xùn)練的模型在多模態(tài)學(xué)習(xí)中表現(xiàn)出極為令人印象深刻的性能，在目前主流的三大類任務(wù)上的評(píng)估結(jié)果顯示出：

10種不同模態(tài)的單模態(tài)感知基準(zhǔn)。
25種跨模態(tài)理解任務(wù)，包括檢索、問(wèn)答、描述。
18種多模態(tài)大型語(yǔ)言模型基準(zhǔn)，MiCo取得了37項(xiàng)最強(qiáng)性能的記錄。

大規(guī)模全模態(tài)預(yù)訓(xùn)練

在AI的發(fā)展歷程中, 大規(guī)模的預(yù)訓(xùn)練已經(jīng)逐漸成為一種非常有前景的途徑來(lái)實(shí)現(xiàn)通用智能（譬如大規(guī)模訓(xùn)練的GPT-4o, LLaMA, Stable Diffusion）。

其中圖文對(duì)比學(xué)習(xí)是社區(qū)最有影響力的預(yù)訓(xùn)練方法之一，比如，CLIP構(gòu)建起了數(shù)百萬(wàn)的圖文數(shù)據(jù)對(duì)來(lái)實(shí)現(xiàn)跨模態(tài)的對(duì)比學(xué)習(xí)。

研究者將這樣的對(duì)比學(xué)習(xí)范式推廣到了更多的數(shù)據(jù)模態(tài)上（音頻，點(diǎn)云）同時(shí)也實(shí)現(xiàn)了更深入的語(yǔ)義理解（LLaVA, VideoChat）。

但是在這多模態(tài)與AIGC的時(shí)代里，越來(lái)越多的數(shù)據(jù)模態(tài)（比如，音頻，3D內(nèi)容等）被廣泛使用時(shí)，僅限于圖文預(yù)訓(xùn)練的基礎(chǔ)模型帶來(lái)了包括多模態(tài)錯(cuò)位、誤解、幻覺(jué)和偏見(jiàn)放大等問(wèn)題，這些難題都阻礙了連貫的多模態(tài)理解（coherent multimodal understanding）。

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

因此，團(tuán)隊(duì)希望提出一種能適用于全模態(tài)（不局限于僅圖文音視頻3D內(nèi)容）的大規(guī)模預(yù)訓(xùn)練方法，如圖所示，團(tuán)隊(duì)將視頻與相配對(duì)的音頻、文字描述、深度還有法線進(jìn)行聯(lián)合預(yù)訓(xùn)練。

如何設(shè)計(jì)全模態(tài)預(yù)訓(xùn)練中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)？

參考人腦中多模態(tài)認(rèn)知的過(guò)程，如下圖所示，根據(jù)理查德·梅耶的多媒體學(xué)習(xí)認(rèn)知理論（Richard E Mayer. Multimedia learning. In Psychology of learning and motivation, volume 41,305 pages 85–139. Elsevier, 2002.），人腦對(duì)耳朵和眼睛的感知內(nèi)容（圖/文/視頻/音頻/3D）有兩個(gè)不同的通道來(lái)處理他們的感覺(jué)記憶。

感覺(jué)記憶通過(guò)文字將這些多模態(tài)信號(hào)與先驗(yàn)知識(shí)整合在一起，將新的多媒體信息轉(zhuǎn)化為長(zhǎng)期記憶。

由此團(tuán)隊(duì)能推斷：1）大腦中的多媒體信號(hào)共享感知通道，2）文字在大腦中充當(dāng)推理接口。

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

受此啟發(fā)，團(tuán)隊(duì)將不同的模態(tài)分為兩類：“知識(shí)模態(tài)”和“接口模態(tài)”。

知識(shí)模態(tài)主要來(lái)自原始傳感器，以不同的形式貢獻(xiàn)知識(shí)。例如，圖像和深度圖提供視覺(jué)知識(shí)，而音頻和視頻提供聽(tīng)覺(jué)和時(shí)空知識(shí)。人類語(yǔ)言模態(tài)本質(zhì)上更為抽象，自然地作為了接口模態(tài)，促進(jìn)大腦學(xué)習(xí)、推理和知識(shí)的協(xié)調(diào)。

為此，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)全模態(tài)學(xué)習(xí)架構(gòu)（詳細(xì)嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)設(shè)計(jì)見(jiàn)文3.2），如上圖 (b) 所示，它有兩個(gè)不同的分支：一個(gè)用于知識(shí)模態(tài)，一個(gè)用于接口模態(tài)，即自然語(yǔ)言。知識(shí)和界面模態(tài)通過(guò)一種新穎的生成推理方法進(jìn)行對(duì)齊（見(jiàn)方法3.4）。

大規(guī)模的全模態(tài)預(yù)訓(xùn)練算法：多模態(tài)上下文與多模態(tài)尺度定律(Scaling Law)

“上下文”這一概念在本文指的是在注意力機(jī)制為序列中的每個(gè)標(biāo)記分配一個(gè)唯一向量來(lái)強(qiáng)化了位置之間的潛在關(guān)聯(lián)。

不同的模態(tài)（例如，文本、圖像、音頻）提供了互補(bǔ)信息，因此學(xué)習(xí)多模態(tài)的上下文可以更全面、細(xì)致地理解數(shù)據(jù)，還可以利用每種模態(tài)的優(yōu)勢(shì)，引導(dǎo)模型理解不同類型信息之間的交互。因此，團(tuán)隊(duì)尋求構(gòu)建跨越不同模態(tài)的上下文關(guān)系，使得模態(tài)之間能夠相互增強(qiáng)（見(jiàn)下圖）并將學(xué)習(xí)能力擴(kuò)展到全模態(tài)。

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

多模態(tài)配對(duì)數(shù)據(jù)中的多模態(tài)上下文

首先團(tuán)隊(duì)構(gòu)建了多模態(tài)配對(duì)數(shù)據(jù)的數(shù)據(jù)集（圖像，深度，法線，圖像的配對(duì)文字，音頻，音頻配對(duì)文字，視頻，視頻配對(duì)文字）。

然后使用一個(gè)全模態(tài)編碼器(ViT) 提取多模態(tài)特征，然后使用文本編碼器提取文本特征。通過(guò)自上而下的設(shè)計(jì)構(gòu)建多模態(tài)上下文關(guān)系：

對(duì)于整個(gè)多模態(tài)Embeddings，它們共享一套位置編碼，以構(gòu)建跨越不同模態(tài)的融合上下文關(guān)系。
2.然后，對(duì)于每個(gè)特定模態(tài)的上下文，它們通過(guò)不同的模態(tài)標(biāo)記來(lái)指示模態(tài)類別。
在同一模態(tài)上下文中，團(tuán)隊(duì)使用單獨(dú)的上下文編碼構(gòu)建單一模態(tài)上下文關(guān)系（詳見(jiàn)原文）上下文編碼取決于特定模態(tài)的樣本長(zhǎng)度。

同時(shí)，不同模態(tài)的配對(duì)文本內(nèi)容可以簡(jiǎn)單的拼接起來(lái)，其位置編碼同樣是共享的：

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

多數(shù)據(jù)集中的多模態(tài)上下文：圖-文/音頻-文字/視頻-文字等

團(tuán)隊(duì)提出的范式還可以利用現(xiàn)有的大規(guī)模文本-圖像、文本-音頻和文本-視頻數(shù)據(jù)集，共同預(yù)訓(xùn)練模型來(lái)學(xué)習(xí)通用表征。給定數(shù)據(jù)集圖文/音頻-文字/視頻-文字?jǐn)?shù)據(jù)集，每對(duì)數(shù)據(jù)擁有局部的簡(jiǎn)單的上下文，例如，圖文數(shù)據(jù)對(duì)在CLIP中僅對(duì)應(yīng)一個(gè)簡(jiǎn)單的上下文，這可能會(huì)限制模型學(xué)習(xí)表征（工程中增大Batch Size來(lái)緩解）。團(tuán)隊(duì)提出通過(guò)跨數(shù)據(jù)集的聯(lián)合采樣，使用采樣編碼(Sampling Embeddings) 標(biāo)記同一個(gè)數(shù)據(jù)集的配對(duì)數(shù)據(jù)，再層次化地在多數(shù)據(jù)之間構(gòu)建多模態(tài)上下文。

通過(guò)這種方式，團(tuán)隊(duì)成功地結(jié)合了現(xiàn)有的多種跨模態(tài)數(shù)據(jù)集，通過(guò)構(gòu)建更通用和復(fù)雜的多模態(tài)上下文（見(jiàn)上述公式）來(lái)預(yù)訓(xùn)練模型，從而實(shí)現(xiàn)更好的泛化學(xué)習(xí)能力、更完善的模態(tài)擴(kuò)展性和數(shù)據(jù)擴(kuò)展性來(lái)超越現(xiàn)有的預(yù)訓(xùn)練方法。

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

10種單模態(tài)感知基準(zhǔn): 7項(xiàng)SOTA

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

25種跨模態(tài)檢索、問(wèn)答、描述基準(zhǔn): 20項(xiàng)SOTA

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

18種多模態(tài)大模型問(wèn)答基準(zhǔn)：10項(xiàng)SOTA

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

37項(xiàng)SOTA！全模態(tài)預(yù)訓(xùn)練范式MiCo：理解任何模態(tài)并學(xué)習(xí)通用表示｜港中文&中科院-AI.x社區(qū)

結(jié)論

在本文中，團(tuán)隊(duì)提出了一個(gè)新的大規(guī)模預(yù)訓(xùn)練框架 MiCo，用于訓(xùn)練具有全模態(tài)理解能力的基礎(chǔ)模型。通過(guò)大規(guī)模的實(shí)驗(yàn)，團(tuán)隊(duì)得出結(jié)論，全模態(tài)學(xué)習(xí)的關(guān)鍵是模擬人腦的多模態(tài)認(rèn)知過(guò)程。在 MiCo中，團(tuán)隊(duì)使用RGB圖像、深度和法線圖來(lái)模擬人類視覺(jué)認(rèn)知的基本視覺(jué)感知能力、距離空間感知和幾何感知。

此外，文字描述、音頻和視頻提供先驗(yàn)知識(shí)、聽(tīng)覺(jué)感知，時(shí)空感知能力，有效地提升了模型的對(duì)于多模態(tài)信息的理解能力，在未來(lái)的工作中，團(tuán)隊(duì)計(jì)劃通過(guò)結(jié)合其他更多模態(tài)來(lái)繼續(xù)增強(qiáng)全模態(tài)聯(lián)合預(yù)訓(xùn)練，包括光流、IMU 數(shù)據(jù)和事件文件等。

團(tuán)隊(duì)相信MiCo中多模態(tài)上下文預(yù)訓(xùn)練算法是人工智能模擬人腦多模態(tài)認(rèn)知的重要嘗試，團(tuán)隊(duì)期待它能夠啟發(fā)未來(lái)的工作，開(kāi)發(fā)更強(qiáng)大的全模態(tài)基礎(chǔ)模型。

項(xiàng)目網(wǎng)站：??https://invictus717.github.io/MiCo/???
開(kāi)源代碼：???https://github.com/invictus717/MiCo???
Hugging Face模型：???https://huggingface.co/Yiyuan/MiCo-ViT-g-14-omnimodal-300k-b64K??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/1dvP9XmdMyVVzv5dCisCIw??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

場(chǎng)景圖知識(shí)增強(qiáng)多模態(tài)結(jié)構(gòu)化表示能力

mb5f8eba9bdb0af ? 2707瀏覽 ? 0回復(fù)
港中文深圳提出ALLaVA-4V：百萬(wàn)級(jí)別的開(kāi)源多模態(tài)GPT-4V數(shù)據(jù)集

kcoufee ? 2252瀏覽 ? 0回復(fù)
弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)？！中科院等：8項(xiàng)測(cè)試第一，遠(yuǎn)超知乎豆瓣小紅書

Crystalcxt ? 3677瀏覽 ? 0回復(fù)
CVPR‘24：與任務(wù)無(wú)關(guān)的多模態(tài)數(shù)據(jù)也能提升Transformer性能｜港中文&騰訊

Crystalcxt ? 2305瀏覽 ? 0回復(fù)
極佳、中科院等9機(jī)構(gòu)聯(lián)合首發(fā) | 3萬(wàn)字長(zhǎng)文全面解析世界模型(內(nèi)容生成/自動(dòng)駕駛等)

angel ? 5449瀏覽 ? 0回復(fù)
考考大模型視頻理解能力，中科院人大百川提出新基準(zhǔn)合成框架

Crystalcxt ? 2413瀏覽 ? 0回復(fù)
港科大新SOTA丨大語(yǔ)言模型在通用視覺(jué)定位中的能力（LLM-Optic）

AIRoobt ? 4289瀏覽 ? 0回復(fù)
LFPLM：基于預(yù)訓(xùn)練語(yǔ)言模型的通用靈活負(fù)荷預(yù)測(cè)框架

AIRoobt ? 3642瀏覽 ? 0回復(fù)
香港中文大學(xué)提出新算法MoFO助力AI記住預(yù)訓(xùn)練知識(shí)！

AI論文解讀 ? 3197瀏覽 ? 0回復(fù)
多模態(tài)大語(yǔ)言模型的演變全回顧?。ㄒ曈X(jué)定位、圖像生成、編輯、理解）

angel ? 3469瀏覽 ? 0回復(fù)
阿里達(dá)摩院最新多模態(tài)大模型介紹，多項(xiàng)圖文任務(wù)取得SOTA效果

海因斯DK ? 2497瀏覽 ? 0回復(fù)
深入理解預(yù)訓(xùn)練與微調(diào)，為什么需要預(yù)訓(xùn)練，什么是微調(diào)？

AI探索時(shí)代 ? 3738瀏覽 ? 0回復(fù)
無(wú)需訓(xùn)練！多提示視頻生成最新SOTA！港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 2642瀏覽 ? 0回復(fù)
視頻編輯最新SOTA！港中文&Adobe等發(fā)布統(tǒng)一視頻生成傳播框架——GenProp

angel ? 1757瀏覽 ? 0回復(fù)
RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

PaperAgent ? 2970瀏覽 ? 0回復(fù)
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1823瀏覽 ? 0回復(fù)
中科院、百度提出新架構(gòu)：突破參數(shù)限制，實(shí)現(xiàn)高效推理

Aceryt ? 1455瀏覽 ? 0回復(fù)
多模態(tài)理解和生成：多模態(tài)理解與生成統(tǒng)一獎(jiǎng)勵(lì)模型；將獎(jiǎng)勵(lì)模型多模態(tài)情緒識(shí)別上

AI研究前瞻 ? 1629瀏覽 ? 0回復(fù)
騰訊&港中文發(fā)布影視后期黑科技！VideoPainter：視頻編輯修復(fù)8項(xiàng)SOTA!

angel ? 1430瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開(kāi)辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開(kāi)源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：北大快手攻克復(fù)雜視頻生成難題！新框架輕松組合各種細(xì)節(jié)，代碼將開(kāi)源

下一篇： AI畫連環(huán)畫角色更一致了！人物之間的復(fù)雜互動(dòng)也能處理｜中山大學(xué)&聯(lián)想團(tuán)隊(duì)出品

社區(qū)精華內(nèi)容

目錄

<s id="buldp"><li id="buldp"></li></s>

<sup id="buldp"><rt id="buldp"></rt></sup>