自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

12種模態(tài),一個(gè)學(xué)習(xí)框架,Meta-Transformer實(shí)現(xiàn)骨干網(wǎng)絡(luò)大一統(tǒng)

人工智能 新聞
近日,香港中文大學(xué)多媒體實(shí)驗(yàn)室聯(lián)合上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出一個(gè)統(tǒng)一多模態(tài)學(xué)習(xí)框架 ——Meta-Transformer,采用全新的設(shè)計(jì)思路,通過統(tǒng)一學(xué)習(xí)無配對(duì)數(shù)據(jù),可以理解 12 種模態(tài)信息。

在邁向通用人工智能(AGI)的諸多可能的方向中,發(fā)展多模態(tài)大模型(MLLM)已然成為當(dāng)前炙手可熱的重要路徑。在 GPT4 對(duì)圖文理解的沖擊下,更多模態(tài)的理解成為學(xué)術(shù)界關(guān)注的焦點(diǎn),通感時(shí)代真要來了嗎?

我們知道,人類在學(xué)習(xí)的過程中不僅僅會(huì)接觸到文字、圖像,還會(huì)同時(shí)接觸聲音、視頻等各種模態(tài)的信息,并在腦中對(duì)這些信息同時(shí)進(jìn)行加工處理和統(tǒng)一學(xué)習(xí)。

那么:人工智能可以具備人類統(tǒng)一學(xué)習(xí)多模態(tài)信息的能力嗎?事實(shí)上,多模態(tài)之間的互補(bǔ)性可以增強(qiáng)人工智能的學(xué)習(xí)能力,比如,CLIP 將圖像與文本進(jìn)行統(tǒng)一學(xué)習(xí)的方式就取得了巨大的成功。但受限于多種模態(tài)之間巨大的差異性以及現(xiàn)有多模態(tài)模型對(duì)配對(duì)數(shù)據(jù)的依賴性,實(shí)現(xiàn)模態(tài)通用感知存在著艱巨挑戰(zhàn)。

為了解決上述挑戰(zhàn),近日,香港中文大學(xué)多媒體實(shí)驗(yàn)室聯(lián)合上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出一個(gè)統(tǒng)一多模態(tài)學(xué)習(xí)框架 ——Meta-Transformer,采用全新的設(shè)計(jì)思路,通過統(tǒng)一學(xué)習(xí)無配對(duì)數(shù)據(jù),可以理解 12 種模態(tài)信息。

圖片圖片



圖片


  • 網(wǎng)站地址:https://kxgong.github.io/meta_transformer/
  • 代碼地址:https://github.com/invictus717/MetaTransformer

Meta-Transformer 實(shí)現(xiàn)骨干網(wǎng)絡(luò)的大一統(tǒng),具有一個(gè)模態(tài)共享編碼器,并且無需配對(duì)數(shù)據(jù),能夠在 12 個(gè)不同的模態(tài)上完成 16 個(gè)不同的感知任務(wù)。該工作不僅為當(dāng)前多模態(tài)學(xué)習(xí)提供了強(qiáng)大的工具,也給多模態(tài)領(lǐng)域帶來新的設(shè)計(jì)思路。

圖 1:Meta-Transformer 框架下統(tǒng)一的多模態(tài)感知,能夠處理 12 種不同的模態(tài)圖 1:Meta-Transformer 框架下統(tǒng)一的多模態(tài)感知,能夠處理 12 種不同的模態(tài)

表 1:相比于現(xiàn)有工作,Meta-Transformer 可以利用統(tǒng)一的模態(tài)共享編碼器來處理更多的模態(tài),并且擺脫了多模態(tài)訓(xùn)練過程中對(duì)于配對(duì)數(shù)據(jù)的依賴性。

接下來,一起詳細(xì)看一看 Meta-Transformer 的創(chuàng)新與貢獻(xiàn)體現(xiàn)在哪些方面。

Meta-Transformer 通向無限模態(tài)的感知范式

1、統(tǒng)一的模態(tài)共享編碼器

相比于先前 CLIP 使用不同的圖像和文本編碼器,以及 BEIT-3 的部分共享編碼器框架,Meta-Transformer 的核心設(shè)計(jì)在于一個(gè)所有模態(tài)完全共享的編碼器。該設(shè)計(jì)在編碼器層面統(tǒng)一多達(dá) 12 個(gè)模態(tài),證明了多模態(tài)數(shù)據(jù)完全共享編碼器的可行性。共享編碼器有助于在編碼器階段減小由不同的網(wǎng)絡(luò)參數(shù)引入的表征差異,這離統(tǒng)一的多模態(tài)感知智能更近了一步,即一個(gè)通用的網(wǎng)絡(luò)結(jié)構(gòu)處理任意模態(tài)的信息。

Meta-Transformer 可以有效地處理和學(xué)習(xí)高達(dá) 12 種模態(tài)的數(shù)據(jù),從常見的文本、圖像到音頻、視頻,甚至在其他更復(fù)雜的數(shù)據(jù)類型上也有所突破,如點(diǎn)云和高光譜數(shù)據(jù)。該設(shè)計(jì)有助于拓寬未來的多模態(tài)工作的設(shè)計(jì)思路。

圖 2:Meta-Transformer 的框架圖:對(duì)于不同模態(tài)的數(shù)據(jù),研究人員基于不同模態(tài)的信息特性設(shè)計(jì)了相應(yīng)的特征序列構(gòu)造方式,接著將得到的特征序列輸入到預(yù)訓(xùn)練后參數(shù)凍結(jié)的編碼器中,由此提取的表征能夠在多個(gè)模態(tài)上解決下游多個(gè)任務(wù)。

2、無需配對(duì)數(shù)據(jù):更加靈活的訓(xùn)練方式

當(dāng)前許多模態(tài)工作依賴于內(nèi)容配對(duì)的多模態(tài)數(shù)據(jù)來語義對(duì)齊兩個(gè)模態(tài),但收集生成多個(gè)模態(tài)兩兩之間配對(duì)的數(shù)據(jù)的高難度限制了當(dāng)前的多模態(tài)工作推廣到更廣泛的數(shù)據(jù)模態(tài)上。為了緩解這一限制,該研究提出 Data2Seq 方法, 將不同模態(tài)的原數(shù)據(jù)嵌入到一個(gè)共同編碼空間,轉(zhuǎn)換成各自對(duì)應(yīng) token 序列,隨后使用統(tǒng)一的模態(tài)共享編碼器繼續(xù)編碼 token 序列,因而任一模態(tài)的數(shù)據(jù)就可以訓(xùn)練 Meta-Transformer 感知相應(yīng)的模態(tài)的能力。實(shí)驗(yàn)表明,Meta-Transformer 能夠在缺少配對(duì)數(shù)據(jù)訓(xùn)練場(chǎng)景下展現(xiàn)優(yōu)異性能。

3、更多模態(tài):通向模態(tài)通用感知

現(xiàn)有的多模態(tài)模態(tài)框架多側(cè)重于視覺和語言,較少衍生到更多其他模態(tài)。相比之下,Meta-Transformer 能夠?qū)τ?12 種不同的數(shù)據(jù)模態(tài)提供一套統(tǒng)一的學(xué)習(xí)框架,包括文本、圖像、點(diǎn)云、音頻、視頻、紅外、超光譜、X 射線、表格、圖形、時(shí)間序列和慣性測(cè)量單元(IMU)數(shù)據(jù)。這種廣泛的數(shù)據(jù)模態(tài)覆蓋,極大擴(kuò)展了 Meta-Transformer 的應(yīng)用范圍,并且 Meta-transformer 框架對(duì)于擴(kuò)展到更多的模態(tài)有著易擴(kuò)展、低成本、高訓(xùn)練效率的優(yōu)勢(shì)。

Meta-Transformer 的方法介紹

Meta-Transformer 統(tǒng)一處理來自不同模態(tài)的數(shù)據(jù),并通過共享編碼器完成對(duì)十二種模態(tài)的編碼。為了實(shí)現(xiàn)這一目標(biāo),Meta-Transformer 由三個(gè)部分組成:Data2Seq tokenization 模塊、統(tǒng)一的共享編碼模塊和下游任務(wù)學(xué)習(xí)模塊。

首先,研究人員提出了一套處理多模態(tài)數(shù)據(jù)的核心方案:數(shù)據(jù)分組 — 卷積提取局部語義 — 語義聚合 —— 空間映射,將各種模態(tài)的數(shù)據(jù)轉(zhuǎn)換為在同一個(gè)共享的嵌入空間內(nèi)的 token 序列。

圖 3:Data-to-Sequence 的設(shè)計(jì)方案能夠有效地將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為同一個(gè)流行嵌入空間內(nèi)的 token 序列,具有極強(qiáng)的模態(tài)拓展性。

緊接著,Meta-Transformer 將使用統(tǒng)一的共享編碼器對(duì)上一步得到的的不同模態(tài)的 token 序列進(jìn)行編碼。研究人員使用 LAION-2B 數(shù)據(jù)集對(duì)于骨干網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,在預(yù)訓(xùn)練之后凍結(jié)了模型參數(shù),得到深度為 L 的 Transformer 編碼器由多個(gè)堆疊的多頭自注意力(MSA)層和 MLP 塊組成。輸入的 token 首先進(jìn)入 MSA 層,然后進(jìn)入 MLP 塊。然后第 (?- 1) 個(gè) MLP 塊的輸出作為第?個(gè) MSA 層的輸入,層歸一化(LN)被添加到每一層之前。MLP 包含兩個(gè)線性 FC 層和一個(gè) GELU 非線性激活層。

最后,在獲得學(xué)習(xí)表征后,研究人員將表征輸入特定任務(wù)的頭,它主要由 MLP 組成,因模態(tài)和任務(wù)而異。Meta-Transformer 的學(xué)習(xí)目標(biāo)可以概括為

圖片


其中 h (?),g (?),與 f (?),分別表示 tokenizer,模型骨干網(wǎng)絡(luò),以及下游任務(wù)網(wǎng)絡(luò)中的運(yùn)算過程。

實(shí)驗(yàn)結(jié)果

Meta-Transformer 具有豐富且優(yōu)秀的實(shí)驗(yàn)結(jié)果。下表 2 展示了 Meta-Transformer 在不同模態(tài)上的實(shí)驗(yàn)內(nèi)容。可以看出,Meta-Transformer 從 12 種模態(tài)中提取表征信息,能夠有效地服務(wù) 16 個(gè)不同模態(tài)的下游任務(wù),且擁有出色的性能。

表 2:Meta-Transformer 能處理 12 個(gè)模態(tài)的 16 個(gè)感知任務(wù).

圖片圖片

圖 3:Meta-Transforme 有著優(yōu)秀的多模態(tài)感知能力,在文字、圖像、點(diǎn)云、聲音、紅外、高光譜以及醫(yī)療 X 光圖像理解任務(wù)方面與現(xiàn)有的單模態(tài) SOTA 模型性能相接近,并且在多模態(tài)理解能力方面大幅領(lǐng)先 ImageBind.

對(duì)于圖像理解:

如下表 3 所示,與 Swin Transformer 系列和 InternImage 相比,Meta-Transformer 在圖像理解任務(wù)中表現(xiàn)突出。在分類任務(wù)中,Meta-Transformer 與 Meta-Transformer-B16F 和 Meta-Transformer-L14F 在零鏡頭分類下的表現(xiàn)非常好,分別達(dá)到了 69.3% 和 75.3%。與此同時(shí),當(dāng)調(diào)整預(yù)訓(xùn)練參數(shù)時(shí),Meta-Transformer-B16T 和 Meta-Transformer-L14T 分別達(dá)到 85.4% 和 88. 1% 的準(zhǔn)確率,超越了現(xiàn)有最先進(jìn)的方法。在目標(biāo)檢測(cè)與語義分割方面,Meta-Transformer 也提供了出色的性能,進(jìn)一步證明了其對(duì)圖像理解的通用能力。

表 3:Meta-Transformer 對(duì)于圖像理解方面的能力,分別在 ImageNet-1K 圖像分類,MS COCO 目標(biāo)檢測(cè),以及 ADE-20K 的語義分割上進(jìn)行了評(píng)估。

對(duì)于點(diǎn)云理解:

表 4 展示了 Meta-Transformer 在點(diǎn)云上的實(shí)驗(yàn)結(jié)果。當(dāng)在二維數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練時(shí),Meta-Transformer 在 ModelNet-40 上僅用 0.6M 可訓(xùn)練參數(shù)就達(dá)到了 93.6% 的總體準(zhǔn)確率(OA),與表現(xiàn)最好的模型不相上下。此外,Meta-Transformer 在 ShapeNetPart 數(shù)據(jù)集中表現(xiàn)出色,僅訓(xùn)練 2.3M 參數(shù)的情況下,在實(shí)例 mIoU 和類別 mIoU 方面都獲得了最好的實(shí)驗(yàn)結(jié)果,分別為 87.0% 和 85.2%。由此可見,Meta-Transformer 在點(diǎn)云理解任務(wù)中表現(xiàn)出了顯著的優(yōu)勢(shì),在可訓(xùn)練參數(shù)較少的情況下提供了具有競(jìng)爭(zhēng)力的性能。

表 4:Meta-Transformer 對(duì)于點(diǎn)云理解方面的能力,分別在 ModelNet-40 形狀分類,S3DIS 室內(nèi)場(chǎng)景分割,以及 ShapeNet Part 物體分割任務(wù)上進(jìn)行了評(píng)估。

研究結(jié)論

Meta-Transformer 是一種統(tǒng)一的多模態(tài)學(xué)習(xí)框架,它能處理并關(guān)聯(lián)來自多種模態(tài)的信息,包括自然語言、2D 圖像、3D 點(diǎn)云、音頻、視頻等。它實(shí)現(xiàn)了無配對(duì)訓(xùn)練數(shù)據(jù)的場(chǎng)景下進(jìn)行多模態(tài)感知,是第一個(gè)能夠在 12 種模態(tài)上進(jìn)行統(tǒng)一學(xué)習(xí)的框架。Meta-Transformer 能夠有助于將多模態(tài)大模型推廣至更多模態(tài),也為實(shí)現(xiàn)統(tǒng)一的多模態(tài)智能提供了參考。Meta-Transformer 具有的多模態(tài)感知理解能力也會(huì)為人工智能技術(shù)作為服務(wù)全社會(huì)的基礎(chǔ)設(shè)施,對(duì)于教育、醫(yī)療、娛樂等領(lǐng)域提供更智能、更便捷、更豐富多元的服務(wù)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-30 16:05:44

多模態(tài)學(xué)習(xí)框架自然語言

2024-08-26 07:40:00

AI訓(xùn)練

2023-05-10 14:58:06

開源模型

2015-07-30 12:27:30

重郵華為

2017-12-15 17:14:10

云端

2024-04-23 13:38:00

AI數(shù)據(jù)

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2015-05-06 13:52:52

微軟外媒

2025-03-13 10:18:42

2024-01-24 09:24:19

自動(dòng)駕駛算法

2014-07-29 13:25:43

WWDC 2014 S

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2025-03-18 09:29:54

2024-12-10 09:49:53

2012-02-28 09:54:01

Windows 8微軟賬戶

2023-07-17 08:03:03

Shell腳本SQL

2024-03-04 00:45:00

視頻訓(xùn)練

2024-03-20 09:29:41

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2023-04-25 17:06:38

視覺任務(wù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)