自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用圖像對(duì)齊所有模態(tài),Meta開(kāi)源多感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

人工智能 新聞
Meta 新的開(kāi)源模型 ImageBind 將多個(gè)數(shù)據(jù)流連接在一起,適用于文本、視頻和音頻等 6 種模態(tài)。

在人類的感官中,一張圖片可以將很多體驗(yàn)融合到一起,比如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質(zhì)地、拂面而來(lái)的微風(fēng),甚至可以激發(fā)創(chuàng)作一首詩(shī)的靈感。圖像的這種「綁定」(binding)屬性通過(guò)與自身相關(guān)的任何感官體驗(yàn)對(duì)齊,為學(xué)習(xí)視覺(jué)特征提供了大量監(jiān)督來(lái)源。

理想情況下,對(duì)于單個(gè)聯(lián)合嵌入空間,視覺(jué)特征應(yīng)該通過(guò)對(duì)齊所有感官來(lái)學(xué)習(xí)。然而這需要通過(guò)同一組圖像來(lái)獲取所有感官類型和組合的配對(duì)數(shù)據(jù),顯然不可行。

最近,很多方法學(xué)習(xí)與文本、音頻等對(duì)齊的圖像特征。這些方法使用單對(duì)模態(tài)或者最多幾種視覺(jué)模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對(duì)。因此,視頻 - 音頻嵌入無(wú)法直接用于圖像 - 文本任務(wù),反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個(gè)主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

今日,Meta AI 提出了 ImageBind,它通過(guò)利用多種類型的圖像配對(duì)數(shù)據(jù)來(lái)學(xué)習(xí)單個(gè)共享表示空間。該研究不需要所有模態(tài)相互同時(shí)出現(xiàn)的數(shù)據(jù)集,相反利用到了圖像的綁定屬性,只要將每個(gè)模態(tài)的嵌入與圖像嵌入對(duì)齊,就會(huì)實(shí)現(xiàn)所有模態(tài)的迅速對(duì)齊。Meta AI 還公布了相應(yīng)代碼。

圖片

  • 論文地址:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
  • GitHub 地址:https://github.com/facebookresearch/ImageBind

具體而言,ImageBind 利用網(wǎng)絡(luò)規(guī)模(圖像、文本)匹配數(shù)據(jù),并將其與自然存在的配對(duì)數(shù)據(jù)(視頻、音頻、圖像、深度)相結(jié)合,以學(xué)習(xí)單個(gè)聯(lián)合嵌入空間。這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(tài)(如音頻、深度等)對(duì)齊,從而在沒(méi)有顯式語(yǔ)義或文本配對(duì)的情況下,能在這些模態(tài)上實(shí)現(xiàn)零樣本識(shí)別功能。

圖片

下圖 2 為 ImageBind 的整體概覽。

圖片

與此同時(shí),研究者表示 ImageBind 可以使用大規(guī)模視覺(jué)語(yǔ)言模型(如 CLIP)進(jìn)行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓(xùn)練就可以應(yīng)用于各種不同的模態(tài)和任務(wù)。

ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分,從而實(shí)現(xiàn)從所有相關(guān)類型數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind 為研究人員打開(kāi)了嘗試開(kāi)發(fā)全新整體性系統(tǒng)的閘門(mén),例如結(jié)合 3D 和 IMU 傳感器來(lái)設(shè)計(jì)或體驗(yàn)身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文本、視頻和圖像來(lái)搜索圖像、視頻、音頻文件或文本信息。

綁定內(nèi)容和圖像,學(xué)習(xí)單個(gè)嵌入空間

人類有能力通過(guò)很少的樣本學(xué)習(xí)新概念,比如如閱讀對(duì)動(dòng)物的描述之后,就可以在實(shí)際生活中認(rèn)出它們;通過(guò)一張不熟悉的汽車模型照片,就可以預(yù)測(cè)其引擎可能發(fā)出的聲音。這在一定程度上是因?yàn)閱螐垐D像可以將整體感官體驗(yàn)「捆綁」在一起。然而在人工智能領(lǐng)域,雖然模態(tài)數(shù)量一直在增加,但多感官數(shù)據(jù)的缺乏會(huì)限制標(biāo)準(zhǔn)的需要配對(duì)數(shù)據(jù)的多模態(tài)學(xué)習(xí)。

理想情況下,一個(gè)有著不同種類數(shù)據(jù)的聯(lián)合嵌入空間能讓模型在學(xué)習(xí)視覺(jué)特征的同時(shí)學(xué)習(xí)其他的模態(tài)。此前,往往需要收集所有可能的配對(duì)數(shù)據(jù)組合,才能讓所有模態(tài)學(xué)習(xí)聯(lián)合嵌入空間。

ImageBind 規(guī)避了這個(gè)難題,它利用最近的大型視覺(jué)語(yǔ)言模型它將最近的大規(guī)模視覺(jué)語(yǔ)言模型的零樣本能力擴(kuò)展到新的模態(tài),它們與圖像的自然配對(duì),如視頻 - 音頻和圖像 - 深度數(shù)據(jù),來(lái)學(xué)習(xí)一個(gè)聯(lián)合嵌入空間。針對(duì)其他四種模式(音頻、深度、熱成像和 IMU 讀數(shù)),研究者使用自然配對(duì)的自監(jiān)督數(shù)據(jù)。

圖片

通過(guò)將六種模態(tài)的嵌入對(duì)齊到一個(gè)公共空間,ImageBind 可以跨模態(tài)檢索未同時(shí)觀察到的不同類型的內(nèi)容,添加不同模態(tài)的嵌入以自然地對(duì)它們的語(yǔ)義進(jìn)行組合,以及結(jié)合使用 Meta AI 的音頻嵌入與預(yù)訓(xùn)練 DALLE-2 解碼器(設(shè)計(jì)用于與 CLIP 文本嵌入)來(lái)實(shí)現(xiàn)音頻到圖像生成。

互聯(lián)網(wǎng)上存在大量連同文本一起出現(xiàn)的圖像,因此訓(xùn)練圖像 - 文本模型已經(jīng)得到了廣泛的研究。ImageBind 利用了圖像能與各種模態(tài)相連接的綁定屬性,比如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來(lái),或者利用在有 IMU 傳感器的可穿戴相機(jī)中捕捉到的視頻數(shù)據(jù)將運(yùn)動(dòng)與視頻連接起來(lái)。

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)到的視覺(jué)表征可以用作學(xué)習(xí)不同模態(tài)特征的目標(biāo)。這使得 ImageBind 將圖像與同時(shí)出現(xiàn)的任何模態(tài)對(duì)齊,自然地使這些模態(tài)彼此對(duì)齊。熱圖和深度圖等與圖像具有強(qiáng)相關(guān)性的模態(tài)更容易對(duì)齊。音頻和 IMU(慣性測(cè)量單元)等非視覺(jué)的模態(tài)則具有較弱的相關(guān)性,比如嬰兒哭聲等特定聲音可以搭配各種視覺(jué)背景。

ImageBind 表明,圖像配對(duì)數(shù)據(jù)足以將這六種模態(tài)綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模態(tài)可以相互「對(duì)話」,并在沒(méi)有同時(shí)觀察它們的情況下找到它們之間的聯(lián)系。例如,ImageBind 可以在沒(méi)有一起觀察音頻和文本的情況下將二者聯(lián)系起來(lái)。這使得其他模型能夠「理解」新的模態(tài),而不需要任何資源密集型的訓(xùn)練。

ImageBind 強(qiáng)大的 scaling 表現(xiàn)使該模型能夠替代或增強(qiáng)許多人工智能模型,使它們能夠使用其他模態(tài)。例如雖然 Make-A-Scene 可以通過(guò)使用文本 prompt 生成圖像,但 ImageBind 可以將其升級(jí)為使用音頻生成圖像,如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明,ImageBind 的 scaling 行為隨著圖像編碼器的強(qiáng)度而提高。換句話說(shuō),ImageBind 對(duì)齊模態(tài)的能力隨著視覺(jué)模型的能力和大小而提升。這表明,更大的視覺(jué)模型對(duì)非視覺(jué)任務(wù)有利,如音頻分類,而且訓(xùn)練這種模型的好處超出了計(jì)算機(jī)視覺(jué)任務(wù)的范疇。

在實(shí)驗(yàn)中,Meta 使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進(jìn)行了比較。

圖片

在基準(zhǔn)測(cè)試上,ImageBind 在音頻和深度方面優(yōu)于專家模型。

Meta 發(fā)現(xiàn) ImageBind 可以用于少樣本音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。例如,ImageBind 明顯優(yōu)于 Meta 在 Audioset 上訓(xùn)練的自監(jiān)督 AudioMAE 模型,以及在音頻分類上微調(diào)的監(jiān)督 AudioMAE 模型。

此外,ImageBind 還在跨模態(tài)的零樣本識(shí)別任務(wù)上取得了新的 SOTA 性能,甚至優(yōu)于經(jīng)過(guò)訓(xùn)練以識(shí)別該模態(tài)概念的最新模型。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-08-26 07:40:00

AI訓(xùn)練

2023-03-13 13:40:20

機(jī)器學(xué)習(xí)AI

2025-03-13 10:18:42

2023-07-22 13:17:33

人工智能框架

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2015-07-30 12:27:30

重郵華為

2017-12-15 17:14:10

云端

2024-01-24 09:24:19

自動(dòng)駕駛算法

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2025-04-16 02:55:00

2015-05-06 13:52:52

微軟外媒

2014-07-29 13:25:43

WWDC 2014 S

2025-03-18 09:29:54

2023-04-25 17:06:38

視覺(jué)任務(wù)

2023-04-11 09:43:21

模型AI

2024-12-10 09:49:53

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數(shù)據(jù)

2023-11-09 15:10:00

訓(xùn)練數(shù)據(jù)

2025-04-14 09:38:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)