自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一張圖片產(chǎn)生五感的AI模型,究竟如何做到的?

譯文 精選
人工智能
Meta 的 Facebook 擁有最大的圖像和文本配對數(shù)據(jù)集之一。奇怪的是,研究人員沒有使用他們自己的數(shù)據(jù)集,而是使用了 OpenAI 的CLIP數(shù)據(jù)集,然而,可能使用Meta自己在過去十年中收集的數(shù)據(jù)集來訓(xùn)練這個模型本應(yīng)該是有意義的。另一方面,沒有任何 GPT-4多模式架構(gòu)的跡象。

最近,MetaImage在技術(shù)圈引起了極大的好評。在《IMAGEBIND:One Embedding Space To Bind Them All》的論文中,通過一個嵌入空間,Meta 的 ImageBind 將五種不同的模態(tài)與圖像進(jìn)行連接配對,非常精彩。

1、“跨五感”的模型問世

比如,給你看一張海灘的圖片,你就會聯(lián)想到海浪的聲音、咸味的空氣和你周圍的熱浪,反過來,如果你聽到打鼾,你可以想象一個人躺著進(jìn)入深度睡眠中的畫面。

這的確也很符合常識:人類可以根據(jù)圖像想象出氣味、聲音以及空間的感覺,反之亦然。

那么 AI 能像人類一樣將許多不同且不相關(guān)的模式綁定在一起嗎?Meta AI發(fā)表的ImageBind論文就是解決了這個問題。

圖片圖片

為了“綁定”多種模式,而不僅僅是文本和圖像,該論文的研究人員將圖像作為主要數(shù)據(jù),并測試了音頻、熱圖(熱像儀)、文本和 IMU(慣性測量,一系列加速度計、陀螺儀等)和深度。

為了將深度和文本等兩種不相關(guān)的模式聯(lián)系起來,研究人員使用了對比學(xué)習(xí)(Contrastive Learning)。將圖像數(shù)據(jù)作為主要要求,論文中顯示了代表任何給定數(shù)據(jù)中可用的圖像實際鏈接的粗實線。

圖片圖片

接下來,研究人員展示了緊急鏈接是如何發(fā)生的,現(xiàn)在您可以獲取音頻和文本數(shù)據(jù)點并獲得正確的圖像或視頻。這種能力以前并不存在;這是新興(emergent Link)的。使用成對的對齊觀察值(例如吠叫聲和文本“狗”),它可以正確地將輸出提供一張狗的圖像。論文中給出的另一個例子是鸛的圖像和海浪的聲音結(jié)合了模態(tài),并顯示了鸛在水中的圖像。

圖片圖片

這篇論文的基礎(chǔ)在于,人們實際上并不需要數(shù)據(jù)對與圖像連接在一起。例如,只需將深度或熱圖信息與文本(具有與圖像的實際聯(lián)結(jié))配對,用戶就可以創(chuàng)建包含所有這三個信息的圖像。該論文將這種現(xiàn)象稱為“快速對齊(emergent alignment)”。 

2、為什么不采用 Meta 的數(shù)據(jù)集

Meta 的 Facebook 擁有最大的圖像和文本配對數(shù)據(jù)集之一。奇怪的是,研究人員沒有使用他們自己的數(shù)據(jù)集,而是使用了 OpenAI 的CLIP數(shù)據(jù)集,然而,可能使用Meta自己在過去十年中收集的數(shù)據(jù)集來訓(xùn)練這個模型本應(yīng)該是有意義的。另一方面,沒有任何 GPT-4多模式架構(gòu)的跡象。

但機(jī)器人研究員 Hugo Ponte 卻不覺得這樣,并認(rèn)為 Meta 使用 CLIP 是一個明智之舉。

首先,CLIP 是一個為圖像和語言創(chuàng)建共享嵌入空間的模型,非常強(qiáng)大。在 CLIP 數(shù)據(jù)集上添加 ImageBind 使得該模型不僅適用于文本,而且?guī)缀踹m用于論文中提到的所有其他模式。如果用戶有音頻、IMU、熱圖、深度和文本數(shù)據(jù),開發(fā)者可以創(chuàng)建最接近該數(shù)據(jù)的圖像。

Ponte 進(jìn)一步分析了這篇論文和作者選擇 CLIP 的原因——“我認(rèn)為這是一個明智之舉,這樣,他們沒有改變 CLIP 嵌入空間,這意味著你實際上可以返回到過去三年里發(fā)布的每一篇使用 CLIP 的論文,并可以直接插入 ImageBind 來替代使用?!?/p>

通過使用 ImageBind,我們可以將任何內(nèi)容投射到 CLIP 中。“他們沒有取代CLIP,而是擴(kuò)展了 CLIP,這讓它變得更好,因為 CLIP 也適用于對比學(xué)習(xí),需要圖像和圖像顯示的文本的配對示例?!盤onte 補(bǔ)充道。

此外,ImageBind 作者還采用了 Vision Transformer (ViT),這是一種當(dāng)今常見的架構(gòu),可以為不同模式的相關(guān)概念創(chuàng)建類似的嵌入,例如將“狗”與狗的圖像相關(guān)聯(lián)。

3、下一步是什么

不出所料,Meta 也開源了代碼,但有趣的是也給商業(yè)目的戴上了緊箍咒,不允許商用。然而,開發(fā)人員已經(jīng)使用 ImageBind 構(gòu)建了一個巧妙的搜索引擎演示。搜索引擎使用文本、音頻甚至視覺輸入檢索人工智能生成的圖像。

Meta AI 負(fù)責(zé)人 Yann LeCun 表示,該模型沒有公開發(fā)布可能是出于法律原因,也可能是因為它只是第一篇具有如此廣泛模式的論文。這減緩了該論文的采用速度,僅在其上開發(fā)了幾個演示。

然而,廣泛的模式看起來像是向 Yann Lecun 的AGI 方法邁出的一步。到目前為止,該模型可以從不同的“感官”中學(xué)習(xí),以生成模仿人類如何感知世界的正確圖像。 

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2012-05-16 14:54:34

筆記本評測

2018-12-14 16:13:50

先聲教育AWS云服務(wù)

2021-02-14 22:22:18

格式圖片 HTTP

2016-01-28 09:51:55

2021-04-01 10:00:34

AI 數(shù)據(jù)人工智能

2024-07-30 11:40:00

數(shù)據(jù)庫NoSQLSQL

2024-09-12 15:28:38

localhost?網(wǎng)絡(luò)IPv4

2012-10-22 13:18:05

KVM

2023-06-28 16:38:32

人工智能工具

2020-05-08 09:35:17

攻擊漏洞網(wǎng)絡(luò)安全

2020-10-18 07:25:55

MQ消息冪等架構(gòu)

2022-11-26 00:00:07

內(nèi)存數(shù)組程序

2017-12-05 11:48:44

AI人工智能開發(fā)者

2015-06-04 12:53:18

2011-11-09 15:49:52

API

2011-06-22 09:45:46

JavaScriptAPI

2025-01-17 10:49:01

2023-11-30 10:13:17

TensorRT架構(gòu)

2021-11-22 10:38:23

架構(gòu)運(yùn)維技術(shù)

2020-02-19 14:10:27

代碼開發(fā)工具
點贊
收藏

51CTO技術(shù)棧公眾號