自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="cenhw"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一張圖片產(chǎn)生五感的AI模型，究竟如何做到的？

作者：云昭 2023-08-24 21:52:52

Meta 的 Facebook 擁有最大的圖像和文本配對數(shù)據(jù)集之一。奇怪的是，研究人員沒有使用他們自己的數(shù)據(jù)集，而是使用了 OpenAI 的CLIP數(shù)據(jù)集，然而，可能使用Meta自己在過去十年中收集的數(shù)據(jù)集來訓(xùn)練這個模型本應(yīng)該是有意義的。另一方面，沒有任何 GPT-4多模式架構(gòu)的跡象。

最近，MetaImage在技術(shù)圈引起了極大的好評。在《IMAGEBIND：One Embedding Space To Bind Them All》的論文中，通過一個嵌入空間，Meta 的 ImageBind 將五種不同的模態(tài)與圖像進(jìn)行連接配對，非常精彩。

1、“跨五感”的模型問世

比如，給你看一張海灘的圖片，你就會聯(lián)想到海浪的聲音、咸味的空氣和你周圍的熱浪，反過來，如果你聽到打鼾，你可以想象一個人躺著進(jìn)入深度睡眠中的畫面。

這的確也很符合常識：人類可以根據(jù)圖像想象出氣味、聲音以及空間的感覺，反之亦然。

那么 AI 能像人類一樣將許多不同且不相關(guān)的模式綁定在一起嗎？Meta AI發(fā)表的ImageBind論文就是解決了這個問題。

圖片

為了“綁定”多種模式，而不僅僅是文本和圖像，該論文的研究人員將圖像作為主要數(shù)據(jù)，并測試了音頻、熱圖（熱像儀）、文本和 IMU（慣性測量，一系列加速度計、陀螺儀等）和深度。

為了將深度和文本等兩種不相關(guān)的模式聯(lián)系起來，研究人員使用了對比學(xué)習(xí)（Contrastive Learning）。將圖像數(shù)據(jù)作為主要要求，論文中顯示了代表任何給定數(shù)據(jù)中可用的圖像實際鏈接的粗實線。

圖片

接下來，研究人員展示了緊急鏈接是如何發(fā)生的，現(xiàn)在您可以獲取音頻和文本數(shù)據(jù)點并獲得正確的圖像或視頻。這種能力以前并不存在；這是新興（emergent Link）的。使用成對的對齊觀察值（例如吠叫聲和文本“狗”），它可以正確地將輸出提供一張狗的圖像。論文中給出的另一個例子是鸛的圖像和海浪的聲音結(jié)合了模態(tài)，并顯示了鸛在水中的圖像。

圖片

這篇論文的基礎(chǔ)在于，人們實際上并不需要數(shù)據(jù)對與圖像連接在一起。例如，只需將深度或熱圖信息與文本（具有與圖像的實際聯(lián)結(jié)）配對，用戶就可以創(chuàng)建包含所有這三個信息的圖像。該論文將這種現(xiàn)象稱為“快速對齊（emergent alignment）”。

2、為什么不采用 Meta 的數(shù)據(jù)集

Meta 的 Facebook 擁有最大的圖像和文本配對數(shù)據(jù)集之一。奇怪的是，研究人員沒有使用他們自己的數(shù)據(jù)集，而是使用了 OpenAI 的CLIP數(shù)據(jù)集，然而，可能使用Meta自己在過去十年中收集的數(shù)據(jù)集來訓(xùn)練這個模型本應(yīng)該是有意義的。另一方面，沒有任何 GPT-4多模式架構(gòu)的跡象。

但機(jī)器人研究員 Hugo Ponte 卻不覺得這樣，并認(rèn)為 Meta 使用 CLIP 是一個明智之舉。

首先，CLIP 是一個為圖像和語言創(chuàng)建共享嵌入空間的模型，非常強(qiáng)大。在 CLIP 數(shù)據(jù)集上添加 ImageBind 使得該模型不僅適用于文本，而且?guī)缀踹m用于論文中提到的所有其他模式。如果用戶有音頻、IMU、熱圖、深度和文本數(shù)據(jù)，開發(fā)者可以創(chuàng)建最接近該數(shù)據(jù)的圖像。

Ponte 進(jìn)一步分析了這篇論文和作者選擇 CLIP 的原因——“我認(rèn)為這是一個明智之舉，這樣，他們沒有改變 CLIP 嵌入空間，這意味著你實際上可以返回到過去三年里發(fā)布的每一篇使用 CLIP 的論文，并可以直接插入 ImageBind 來替代使用?！?/p>

通過使用 ImageBind，我們可以將任何內(nèi)容投射到 CLIP 中。“他們沒有取代CLIP，而是擴(kuò)展了 CLIP，這讓它變得更好，因為 CLIP 也適用于對比學(xué)習(xí)，需要圖像和圖像顯示的文本的配對示例?！盤onte 補(bǔ)充道。

此外，ImageBind 作者還采用了 Vision Transformer (ViT)，這是一種當(dāng)今常見的架構(gòu)，可以為不同模式的相關(guān)概念創(chuàng)建類似的嵌入，例如將“狗”與狗的圖像相關(guān)聯(lián)。

3、下一步是什么

不出所料，Meta 也開源了代碼，但有趣的是也給商業(yè)目的戴上了緊箍咒，不允許商用。然而，開發(fā)人員已經(jīng)使用 ImageBind 構(gòu)建了一個巧妙的搜索引擎演示。搜索引擎使用文本、音頻甚至視覺輸入檢索人工智能生成的圖像。

Meta AI 負(fù)責(zé)人 Yann LeCun 表示，該模型沒有公開發(fā)布可能是出于法律原因，也可能是因為它只是第一篇具有如此廣泛模式的論文。這減緩了該論文的采用速度，僅在其上開發(fā)了幾個演示。

然而，廣泛的模式看起來像是向 Yann Lecun 的AGI 方法邁出的一步。到目前為止，該模型可以從不同的“感官”中學(xué)習(xí)，以生成模仿人類如何感知世界的正確圖像。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營