自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ge21h"><p id="ge21h"></p></sub>

<style id="ge21h"></style>

<cite id="ge21h"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Meta AI推出“雜食者”：一個(gè)模型搞定圖像視頻和3D數(shù)據(jù)的分類(lèi)任務(wù)

作者：豐色 2022-01-24 15:51:58

人工智能新聞

最近，Meta AI推出了這樣一個(gè)“雜食者” （Omnivore）模型，可以對(duì)不同視覺(jué)模態(tài)的數(shù)據(jù)進(jìn)行分類(lèi)，包括圖像、視頻和3D數(shù)據(jù)。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

最近，Meta AI推出了這樣一個(gè)“雜食者” （Omnivore）模型，可以對(duì)不同視覺(jué)模態(tài)的數(shù)據(jù)進(jìn)行分類(lèi)，包括圖像、視頻和3D數(shù)據(jù)。

比如面對(duì)最左邊的圖像，它可以從深度圖、單視覺(jué)3D圖和視頻數(shù)據(jù)集中搜集出與之最匹配的結(jié)果。

這在之前，都要分用不同的模型來(lái)實(shí)現(xiàn)；現(xiàn)在一個(gè)模型就搞定了。

而且Omnivore易于訓(xùn)練，使用現(xiàn)成的標(biāo)準(zhǔn)數(shù)據(jù)集，就能讓其性能達(dá)到與對(duì)應(yīng)單模型相當(dāng)甚至更高的水平。

實(shí)驗(yàn)結(jié)果顯示，Omnivore在圖像分類(lèi)數(shù)據(jù)集ImageNet上能達(dá)到86.0%?的精度，在用于動(dòng)作識(shí)別的Kinetics數(shù)據(jù)集上能達(dá)84.1%，在用于單視圖3D場(chǎng)景分類(lèi)的SUN RGB-D也獲得了67.1%。

另外，Omnivore在實(shí)現(xiàn)一切跨模態(tài)識(shí)別時(shí)，都無(wú)需訪問(wèn)模態(tài)之間的對(duì)應(yīng)關(guān)系。

不同視覺(jué)模態(tài)都能通吃的“雜食者”

Omnivore基于Transformer體系結(jié)構(gòu)，具備該架構(gòu)特有的靈活性，并針對(duì)不同模態(tài)的分類(lèi)任務(wù)進(jìn)行聯(lián)合訓(xùn)練。

模型架構(gòu)如下：

Omnivore會(huì)將輸入的圖像、視頻和單視圖3D圖像轉(zhuǎn)換為embedding，并饋送到Transformer中。

雖然它可以使用任何vision transformer架構(gòu)來(lái)處理patch embedding，但鑒于Swin transformer在圖像和視頻任務(wù)上的強(qiáng)大性能，這里就使用該架構(gòu)作為基礎(chǔ)模型。

具體來(lái)說(shuō)，Omnivore將圖像轉(zhuǎn)為patch，視頻轉(zhuǎn)為時(shí)空tube（spatio-temporal tube），單視圖3D圖像轉(zhuǎn)為RGB patch和深度patch。

然后使用線性層將patches映射到到embedding中。其中對(duì)RGB patch使用同一線性層，對(duì)深度patch使用單獨(dú)的。

總的來(lái)說(shuō)，就是通過(guò)embedding將所有視覺(jué)模式轉(zhuǎn)換為通用格式?，然后使用一系列時(shí)空注意力（attention）操作來(lái)構(gòu)建不同視覺(jué)模式的統(tǒng)一表示。

研究人員在ImageNet-1K數(shù)據(jù)集、Kinetics-400數(shù)據(jù)集和SUN RGB-D數(shù)據(jù)集上聯(lián)合訓(xùn)練出各種Omnivore模型。

這種方法類(lèi)似于多任務(wù)學(xué)習(xí)和跨模態(tài)對(duì)齊，但有2點(diǎn)重要區(qū)別：

1、不假設(shè)輸入觀測(cè)值對(duì)齊（即不假設(shè)圖像、視頻和3D數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系）；

2、也不假設(shè)這些數(shù)據(jù)集共享相同的標(biāo)簽空間（label space）。

性能超SOTA

實(shí)驗(yàn)方面，首先將Omnivore與各視覺(jué)模態(tài)對(duì)應(yīng)的特定模型（?下表中指Specific）進(jìn)行比較。

一共有三種不同的模型尺寸：T、S和B。

預(yù)訓(xùn)練模型在七個(gè)下游任務(wù)上都進(jìn)行了微調(diào)。

圖像特定模型在IN1K上預(yù)訓(xùn)練。視頻特定模型和單視圖3D特定模型均使用預(yù)訓(xùn)練圖像特定模型的inflation進(jìn)行初始化，并分別在K400和SUN RGB-D上進(jìn)行微調(diào)。

結(jié)果發(fā)現(xiàn)，Omnivore在幾乎所有的下游任務(wù)上的性能都相當(dāng)于或優(yōu)于各特定模型。

其中尺寸最大的Swin-B實(shí)現(xiàn)了全部任務(wù)上的SOTA。

將Omnivore與具有相同模型架構(gòu)和參數(shù)數(shù)量的特定模型比較也是相同的結(jié)果。

其中Omnivore在IN1K、K400和SUN數(shù)據(jù)集上從頭開(kāi)始聯(lián)合訓(xùn)練，而特定模態(tài)的模型針對(duì)每個(gè)數(shù)據(jù)集專(zhuān)門(mén)訓(xùn)練：

ImageSwin模型從零開(kāi)始訓(xùn)練，VideoSwin和DepthSwin模型則從ImageSwin模型上進(jìn)行微調(diào)。

接下來(lái)將Omnivore與圖像、視頻和3D數(shù)據(jù)分類(lèi)任務(wù)上的SOTA模型進(jìn)行比較。

結(jié)果仍然不錯(cuò)，Omnivore在所有預(yù)訓(xùn)練任務(wù)中都表現(xiàn)出了優(yōu)于SOTA模型的性能（下圖從上至下分別為圖像、視頻和3D數(shù)據(jù)）。

此外，在ImageNet-1K數(shù)據(jù)集上檢索給定RGB圖像的深度圖也發(fā)現(xiàn)，盡管Omnivore沒(méi)有接受過(guò)關(guān)于1K深度圖的訓(xùn)練，但它也能夠給出語(yǔ)義相似的正確答案。

最后，作者表示，盡管這個(gè)“雜食者”比傳統(tǒng)的特定模式模型有了很多進(jìn)步，但它有一些局限性。

比如目前它僅適用于單視圖3D圖像，不適用于其他3D表示，如體素圖（voxels）、點(diǎn)云圖等。

論文地址：
?????https://arxiv.org/abs/2201.08377????

代碼已開(kāi)源：

????https://github.com/facebookresearch/omnivore????

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="2cxjm"></sub>

<sub id="2cxjm"><rt id="2cxjm"></rt></sub>