自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

新聞 人工智能
Facebook AI推出了全新的視頻理解架構(gòu)TimeSformer,這也是第一個(gè)完全基于Transformer的視頻架構(gòu)。視頻剪輯上限可達(dá)幾分鐘,遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)下最好的3D CNN,且成本更低。

[[388464]]

Facebook AI推出了全新的視頻理解架構(gòu)TimeSformer,這也是第一個(gè)完全基于Transformer的視頻架構(gòu)。視頻剪輯上限可達(dá)幾分鐘,遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)下最好的3D CNN,且成本更低。

TimeSformer即Time-Space Transformer,這是第一個(gè)完全基于Transformer的視頻架構(gòu),近年來(lái)已經(jīng)成為許多自然語(yǔ)言處理(NLP)應(yīng)用程序的主要方法,包括機(jī)器翻譯和通用語(yǔ)言理解。

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

論文鏈接:
https://arxiv.org/pdf/2102.05095.pdf

TimeSformer 在幾個(gè)難度系數(shù)比較高的動(dòng)作識(shí)別基準(zhǔn)上獲得了最好的效果,包括 Kinetics-400動(dòng)作識(shí)別數(shù)據(jù)集。此外,與現(xiàn)代3D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,TimeSformer 的訓(xùn)練速度提高了大約3倍,推理所需計(jì)算量不到原來(lái)的十分之一。這是支持需要實(shí)時(shí)或按需處理視頻的應(yīng)用程序的重要一步。

此外,TimeSformer具有可伸縮性,可以用來(lái)訓(xùn)練更長(zhǎng)的視頻剪輯中的更大模型。這使得人工智能系統(tǒng)可以理解視頻中更復(fù)雜的人類(lèi)行為,例如涉及多個(gè)原子步驟的活動(dòng)(修理汽車(chē),準(zhǔn)備食物等)。許多需要理解復(fù)雜人類(lèi)行為的人工智能應(yīng)用程序都能從中獲益。

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

TimeSformer 與先進(jìn)的3D 卷積神經(jīng)網(wǎng)絡(luò)在 Kinetics-400(左)和 Kinetics-600(右)動(dòng)作識(shí)別基準(zhǔn)上的視頻分類(lèi)精度。TimeSformer在兩個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了最高的準(zhǔn)確度。

分時(shí)空注意力

傳統(tǒng)的視頻分類(lèi)模型利用3D 卷積濾波器。雖然這些濾波器在捕捉局部時(shí)空區(qū)域內(nèi)的短期模式方面有效,但是它們不能對(duì)超出其接受域的時(shí)空依賴(lài)關(guān)系進(jìn)行建模。

然而,TimeSformer完全建立在Transformer使用的自注意機(jī)制之上,這使得捕獲整個(gè)視頻的時(shí)空依賴(lài)性成為可能。

為了將Transformer應(yīng)用于視頻,TimeSformer將輸入視頻解釋為從單個(gè)幀中提取的圖像塊的時(shí)空序列。這種格式類(lèi)似于NLP中使用的格式,即Transformer將句子視為從單個(gè)單詞計(jì)算出來(lái)的特征向量序列。

正如NLP Transformer通過(guò)將每個(gè)單詞與句子中的所有其他單詞進(jìn)行比較來(lái)推斷其含義一樣,這一模型通過(guò)將每個(gè)patch與視頻中的其他patch進(jìn)行明確的比較來(lái)捕捉每個(gè)patch的語(yǔ)義。這使得捕獲相鄰patch之間的短期依賴(lài)以及遠(yuǎn)距離patch之間的長(zhǎng)期相關(guān)成為可能。

傳統(tǒng)的3D卷積神經(jīng)網(wǎng)絡(luò)由于需要在視頻的所有時(shí)空位置上使用大量的濾波器,所以計(jì)算成本也很高。

TimeSformer 通過(guò)1)將視頻分解成一小組不重疊的patch,2)應(yīng)用一種自注意的形式,避免對(duì)所有patch進(jìn)行詳盡的比較,從而保持了較低的計(jì)算成本。我們稱(chēng)這種方案為「分時(shí)空注意力」。這個(gè)想法是依次應(yīng)用時(shí)間注意力和空間注意力。

當(dāng)應(yīng)用時(shí)間注意力時(shí),每個(gè)patch(例如,下圖中藍(lán)色正方形)僅與其他幀中同一空間位置的補(bǔ)丁(綠色的正方形)進(jìn)行比較。如果視頻包含 t 幀,則只對(duì)每個(gè)patch進(jìn)行 t次時(shí)間的比較。

當(dāng)應(yīng)用空間注意力時(shí),每個(gè)patch僅與同一框架內(nèi)的patch(紅色補(bǔ)丁)進(jìn)行比較。因此,如果 n 是每一幀中的patch數(shù),分時(shí)空注意力在每個(gè)patch中只能執(zhí)行(t + n)次比較,而聯(lián)合時(shí)空注意力窮舉法則需要(t * n)次比較。此外,該研究發(fā)現(xiàn)分時(shí)空注意不僅比聯(lián)合時(shí)空注意更有效率,而且更準(zhǔn)確。

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

TimeSformer 具有可伸縮性,可以在非常長(zhǎng)的剪輯上運(yùn)行(例如,跨越102秒時(shí)間范圍的96幀序列) ,以便執(zhí)行超長(zhǎng)時(shí)間范圍的建模。這與目前的3D CNN有很大不同,后者僅限于處理最多幾秒的片段,而且是識(shí)別長(zhǎng)時(shí)間活動(dòng)的關(guān)鍵要求。


例如,看一段演示如何制作法式吐司的視頻。人工智能模型一次分析幾秒鐘可能會(huì)識(shí)別一些原子動(dòng)作(例如,打雞蛋或者把牛奶倒進(jìn)碗里)。但是對(duì)每個(gè)個(gè)體行為進(jìn)行分類(lèi)并不足以對(duì)復(fù)雜的活動(dòng)進(jìn)行分類(lèi)(許多食譜都涉及到打蛋)。TimeSformer 可以在更長(zhǎng)的時(shí)間范圍內(nèi)分析視頻,揭示原子動(dòng)作之間的清晰的依賴(lài)關(guān)系(例如,將牛奶和打碎的雞蛋混合)。

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

TimeSformer 的效率使得它能夠訓(xùn)練高空間分辨率的模型(例如,幀高達(dá)560x560像素)和超長(zhǎng)視頻(高達(dá)96幀)。這些圖表顯示視頻分類(lèi)成本(TFLOPs)作為空間分辨率(左)和視頻長(zhǎng)度(右)的函數(shù)。通過(guò)這些圖,我們可以觀(guān)察到,分散的時(shí)空注意力比耗盡的時(shí)空聯(lián)合注意力節(jié)省了大量的計(jì)算能力,特別是當(dāng)應(yīng)用于大幀或長(zhǎng)視頻時(shí)。在實(shí)際應(yīng)用中,當(dāng)空間幀分辨率達(dá)到448像素或幀數(shù)增加到32幀時(shí),聯(lián)合時(shí)空注意會(huì)導(dǎo)致 GPU 內(nèi)存溢出,有效地使其不適用于大幀或長(zhǎng)視頻。

訓(xùn)練速度遠(yuǎn)超3D CNN,提速3倍!Transformer

該圖提供了 TimeSformer 學(xué)習(xí)的自注意力熱度圖的可視化。第一行顯示原始幀,第二行根據(jù)自注意力對(duì)視頻分類(lèi)的重要性(被認(rèn)為不重要的像素變暗)對(duì)每個(gè)像素的顏色進(jìn)行加權(quán)。如圖所示,TimeSformer 學(xué)習(xí)關(guān)注視頻中的相關(guān)區(qū)域,以執(zhí)行復(fù)雜的時(shí)空推理。

TimeSformer視頻剪輯上限可達(dá)幾分鐘

為了訓(xùn)練視頻理解模型,現(xiàn)在最好的3D CNN只能使用幾秒鐘長(zhǎng)的視頻片段。有了TimeSformer,我們可以訓(xùn)練更長(zhǎng)的視頻剪輯,最長(zhǎng)可達(dá)幾分鐘。這可能極大地促進(jìn)機(jī)器理解視頻中復(fù)雜的長(zhǎng)動(dòng)作的研究,這對(duì)于許多理解研究人類(lèi)行為的人工智能應(yīng)用程序來(lái)說(shuō)是重要的一步。

此外,TimeSformer的低推理成本是支持未來(lái)實(shí)時(shí)視頻處理應(yīng)用的一個(gè)重要步驟,如 AR/VR,或基于可穿戴攝像機(jī)拍攝的視頻智能助手。TimeSformer降低了成本,這將使更多的研究人員能夠解決視頻分析問(wèn)題,從而加快這一領(lǐng)域的進(jìn)展。

 

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-12-27 15:25:24

神經(jīng)網(wǎng)絡(luò)AI算法

2011-10-06 13:30:45

宏碁投影儀

2012-11-26 12:51:44

木材3D打

2024-05-24 10:16:01

2023-12-06 13:36:00

模型數(shù)據(jù)

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2024-07-03 14:29:38

2023-10-09 09:42:18

自動(dòng)駕駛模型

2011-04-26 14:21:20

3DJVC投影機(jī)

2011-08-26 14:50:23

2011-05-25 16:07:17

2012-08-13 17:11:37

Silverlight

2023-03-03 21:42:18

鴻蒙

2015-09-09 11:05:52

3d視差引導(dǎo)頁(yè)

2021-12-28 10:52:10

鴻蒙HarmonyOS應(yīng)用

2017-03-21 15:20:57

英特爾3D XPoint閃存

2021-12-22 10:04:11

模型人工智能3D

2024-01-29 06:50:00

3D模型

2023-12-29 10:06:00

AI3D

2021-03-05 16:14:08

AI 數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)