自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

新聞 人工智能
只需第一幀圖像+邊界提示,就能將視頻中各物體“摳”出來并進(jìn)行軌跡跟蹤,這就是谷歌的最新研究成果。

[[437774]]

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

只需第一幀圖像+邊界提示,就能將視頻中各物體“摳”出來并進(jìn)行軌跡跟蹤

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型
注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

以上就是谷歌的最新研究成果。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

該方法通過在視頻中引入注意力機(jī)制,成功地解決此前采用了無監(jiān)督學(xué)習(xí)的多目標(biāo)分割和跟蹤方法的一些不足。

現(xiàn)在的它,不僅可以泛化到更多樣、視覺上更復(fù)雜的視頻中,還能處理更長(zhǎng)的視頻序列。

通過實(shí)驗(yàn)還發(fā)現(xiàn),相比此前的模型,谷歌這個(gè)新方法在MOVi數(shù)據(jù)集上的mIoU直接提高了近30%。

為“動(dòng)態(tài)摳圖”引入注意力機(jī)制

方法被命名為SAVi(Slot Attention for Video)。

而此前的無監(jiān)督目標(biāo)分割和跟蹤方法最大的問題,就是只能應(yīng)用到非常簡(jiǎn)單的視頻上。

為了處理視覺效果更復(fù)雜的視頻,SAVi采用弱監(jiān)督學(xué)習(xí)

(1)以光流(optical flow)預(yù)測(cè)為訓(xùn)練目標(biāo),并引入注意力機(jī)制;

(2)在第一幀圖像上給出初始提示(一般是框出待分割物體,或者給出物體上單個(gè)點(diǎn)的坐標(biāo)),進(jìn)行分割指導(dǎo)。

具體來說,受到常微分方程的“預(yù)測(cè)-校正器”方法的啟發(fā),SAVi對(duì)每個(gè)可見的視頻幀執(zhí)行預(yù)測(cè)和校正步驟。

為了描述視頻物體隨時(shí)間變化的狀態(tài),包括與其它物體的交互,SAVi在進(jìn)行光流預(yù)測(cè)時(shí)在slot之間使用自注意力。

slot就是指視頻中各物體,用不同顏色區(qū)分。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

校正階段,帶有輸入的slot-normalized交叉注意用于校正(更新)slot表示集。

然后預(yù)測(cè)器的輸出根據(jù)時(shí)間來初始化矯正器,使模型最終能夠以一致的方式隨時(shí)間跟蹤物體。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

△ SAVi模型架構(gòu)圖

在訓(xùn)練中,每個(gè)視頻被分成六個(gè)6幀子序列,第一幀接收提示信號(hào),每幀兩輪slot注意力。

在完全無監(jiān)督視頻分割中,研究人員以64的batch size訓(xùn)練了十萬步。

沒有提示,也能進(jìn)行簡(jiǎn)單視頻的分割和跟蹤

在CATER數(shù)據(jù)集上,測(cè)試表明,SAVi架構(gòu)完全適用于無監(jiān)督的物體表示學(xué)習(xí)。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

在光流條件監(jiān)督的情況下,SAVi在MOVi數(shù)據(jù)集上獲得72.1%的mIoU,比基線模型CRW和T-VOS分別高了近30%和近20%。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

SAVi在MOVi++數(shù)據(jù)集上的mIoU得分為45.9%,比T-VOS略高一點(diǎn),比CRW低了5%。

另外,還可以看到,在第一幀圖像上給出質(zhì)心形式的提示效果會(huì)比邊界框好一點(diǎn),但區(qū)別不大。

值得注意的是,即使沒有任何提示,該方法也能分割一些具有簡(jiǎn)單紋理的動(dòng)態(tài)場(chǎng)景,比如在數(shù)據(jù)集Sketchy上。

注入Attention,精度漲30%!谷歌發(fā)表最新多目標(biāo)“動(dòng)態(tài)摳圖”模型

不過,在將SAVi完全用于現(xiàn)實(shí)世界里的復(fù)雜視頻時(shí),還有一些挑戰(zhàn)需克服:

1、所采用的訓(xùn)練方法假設(shè)在訓(xùn)練時(shí)光流信息是可用的,而在真實(shí)視頻中,這不一樣有;

2、研究中所涉及的都是一些簡(jiǎn)單物體的基本運(yùn)動(dòng),現(xiàn)實(shí)遠(yuǎn)比這個(gè)復(fù)雜。

最后,作者表示,SAVi在分割和跟蹤方面仍然表現(xiàn)出色,在第一幀給出提示信息的做法也可能會(huì)衍生出各種相關(guān)的半監(jiān)督方法。

論文地址:
https://arxiv.org/abs.2111.12594

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-09-02 15:25:54

技術(shù)視頻摳圖

2022-01-12 14:40:49

推薦系統(tǒng)模型

2024-06-13 11:53:40

2024-07-02 10:04:09

2010-07-05 09:19:35

UML動(dòng)態(tài)模型圖

2020-08-23 18:10:16

機(jī)器狗人工智能系統(tǒng)

2022-01-27 09:45:39

建模GBDTMTGBM

2010-07-12 09:18:36

UML模型圖

2024-03-26 09:11:13

TensorFlow深度學(xué)習(xí)Pipeline

2020-10-23 15:29:48

iPad摳圖PC

2010-07-05 17:28:57

UML動(dòng)態(tài)模型圖

2024-05-17 09:37:26

format屬性Spring

2024-02-22 09:30:15

Gemma開源模型谷歌

2011-11-25 17:24:20

跨平臺(tái)開發(fā)移動(dòng)開發(fā)

2017-02-08 17:08:32

谷歌深度學(xué)習(xí)計(jì)算圖

2019-10-30 15:05:44

AI 數(shù)據(jù)人工智能

2025-03-19 09:10:00

2023-05-15 08:16:33

Google I/OWeb平臺(tái)

2024-08-20 08:34:17

2015-06-30 13:06:00

ShellterShellcode注入
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)