自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

根據(jù)文本描述從視頻中摳圖,Transformer:這種跨模態(tài)任務(wù)我最擅長(zhǎng)

人工智能 深度學(xué)習(xí)
隨時(shí)CV和NLP領(lǐng)域的發(fā)展,研究人員意識(shí)到,視頻和文本可以同時(shí)通過單個(gè)多模態(tài)Transformer模型進(jìn)行有效處理。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

都說Transformer適合處理多模態(tài)任務(wù)。

這不,在視頻目標(biāo)分割領(lǐng)域,就有人用它同時(shí)處理文本和視幀,提出了一個(gè)結(jié)構(gòu)更簡(jiǎn)單、處理速度更快(每秒76幀)的視頻實(shí)例分割框架。

這個(gè)框架只需一串文本描述,就可以輕松將視頻中的動(dòng)態(tài)目標(biāo)“摳”出來:

可以實(shí)現(xiàn)端到端訓(xùn)練的它,在基準(zhǔn)測(cè)試中的多個(gè)指標(biāo)上表現(xiàn)全部?jī)?yōu)于現(xiàn)有模型

目前,相關(guān)論文已被CVPR 2022接收,研究人員來自以色列理工學(xué)院。

主要思路

根據(jù)文本描述進(jìn)行視頻目標(biāo)分割這一多模態(tài)任務(wù)(RVOS),需要結(jié)合文本推理、視頻理解、實(shí)例分割和跟蹤技術(shù)。

現(xiàn)有的方法通常依賴復(fù)雜的pipeline來解決,很難形成一個(gè)端到端的簡(jiǎn)便好用的模型。

隨時(shí)CV和NLP領(lǐng)域的發(fā)展,研究人員意識(shí)到,視頻和文本可以同時(shí)通過單個(gè)多模態(tài)Transformer模型進(jìn)行有效處理。

為此,他們提出了這個(gè)叫做MTTR (Multimodal Tracking Transformer)的新架構(gòu),將RVOS任務(wù)建模為序列(sequence)預(yù)測(cè)問題。

首先,輸入的文本和視頻幀被傳遞給特征編碼器進(jìn)行特征提取,然后將兩者連接成多模態(tài)序列(每幀一個(gè))。

接著,通過多模態(tài)Transformer對(duì)兩者之間的特征關(guān)系進(jìn)行編碼,并將實(shí)例級(jí)(instance-level )特征解碼為一組預(yù)測(cè)序列。

接下來,生成相應(yīng)的mask和參考預(yù)測(cè)序列。

最后,將預(yù)測(cè)序列與基準(zhǔn)(ground truth,在有監(jiān)督學(xué)習(xí)中通常指代樣本集中的標(biāo)簽)序列進(jìn)行匹配,以供訓(xùn)練過程中的監(jiān)督或用于在推理過程中生成最終預(yù)測(cè)。

具體來說,對(duì)于Transformer輸出的每個(gè)實(shí)例序列,系統(tǒng)會(huì)生成一個(gè)對(duì)應(yīng)的mask序列。

為了實(shí)現(xiàn)這一點(diǎn),作者采用了類似FPN(特征金字塔網(wǎng)絡(luò))的空間解碼器和動(dòng)態(tài)生成的條件卷積核。

而通過一個(gè)新穎的文本參考分?jǐn)?shù)函數(shù),該函數(shù)基于mask和文本關(guān)聯(lián),就可以確定哪個(gè)查詢序列與文本描述的對(duì)象具有最強(qiáng)的關(guān)聯(lián),然后返回其分割序列作為模型的預(yù)測(cè)。

精度優(yōu)于所有現(xiàn)有模型

作者在三個(gè)相關(guān)數(shù)據(jù)集上對(duì)MTTR進(jìn)行了性能測(cè)試:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前兩個(gè)數(shù)據(jù)集的衡量指標(biāo)包括IoU(交并比,1表示預(yù)測(cè)框與真實(shí)邊框完全重合)、平均IoU和precision@K(預(yù)測(cè)正確的相關(guān)結(jié)果占所有結(jié)果的比例)。

結(jié)果如下:

可以看到,MTTR在所有指標(biāo)上都優(yōu)于所有現(xiàn)有方法,與SOTA模型相比,還在第一個(gè)數(shù)據(jù)集上提高了4.3的mAP值(平均精度)。

頂配版MTTR則在平均和總體IoU指標(biāo)上實(shí)現(xiàn)了5.7的mAP增益,可以在單個(gè)RTX 3090 GPU上實(shí)現(xiàn)每秒處理76幀圖像。

MTTR在JHMDBs上的結(jié)果表明MTTR也具備良好的泛化能力。

更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評(píng)估指標(biāo)為區(qū)域相似性(J)和輪廓精度(F)的平均值。

MTTR在這些指標(biāo)上全部“險(xiǎn)勝”。

一些可視化結(jié)果表明,即使在目標(biāo)對(duì)象被類似實(shí)例包圍、被遮擋或完全超出畫面等情況下,MTTR都可以成功地跟蹤和分割文本引用的對(duì)象。

最后,作者表示,希望更多人通過這項(xiàng)成果看到Transformer在多模態(tài)任務(wù)上的潛力。

最最后,作者也開放了兩個(gè)試玩通道,感興趣的同學(xué)可以戳文末鏈接~

△ Colab試玩效果

試玩地址:
??https://huggingface.co/spaces/akhaliq/MTTR??

??https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing??

論文地址:
??https://arxiv.org/abs/2111.14821??

代碼已開源:
??https://github.com/mttr2021/MTTR??

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-06-28 10:18:12

深度學(xué)習(xí)模型

2021-09-02 15:25:54

技術(shù)視頻摳圖

2023-10-09 09:42:18

自動(dòng)駕駛模型

2024-04-01 09:45:50

TAP模式.NET異步編程

2023-11-08 09:53:22

神經(jīng)網(wǎng)絡(luò)人工智能

2021-08-30 15:27:05

AI 數(shù)據(jù)人工智能

2020-09-30 10:56:13

Facebook 開發(fā)開源

2024-08-28 08:25:25

Python預(yù)訓(xùn)練模型情緒數(shù)據(jù)集

2020-10-23 15:29:48

iPad摳圖PC

2025-01-06 10:00:00

模型視覺生成

2024-11-27 14:00:00

模型訓(xùn)練

2024-09-23 08:20:00

模型訓(xùn)練

2020-12-07 17:32:24

AI視頻視頻摳圖

2025-04-28 09:28:14

2024-12-24 13:01:12

2023-12-19 18:12:25

谷歌模型AI

2025-01-16 11:00:00

圖像模型AI

2023-12-15 18:53:48

GPT-4.53D信息

2020-04-07 14:45:35

開源摳圖 技術(shù)

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)