根據(jù)文本描述從視頻中摳圖,Transformer:這種跨模態(tài)任務(wù)我最擅長(zhǎng)
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
都說Transformer適合處理多模態(tài)任務(wù)。
這不,在視頻目標(biāo)分割領(lǐng)域,就有人用它同時(shí)處理文本和視幀,提出了一個(gè)結(jié)構(gòu)更簡(jiǎn)單、處理速度更快(每秒76幀)的視頻實(shí)例分割框架。
這個(gè)框架只需一串文本描述,就可以輕松將視頻中的動(dòng)態(tài)目標(biāo)“摳”出來:
可以實(shí)現(xiàn)端到端訓(xùn)練的它,在基準(zhǔn)測(cè)試中的多個(gè)指標(biāo)上表現(xiàn)全部?jī)?yōu)于現(xiàn)有模型。
目前,相關(guān)論文已被CVPR 2022接收,研究人員來自以色列理工學(xué)院。
主要思路
根據(jù)文本描述進(jìn)行視頻目標(biāo)分割這一多模態(tài)任務(wù)(RVOS),需要結(jié)合文本推理、視頻理解、實(shí)例分割和跟蹤技術(shù)。
現(xiàn)有的方法通常依賴復(fù)雜的pipeline來解決,很難形成一個(gè)端到端的簡(jiǎn)便好用的模型。
隨時(shí)CV和NLP領(lǐng)域的發(fā)展,研究人員意識(shí)到,視頻和文本可以同時(shí)通過單個(gè)多模態(tài)Transformer模型進(jìn)行有效處理。
為此,他們提出了這個(gè)叫做MTTR (Multimodal Tracking Transformer)的新架構(gòu),將RVOS任務(wù)建模為序列(sequence)預(yù)測(cè)問題。
首先,輸入的文本和視頻幀被傳遞給特征編碼器進(jìn)行特征提取,然后將兩者連接成多模態(tài)序列(每幀一個(gè))。
接著,通過多模態(tài)Transformer對(duì)兩者之間的特征關(guān)系進(jìn)行編碼,并將實(shí)例級(jí)(instance-level )特征解碼為一組預(yù)測(cè)序列。
接下來,生成相應(yīng)的mask和參考預(yù)測(cè)序列。
最后,將預(yù)測(cè)序列與基準(zhǔn)(ground truth,在有監(jiān)督學(xué)習(xí)中通常指代樣本集中的標(biāo)簽)序列進(jìn)行匹配,以供訓(xùn)練過程中的監(jiān)督或用于在推理過程中生成最終預(yù)測(cè)。
具體來說,對(duì)于Transformer輸出的每個(gè)實(shí)例序列,系統(tǒng)會(huì)生成一個(gè)對(duì)應(yīng)的mask序列。
為了實(shí)現(xiàn)這一點(diǎn),作者采用了類似FPN(特征金字塔網(wǎng)絡(luò))的空間解碼器和動(dòng)態(tài)生成的條件卷積核。
而通過一個(gè)新穎的文本參考分?jǐn)?shù)函數(shù),該函數(shù)基于mask和文本關(guān)聯(lián),就可以確定哪個(gè)查詢序列與文本描述的對(duì)象具有最強(qiáng)的關(guān)聯(lián),然后返回其分割序列作為模型的預(yù)測(cè)。
精度優(yōu)于所有現(xiàn)有模型
作者在三個(gè)相關(guān)數(shù)據(jù)集上對(duì)MTTR進(jìn)行了性能測(cè)試:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。
前兩個(gè)數(shù)據(jù)集的衡量指標(biāo)包括IoU(交并比,1表示預(yù)測(cè)框與真實(shí)邊框完全重合)、平均IoU和precision@K(預(yù)測(cè)正確的相關(guān)結(jié)果占所有結(jié)果的比例)。
結(jié)果如下:
可以看到,MTTR在所有指標(biāo)上都優(yōu)于所有現(xiàn)有方法,與SOTA模型相比,還在第一個(gè)數(shù)據(jù)集上提高了4.3的mAP值(平均精度)。
頂配版MTTR則在平均和總體IoU指標(biāo)上實(shí)現(xiàn)了5.7的mAP增益,可以在單個(gè)RTX 3090 GPU上實(shí)現(xiàn)每秒處理76幀圖像。
MTTR在JHMDBs上的結(jié)果表明MTTR也具備良好的泛化能力。
更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評(píng)估指標(biāo)為區(qū)域相似性(J)和輪廓精度(F)的平均值。
MTTR在這些指標(biāo)上全部“險(xiǎn)勝”。
一些可視化結(jié)果表明,即使在目標(biāo)對(duì)象被類似實(shí)例包圍、被遮擋或完全超出畫面等情況下,MTTR都可以成功地跟蹤和分割文本引用的對(duì)象。
最后,作者表示,希望更多人通過這項(xiàng)成果看到Transformer在多模態(tài)任務(wù)上的潛力。
最最后,作者也開放了兩個(gè)試玩通道,感興趣的同學(xué)可以戳文末鏈接~
△ Colab試玩效果
試玩地址:
??https://huggingface.co/spaces/akhaliq/MTTR??
??https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing??
論文地址:
??https://arxiv.org/abs/2111.14821??
代碼已開源:
??https://github.com/mttr2021/MTTR??