自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="ebsvt"><li id="ebsvt"></li></s>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

根據(jù)文本描述從視頻中摳圖，Transformer：這種跨模態(tài)任務(wù)我最擅長(zhǎng)

作者：量子位 2022-03-08 09:06:33

人工智能深度學(xué)習(xí)

隨時(shí)CV和NLP領(lǐng)域的發(fā)展，研究人員意識(shí)到，視頻和文本可以同時(shí)通過單個(gè)多模態(tài)Transformer模型進(jìn)行有效處理。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

都說Transformer適合處理多模態(tài)任務(wù)。

這不，在視頻目標(biāo)分割領(lǐng)域，就有人用它同時(shí)處理文本和視幀，提出了一個(gè)結(jié)構(gòu)更簡(jiǎn)單、處理速度更快（每秒76幀）的視頻實(shí)例分割框架。

這個(gè)框架只需一串文本描述，就可以輕松將視頻中的動(dòng)態(tài)目標(biāo)“摳”出來：

可以實(shí)現(xiàn)端到端訓(xùn)練的它，在基準(zhǔn)測(cè)試中的多個(gè)指標(biāo)上表現(xiàn)全部?jī)?yōu)于現(xiàn)有模型。

目前，相關(guān)論文已被CVPR 2022接收，研究人員來自以色列理工學(xué)院。

主要思路

根據(jù)文本描述進(jìn)行視頻目標(biāo)分割這一多模態(tài)任務(wù)（RVOS），需要結(jié)合文本推理、視頻理解、實(shí)例分割和跟蹤技術(shù)。

現(xiàn)有的方法通常依賴復(fù)雜的pipeline來解決，很難形成一個(gè)端到端的簡(jiǎn)便好用的模型。

隨時(shí)CV和NLP領(lǐng)域的發(fā)展，研究人員意識(shí)到，視頻和文本可以同時(shí)通過單個(gè)多模態(tài)Transformer模型進(jìn)行有效處理。

為此，他們提出了這個(gè)叫做MTTR （Multimodal Tracking Transformer）的新架構(gòu)，將RVOS任務(wù)建模為序列（sequence）預(yù)測(cè)問題。

首先，輸入的文本和視頻幀被傳遞給特征編碼器進(jìn)行特征提取，然后將兩者連接成多模態(tài)序列（每幀一個(gè)）。

接著，通過多模態(tài)Transformer對(duì)兩者之間的特征關(guān)系進(jìn)行編碼，并將實(shí)例級(jí)（instance-level ）特征解碼為一組預(yù)測(cè)序列。

接下來，生成相應(yīng)的mask和參考預(yù)測(cè)序列。

最后，將預(yù)測(cè)序列與基準(zhǔn)（ground truth，在有監(jiān)督學(xué)習(xí)中通常指代樣本集中的標(biāo)簽）序列進(jìn)行匹配，以供訓(xùn)練過程中的監(jiān)督或用于在推理過程中生成最終預(yù)測(cè)。

具體來說，對(duì)于Transformer輸出的每個(gè)實(shí)例序列，系統(tǒng)會(huì)生成一個(gè)對(duì)應(yīng)的mask序列。

為了實(shí)現(xiàn)這一點(diǎn)，作者采用了類似FPN（特征金字塔網(wǎng)絡(luò)）的空間解碼器和動(dòng)態(tài)生成的條件卷積核。

而通過一個(gè)新穎的文本參考分?jǐn)?shù)函數(shù)，該函數(shù)基于mask和文本關(guān)聯(lián)，就可以確定哪個(gè)查詢序列與文本描述的對(duì)象具有最強(qiáng)的關(guān)聯(lián)，然后返回其分割序列作為模型的預(yù)測(cè)。

精度優(yōu)于所有現(xiàn)有模型

作者在三個(gè)相關(guān)數(shù)據(jù)集上對(duì)MTTR進(jìn)行了性能測(cè)試：JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前兩個(gè)數(shù)據(jù)集的衡量指標(biāo)包括IoU（交并比，1表示預(yù)測(cè)框與真實(shí)邊框完全重合）、平均IoU和precision@K（預(yù)測(cè)正確的相關(guān)結(jié)果占所有結(jié)果的比例）。

結(jié)果如下：

可以看到，MTTR在所有指標(biāo)上都優(yōu)于所有現(xiàn)有方法，與SOTA模型相比，還在第一個(gè)數(shù)據(jù)集上提高了4.3的mAP值（平均精度）。

頂配版MTTR則在平均和總體IoU指標(biāo)上實(shí)現(xiàn)了5.7的mAP增益，可以在單個(gè)RTX 3090 GPU上實(shí)現(xiàn)每秒處理76幀圖像。

MTTR在JHMDBs上的結(jié)果表明MTTR也具備良好的泛化能力。

更具挑戰(zhàn)性的Refer-YouTube-VOS數(shù)據(jù)集的主要評(píng)估指標(biāo)為區(qū)域相似性（J）和輪廓精度（F）的平均值。

MTTR在這些指標(biāo)上全部“險(xiǎn)勝”。

一些可視化結(jié)果表明，即使在目標(biāo)對(duì)象被類似實(shí)例包圍、被遮擋或完全超出畫面等情況下，MTTR都可以成功地跟蹤和分割文本引用的對(duì)象。

最后，作者表示，希望更多人通過這項(xiàng)成果看到Transformer在多模態(tài)任務(wù)上的潛力。

最最后，作者也開放了兩個(gè)試玩通道，感興趣的同學(xué)可以戳文末鏈接～

△ Colab試玩效果

試玩地址：
??https://huggingface.co/spaces/akhaliq/MTTR??

??https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing??

論文地址：
??https://arxiv.org/abs/2111.14821??

代碼已開源：
??https://github.com/mttr2021/MTTR??

責(zé)任編輯：張燕妮來源：量子位

模型文本摳圖

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="ongxm"><track id="ongxm"><b id="ongxm"></b></track></legend>

^{<blockquote id="ongxm"></blockquote>}