Google華博士在ICCV 2021發(fā)布新模型，打個雞蛋就知道你要做煎餅

作者：佚名 2021-11-25 12:40:20

隨著機(jī)器學(xué)習(xí)的模型在現(xiàn)實(shí)世界中的應(yīng)用和部署越來越多，AI 的決策也能夠用于幫助人們在日常生活中做出決策。

在計(jì)算機(jī)視覺領(lǐng)域的決策過程中，預(yù)測（Prediction）一直都是一個核心問題。

如何在不同的時間尺度上對未來作出合理的預(yù)測也是這些機(jī)器模型的重要的能力之一，這種能力可以讓模型預(yù)測出周圍世界的變化，包括其他模型的行為，并計(jì)劃下一步如何行動與決策。

更重要的是，成功的未來預(yù)測（future prediction）既需要捕捉環(huán)境中的有意義的物體變化，也需要了解環(huán)境如何隨著時間的推移進(jìn)行變化，以便作出決策和預(yù)測。

計(jì)算機(jī)視覺中關(guān)于未來預(yù)測的工作主要受限于其輸出的形式，輸出可能是圖像的像素或者是人工預(yù)定義的一些標(biāo)簽（例如預(yù)測某人是否會繼續(xù)行走、坐下等）。

這些預(yù)測內(nèi)容都太過詳細(xì)以至于難以完全預(yù)測成功，并且對現(xiàn)實(shí)世界信息的豐富性也缺乏有效利用。也就是說，如果一個模型在預(yù)測「跳躍行為」時，并不知道為什么他們會跳躍，或者他們在跳什么等等，那就沒辦法預(yù)測成功，結(jié)果基本等于亂猜。

此外，除了極少數(shù)例外，之前的模型被設(shè)計(jì)成對未來進(jìn)行固定偏移（offset）的預(yù)測，無法進(jìn)行動態(tài)時間間隔的預(yù)測，雖然這是一個限制性的假設(shè)，因?yàn)槲覀兒苌僦篮螘r會出現(xiàn)有意義的未來狀態(tài)。

Google華博士在ICCV 2021發(fā)布新模型，打個雞蛋就知道你要做煎餅

在一個制作冰淇淋的視頻中，從cream到ice cream在視頻中的時間間隔為35 秒，因此預(yù)測這種變化的模型需要提前35秒來預(yù)判。但這一間隔在不同的行為和視頻中變化很大，例如有的博主可能用了更詳細(xì)、更長時間來制作冰淇淋，也就是說在未來的任何時間都有可能制作完成冰淇淋。

此外，可以大規(guī)模、數(shù)以百萬計(jì)收集此類視頻逐幀標(biāo)注，許多教學(xué)視頻都有語音轉(zhuǎn)換記錄，通常在整個視頻中提供簡明、一般的描述。這種數(shù)據(jù)源可以引導(dǎo)模型關(guān)注視頻中的重要部分，而無需手動標(biāo)注就能夠?qū)ξ磥硎录M(jìn)行靈活的數(shù)據(jù)驅(qū)動預(yù)測。

基于這個思路，Google在ICCV 2021上發(fā)表了一篇文章，提出了一種自監(jiān)督的方法，使用了一個大型、未標(biāo)記的人類活動數(shù)據(jù)集。所建立的模型具有高度的抽象性，可以任意時間間隔對未來進(jìn)行遠(yuǎn)距離預(yù)測，并能夠根據(jù)上下文選擇對未來的遠(yuǎn)期預(yù)測。

模型具有多模態(tài)周期一致性（Multi-Modal Cycle Consistency，MMCC）的目標(biāo)函數(shù)，能夠利用敘事教學(xué)視頻來學(xué)習(xí)一個強(qiáng)大的未來預(yù)測模型。研究人員在文中還展示了如何在不進(jìn)行微調(diào)的情況下，將MMCC應(yīng)用于各種具有挑戰(zhàn)性的任務(wù)，并對其預(yù)測進(jìn)行了量化測試實(shí)驗(yàn)。

文章的作者Chen Sun來自Google和布朗大學(xué)，目前是布朗大學(xué)計(jì)算機(jī)科學(xué)助理教授，研究計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能，也是谷歌研究所的一名研究科學(xué)家。

他在2016年博士畢業(yè)于南加州大學(xué)，導(dǎo)師是Ram Nevatia教授，于2011年完成清華大學(xué)計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

正在進(jìn)行的研究項(xiàng)目包括從無標(biāo)簽視頻中學(xué)習(xí)多模式表示和視覺交流，識別人類活動、對象及其隨時間的相互作用，并將表示轉(zhuǎn)移到embodied agents。

研究中主要解決了未來預(yù)測的三個核心問題：

1. 手動標(biāo)注視頻中的時間關(guān)系是非常耗時耗力的，而且很難定義標(biāo)簽的正確性。所以模型應(yīng)當(dāng)能夠從大量未標(biāo)記的數(shù)據(jù)中自主學(xué)習(xí)和發(fā)現(xiàn)事件的變換，從而實(shí)現(xiàn)實(shí)際應(yīng)用。

2. 對現(xiàn)實(shí)世界中復(fù)雜的長期事件變換進(jìn)行編碼需要學(xué)習(xí)更高層次的概念，這些概念通常在抽象的潛在表示中可以找到，而非只是圖像中的像素。

3. 時序的事件變換非常依賴于上下文，所以模型必須能夠在可變時間間隔下預(yù)測未來。

為了滿足這些需求，研究人員引入了一個新的自監(jiān)督訓(xùn)練目標(biāo)函數(shù)MMCC以及一個學(xué)習(xí)表達(dá)式來解決這一問題的模型。

模型從敘事視頻中的一個樣本幀開始，學(xué)習(xí)如何在所有敘事文本中找到相關(guān)的語言表述。結(jié)合視覺和文本這兩種模式，該模型能夠用到整個視頻來學(xué)習(xí)到如何預(yù)測潛在未來的事件，并估計(jì)該幀的相應(yīng)語言描述，并以類似的方式學(xué)習(xí)預(yù)測過去幀的函數(shù)。

循環(huán)約束（cycle constraint）要求最終模型預(yù)測等于起始幀。

另一方面，由于該模型不知道其輸入數(shù)據(jù)來自哪個模式，因此必須在視覺和語言上共同運(yùn)作，因此無法選擇較低級別的未來預(yù)測框架。

模型學(xué)習(xí)嵌入所有視覺和文本節(jié)點(diǎn)，然后在其他模式下仔細(xì)計(jì)算與起始節(jié)點(diǎn)對應(yīng)的跨模式節(jié)點(diǎn)。這兩個節(jié)點(diǎn)的表示都被轉(zhuǎn)換為全連接層，預(yù)測了在初始模態(tài)下使用注意力的未來幀。然后重復(fù)backward過程，模型損失是通過預(yù)測起始節(jié)點(diǎn)來訓(xùn)練模型的最終輸出來結(jié)束循環(huán)（cycle）。

在實(shí)驗(yàn)部分，由于大多數(shù)先前的benchmark側(cè)重于具有固定類別和時間偏移的有監(jiān)督行為預(yù)測，這篇論文中研究人員設(shè)計(jì)了一系列新的定性和定量實(shí)驗(yàn)來評估不同的方法。

首先是數(shù)據(jù)，研究人員在無約束的真實(shí)世界視頻數(shù)據(jù)上訓(xùn)練模型。使用HowTo100M數(shù)據(jù)集的子集，其中包含大約123萬個視頻及其自動提取的音頻腳本。此數(shù)據(jù)集中的視頻大致按主題區(qū)域分類，并且只使用分類為 Recipe 的視頻，大約是數(shù)據(jù)集中的四分之一。

在338033個Recipe視頻中，80% 為訓(xùn)練集，15%在驗(yàn)證集，5%在測試集。Recipe視頻包含了豐富的復(fù)雜對象、操作和狀態(tài)轉(zhuǎn)換，并且該子集能夠讓開發(fā)者更快地訓(xùn)練模型。

為了進(jìn)行更多的控制測試（controlled test），研究人員使用CrossTask數(shù)據(jù)集，包含相似的視頻以及特定于任務(wù)的標(biāo)注。

所有視頻都與任務(wù)相關(guān)，例如制作煎餅等，其中每個任務(wù)都有一個預(yù)先定義的高級別子任務(wù)序列，這些子任務(wù)具有豐富的長時間的相互依賴性，例如，要先把糊弄到碗里，然后才能把雞蛋打成碗，再加入糖漿等等。