Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D
圖1. 左:同一場(chǎng)景在第一視角和第三視角下;右:第一視角視頻采集設(shè)備
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
本文摘要翻譯自NUS新聞:https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/
為此,F(xiàn)acebook聯(lián)合新加坡國(guó)立大學(xué) (NUS) 、MIT等世界各地的13所大學(xué)組成了一個(gè)學(xué)術(shù)聯(lián)盟,致力于開展一個(gè)長(zhǎng)期項(xiàng)目——Ego4D(第一視角的 4D 實(shí)時(shí)感知 )。
Ego4D鏈接:https://ego4d-data.org/
來(lái)自NUS研究團(tuán)隊(duì)的Principal Investigator(主要負(fù)責(zé)人),助理教授Mike壽政說(shuō):“在過(guò)去十年里,我們見(jiàn)證了AI在理解圖像方面的變革,這是建立在 ImageNet 等數(shù)據(jù)集所奠定的基礎(chǔ)上的。類似的,我相信我們的 Ego4D 數(shù)據(jù)集,將為第一視角的視頻研究打好基礎(chǔ),從而推動(dòng)智能感知在 AR 和機(jī)器人方面的快速發(fā)展。”
圖 2. Ego4D 是目前最大的第一視角的日?;顒?dòng)視頻數(shù)據(jù)集
大多數(shù)AI系統(tǒng)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,現(xiàn)有的大規(guī)模視頻數(shù)據(jù)集通常以第三視角為主;而現(xiàn)有的第一視角數(shù)據(jù)集在規(guī)模、多樣性和復(fù)雜性上都很有限。因此,該學(xué)術(shù)聯(lián)盟推出了 Ego4D 數(shù)據(jù)集:
● 大規(guī)模:研究人員分發(fā)頭戴式相機(jī)或者AR眼鏡給數(shù)據(jù)采集者,從而收集了累計(jì)3,000 小時(shí)的、日?;顒?dòng)中的第一視角視頻;
● In-the-wild:包含了人們的日常生活的數(shù)百種不同活動(dòng),記錄了相機(jī)佩戴者在關(guān)注什么,用手和面前的物體做什么,以及他們是如何與其他人互動(dòng)的;
● 多樣性:涵蓋全球 73 個(gè)地點(diǎn)、9個(gè)國(guó)家,700 多名不同背景、種族、職業(yè)、年齡的數(shù)據(jù)采集者,囊括不同的文化和地理差異;
● 抽好的特征:所有視頻,均有預(yù)先抽好的SlowFast特征,方便大家進(jìn)行實(shí)驗(yàn);
● 授權(quán)公開:這些數(shù)據(jù)將于 2021 年 11 月公開,視頻中的所有可見(jiàn)人臉和可聽(tīng)懂的語(yǔ)音均已獲得參與者的授權(quán)。
圖3. 通過(guò)采集的第一視角視頻數(shù)據(jù),Ego4D團(tuán)隊(duì)可以開發(fā)AI模型來(lái)解決新的任務(wù)
與數(shù)據(jù)收集同樣重要的是,定義正確的任務(wù),進(jìn)行嚴(yán)格的人工標(biāo)注,來(lái)引導(dǎo)新技術(shù)的研發(fā)。
為此,Ego4D 學(xué)術(shù)聯(lián)盟聯(lián)合構(gòu)建了五個(gè)全新的、具有挑戰(zhàn)性的任務(wù):
(1) 情景記憶:什么時(shí)候發(fā)生了什么?如圖3A, 告訴我錢包最近一次出現(xiàn)的位置。
(2) 預(yù)測(cè)未來(lái):我接下來(lái)要做什么?如圖3B, 他即將跳起來(lái)抓住單杠。
(3) 手與物體交互:我在做什么以及如何做?如圖3C, 告訴我下一步的操作。
(4) 視覺(jué)+聽(tīng)覺(jué):多人場(chǎng)景下,誰(shuí)在什么時(shí)候說(shuō)了什么?如圖3D, 生成會(huì)議內(nèi)容的總結(jié)。
(5) 社交交互:人與人如何交互?如圖3D, 我注視著他,而他正在對(duì)我說(shuō)話。
“我們NUS研究團(tuán)隊(duì)主要為其中兩個(gè)關(guān)鍵任務(wù)開發(fā)模型:一是,利用聲音和視覺(jué)線索幫助AI識(shí)別“誰(shuí)在什么時(shí)候說(shuō)了什么;二是,開發(fā)具有社交智能的 AI,檢測(cè)當(dāng)下誰(shuí)在對(duì)誰(shuí)說(shuō)話,誰(shuí)在關(guān)注誰(shuí)。”同樣來(lái)自NUS團(tuán)隊(duì)的Co-PI李海洲教授如是說(shuō)。
有第一視角感知能力的AI,將賦能AR眼鏡、智能機(jī)器人等等同樣是第一視角的設(shè)備,將在我們的日常生活和工作中發(fā)揮更大作用。想象一下:在對(duì)著新菜譜做菜時(shí),不必再來(lái)來(lái)回回地看菜譜,你的AR 眼鏡就可以實(shí)時(shí)地同步指導(dǎo)你執(zhí)行每個(gè)步驟;對(duì)于有阿爾茨海默癥等健康問(wèn)題的人,AR眼鏡可以幫助他們回憶錢包放在哪里了。
Ego4D數(shù)據(jù)集只是起點(diǎn),研發(fā)第一視角AI技術(shù),進(jìn)而賦能智能機(jī)器人、AR眼鏡,將在不遠(yuǎn)的將來(lái),改變我們的生活、工作、娛樂(lè)方式,帶給我們前所未有的、虛擬與現(xiàn)實(shí)交融的體驗(yàn)。