自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D

新聞
為了開啟下一波AI技術(shù)浪潮,為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能,AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。

 

圖1. 左:同一場(chǎng)景在第一視角和第三視角下;右:第一視角視頻采集設(shè)備

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

 

從第三視角看世界,和從第一視角和世界互動(dòng),有顯著差異。比如說(shuō),看別人坐過(guò)山車和自己坐過(guò)山車,體驗(yàn)完全不同。

 

本文摘要翻譯自NUS新聞:https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/

為了開啟下一波AI技術(shù)浪潮,為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能,AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。這是因?yàn)樵诘谝灰暯堑氖澜缰?,常有?shí)時(shí)的運(yùn)動(dòng)變化,手與物體的交互,多種感官的信息融合。

為此,F(xiàn)acebook聯(lián)合新加坡國(guó)立大學(xué) (NUS) 、MIT等世界各地的13所大學(xué)組成了一個(gè)學(xué)術(shù)聯(lián)盟,致力于開展一個(gè)長(zhǎng)期項(xiàng)目——Ego4D(第一視角的 4D 實(shí)時(shí)感知 )。

Ego4D鏈接:https://ego4d-data.org/

來(lái)自NUS研究團(tuán)隊(duì)的Principal Investigator(主要負(fù)責(zé)人),助理教授Mike壽政說(shuō):“在過(guò)去十年里,我們見(jiàn)證了AI在理解圖像方面的變革,這是建立在 ImageNet 等數(shù)據(jù)集所奠定的基礎(chǔ)上的。類似的,我相信我們的 Ego4D 數(shù)據(jù)集,將為第一視角的視頻研究打好基礎(chǔ),從而推動(dòng)智能感知在 AR 和機(jī)器人方面的快速發(fā)展。”

 

 

1

 

 

目前最大的第一視角視頻數(shù)據(jù)集

 

 

圖 2. Ego4D 是目前最大的第一視角的日?;顒?dòng)視頻數(shù)據(jù)集

大多數(shù)AI系統(tǒng)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,現(xiàn)有的大規(guī)模視頻數(shù)據(jù)集通常以第三視角為主;而現(xiàn)有的第一視角數(shù)據(jù)集在規(guī)模、多樣性和復(fù)雜性上都很有限。因此,該學(xué)術(shù)聯(lián)盟推出了 Ego4D 數(shù)據(jù)集:

● 大規(guī)模:研究人員分發(fā)頭戴式相機(jī)或者AR眼鏡給數(shù)據(jù)采集者,從而收集了累計(jì)3,000 小時(shí)的、日?;顒?dòng)中的第一視角視頻;

● In-the-wild:包含了人們的日常生活的數(shù)百種不同活動(dòng),記錄了相機(jī)佩戴者在關(guān)注什么,用手和面前的物體做什么,以及他們是如何與其他人互動(dòng)的;

● 多樣性:涵蓋全球 73 個(gè)地點(diǎn)、9個(gè)國(guó)家,700 多名不同背景、種族、職業(yè)、年齡的數(shù)據(jù)采集者,囊括不同的文化和地理差異;

● 抽好的特征:所有視頻,均有預(yù)先抽好的SlowFast特征,方便大家進(jìn)行實(shí)驗(yàn);

● 授權(quán)公開:這些數(shù)據(jù)將于 2021 年 11 月公開,視頻中的所有可見(jiàn)人臉和可聽(tīng)懂的語(yǔ)音均已獲得參與者的授權(quán)。

 

2

 

 

新任務(wù),新技術(shù)

 

圖3. 通過(guò)采集的第一視角視頻數(shù)據(jù),Ego4D團(tuán)隊(duì)可以開發(fā)AI模型來(lái)解決新的任務(wù)

與數(shù)據(jù)收集同樣重要的是,定義正確的任務(wù),進(jìn)行嚴(yán)格的人工標(biāo)注,來(lái)引導(dǎo)新技術(shù)的研發(fā)。

為此,Ego4D 學(xué)術(shù)聯(lián)盟聯(lián)合構(gòu)建了五個(gè)全新的、具有挑戰(zhàn)性的任務(wù):

(1) 情景記憶:什么時(shí)候發(fā)生了什么?如圖3A, 告訴我錢包最近一次出現(xiàn)的位置。

(2) 預(yù)測(cè)未來(lái):我接下來(lái)要做什么?如圖3B, 他即將跳起來(lái)抓住單杠。

(3) 手與物體交互:我在做什么以及如何做?如圖3C, 告訴我下一步的操作。

(4) 視覺(jué)+聽(tīng)覺(jué):多人場(chǎng)景下,誰(shuí)在什么時(shí)候說(shuō)了什么?如圖3D, 生成會(huì)議內(nèi)容的總結(jié)。

(5) 社交交互:人與人如何交互?如圖3D, 我注視著他,而他正在對(duì)我說(shuō)話。

“我們NUS研究團(tuán)隊(duì)主要為其中兩個(gè)關(guān)鍵任務(wù)開發(fā)模型:一是,利用聲音和視覺(jué)線索幫助AI識(shí)別“誰(shuí)在什么時(shí)候說(shuō)了什么;二是,開發(fā)具有社交智能的 AI,檢測(cè)當(dāng)下誰(shuí)在對(duì)誰(shuí)說(shuō)話,誰(shuí)在關(guān)注誰(shuí)。”同樣來(lái)自NUS團(tuán)隊(duì)的Co-PI李海洲教授如是說(shuō)。

有第一視角感知能力的AI,將賦能AR眼鏡、智能機(jī)器人等等同樣是第一視角的設(shè)備,將在我們的日常生活和工作中發(fā)揮更大作用。想象一下:在對(duì)著新菜譜做菜時(shí),不必再來(lái)來(lái)回回地看菜譜,你的AR 眼鏡就可以實(shí)時(shí)地同步指導(dǎo)你執(zhí)行每個(gè)步驟;對(duì)于有阿爾茨海默癥等健康問(wèn)題的人,AR眼鏡可以幫助他們回憶錢包放在哪里了。

Ego4D數(shù)據(jù)集只是起點(diǎn),研發(fā)第一視角AI技術(shù),進(jìn)而賦能智能機(jī)器人、AR眼鏡,將在不遠(yuǎn)的將來(lái),改變我們的生活、工作、娛樂(lè)方式,帶給我們前所未有的、虛擬與現(xiàn)實(shí)交融的體驗(yàn)。

更多技術(shù)詳情請(qǐng)見(jiàn)Arxiv論文:https://arxiv.org/abs/2110.07058

 

責(zé)任編輯:張燕妮 來(lái)源: 雷鋒網(wǎng)
相關(guān)推薦

2021-10-15 15:05:32

AI 數(shù)據(jù)人工智能

2011-08-01 08:56:06

CouchDBSQLiteNoSQL

2025-01-07 08:40:00

視頻生成AI

2010-02-17 00:24:34

maemomeego手機(jī)linux

2010-09-15 14:21:17

達(dá)見(jiàn)騰訊攝像頭

2009-02-16 09:29:14

存儲(chǔ)加密密鑰管理加密技術(shù)

2023-08-15 08:36:20

ChatGPT模型

2013-05-27 15:35:23

通信網(wǎng)絡(luò)eLTE華為

2024-12-16 14:40:00

AI模型訓(xùn)練

2012-05-28 09:50:51

微軟IBMSAP

2017-03-29 17:59:04

華為混合云

2021-08-05 09:46:11

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-01-19 16:35:00

模型動(dòng)畫

2014-11-17 17:59:58

JDA IBM

2009-06-22 15:16:24

HASP SRM4.0軟件保護(hù)SafeNet

2021-04-23 09:10:38

戴爾

2009-10-15 15:29:41

安全解決方案McAfeeAdobe

2011-10-21 09:34:58

邁克菲RSA風(fēng)險(xiǎn)管理解決方案

2022-07-07 15:56:23

數(shù)據(jù)集論文

2013-11-08 13:35:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)