自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="kz6d6"></cite>

<p id="kz6d6"><li id="kz6d6"><pre id="kz6d6"></pre></li></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Facebook和NUS、MIT等高校聯(lián)合推出3000小時(shí)的第一視角視頻數(shù)據(jù)集Ego4D

作者：我在思考中 2021-10-18 10:14:54

為了開啟下一波AI技術(shù)浪潮，為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能，AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。

圖1. 左：同一場(chǎng)景在第一視角和第三視角下；右：第一視角視頻采集設(shè)備

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

從第三視角看世界，和從第一視角和世界互動(dòng)，有顯著差異。比如說(shuō)，看別人坐過(guò)山車和自己坐過(guò)山車，體驗(yàn)完全不同。

本文摘要翻譯自NUS新聞：https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/

為了開啟下一波AI技術(shù)浪潮，為增強(qiáng)現(xiàn)實(shí) (AR) 和智能機(jī)器人賦能，AI需要從現(xiàn)在的第三視角轉(zhuǎn)換成第一視角的全新范式。這是因?yàn)樵诘谝灰暯堑氖澜缰?，常有?shí)時(shí)的運(yùn)動(dòng)變化，手與物體的交互，多種感官的信息融合。

為此，F(xiàn)acebook聯(lián)合新加坡國(guó)立大學(xué) (NUS) 、MIT等世界各地的13所大學(xué)組成了一個(gè)學(xué)術(shù)聯(lián)盟，致力于開展一個(gè)長(zhǎng)期項(xiàng)目——Ego4D（第一視角的 4D 實(shí)時(shí)感知 )。

Ego4D鏈接：https://ego4d-data.org/

來(lái)自NUS研究團(tuán)隊(duì)的Principal Investigator（主要負(fù)責(zé)人），助理教授Mike壽政說(shuō)：“在過(guò)去十年里，我們見(jiàn)證了AI在理解圖像方面的變革，這是建立在 ImageNet 等數(shù)據(jù)集所奠定的基礎(chǔ)上的。類似的，我相信我們的 Ego4D 數(shù)據(jù)集，將為第一視角的視頻研究打好基礎(chǔ)，從而推動(dòng)智能感知在 AR 和機(jī)器人方面的快速發(fā)展。”

1

目前最大的第一視角視頻數(shù)據(jù)集

圖 2. Ego4D 是目前最大的第一視角的日?；顒?dòng)視頻數(shù)據(jù)集

大多數(shù)AI系統(tǒng)需要大量數(shù)據(jù)進(jìn)行訓(xùn)練，現(xiàn)有的大規(guī)模視頻數(shù)據(jù)集通常以第三視角為主；而現(xiàn)有的第一視角數(shù)據(jù)集在規(guī)模、多樣性和復(fù)雜性上都很有限。因此，該學(xué)術(shù)聯(lián)盟推出了 Ego4D 數(shù)據(jù)集：

● 大規(guī)模：研究人員分發(fā)頭戴式相機(jī)或者AR眼鏡給數(shù)據(jù)采集者，從而收集了累計(jì)3,000 小時(shí)的、日?；顒?dòng)中的第一視角視頻；

● In-the-wild：包含了人們的日常生活的數(shù)百種不同活動(dòng)，記錄了相機(jī)佩戴者在關(guān)注什么，用手和面前的物體做什么，以及他們是如何與其他人互動(dòng)的；

● 多樣性：涵蓋全球 73 個(gè)地點(diǎn)、9個(gè)國(guó)家，700 多名不同背景、種族、職業(yè)、年齡的數(shù)據(jù)采集者，囊括不同的文化和地理差異；

● 抽好的特征：所有視頻，均有預(yù)先抽好的SlowFast特征，方便大家進(jìn)行實(shí)驗(yàn)；

● 授權(quán)公開：這些數(shù)據(jù)將于 2021 年 11 月公開，視頻中的所有可見(jiàn)人臉和可聽(tīng)懂的語(yǔ)音均已獲得參與者的授權(quán)。

2

新任務(wù)，新技術(shù)

圖3. 通過(guò)采集的第一視角視頻數(shù)據(jù)，Ego4D團(tuán)隊(duì)可以開發(fā)AI模型來(lái)解決新的任務(wù)

與數(shù)據(jù)收集同樣重要的是，定義正確的任務(wù)，進(jìn)行嚴(yán)格的人工標(biāo)注，來(lái)引導(dǎo)新技術(shù)的研發(fā)。

為此，Ego4D 學(xué)術(shù)聯(lián)盟聯(lián)合構(gòu)建了五個(gè)全新的、具有挑戰(zhàn)性的任務(wù)：

(1) 情景記憶：什么時(shí)候發(fā)生了什么？如圖3A, 告訴我錢包最近一次出現(xiàn)的位置。

(2) 預(yù)測(cè)未來(lái)：我接下來(lái)要做什么？如圖3B, 他即將跳起來(lái)抓住單杠。

(3) 手與物體交互：我在做什么以及如何做？如圖3C, 告訴我下一步的操作。

(4) 視覺(jué)+聽(tīng)覺(jué)：多人場(chǎng)景下，誰(shuí)在什么時(shí)候說(shuō)了什么？如圖3D, 生成會(huì)議內(nèi)容的總結(jié)。

(5) 社交交互：人與人如何交互？如圖3D, 我注視著他，而他正在對(duì)我說(shuō)話。

“我們NUS研究團(tuán)隊(duì)主要為其中兩個(gè)關(guān)鍵任務(wù)開發(fā)模型：一是，利用聲音和視覺(jué)線索幫助AI識(shí)別“誰(shuí)在什么時(shí)候說(shuō)了什么；二是，開發(fā)具有社交智能的 AI，檢測(cè)當(dāng)下誰(shuí)在對(duì)誰(shuí)說(shuō)話，誰(shuí)在關(guān)注誰(shuí)。”同樣來(lái)自NUS團(tuán)隊(duì)的Co-PI李海洲教授如是說(shuō)。

有第一視角感知能力的AI，將賦能AR眼鏡、智能機(jī)器人等等同樣是第一視角的設(shè)備，將在我們的日常生活和工作中發(fā)揮更大作用。想象一下：在對(duì)著新菜譜做菜時(shí)，不必再來(lái)來(lái)回回地看菜譜，你的AR 眼鏡就可以實(shí)時(shí)地同步指導(dǎo)你執(zhí)行每個(gè)步驟；對(duì)于有阿爾茨海默癥等健康問(wèn)題的人，AR眼鏡可以幫助他們回憶錢包放在哪里了。

Ego4D數(shù)據(jù)集只是起點(diǎn)，研發(fā)第一視角AI技術(shù)，進(jìn)而賦能智能機(jī)器人、AR眼鏡，將在不遠(yuǎn)的將來(lái)，改變我們的生活、工作、娛樂(lè)方式，帶給我們前所未有的、虛擬與現(xiàn)實(shí)交融的體驗(yàn)。

更多技術(shù)詳情請(qǐng)見(jiàn)Arxiv論文：https://arxiv.org/abs/2110.07058

責(zé)任編輯：張燕妮來(lái)源：雷鋒網(wǎng)

數(shù)據(jù)技術(shù)模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)