AI即將擁有自我意識？Facebook推「Ego4D 」開啟元宇宙大門

作者：佚名 2021-10-15 15:05:32

新聞人工智能

今年11月，F(xiàn)acebook將開源讓AI擁有以第一人稱視角與世界進行交互的能力的Ego4D（Egocentric 4D Perception）計劃。

你有想象過，有一天，戴上頭盔，眼前立刻懸浮出科幻場景般的炫麗世界嗎？

[[429182]]

在鋼鐵俠電影中，每當托尼斯塔克穿上機械盔甲，頭盔合上的那一刻，超級人工智能管家賈維斯就會在他眼前出現(xiàn)，幫助他分析眼前的情況。

鋼鐵俠頭盔里的賈維斯，其實是以第一人稱視角來理解世界的，所以會帶來電影里那樣的沉浸式體驗。

在未來，增強現(xiàn)實(AR)眼鏡和虛擬現(xiàn)實(VR)耳機等設(shè)備在日常生活中，將會變得像智能手機一樣普遍。

想象一下，你的增強現(xiàn)實設(shè)備準確地顯示了如何在鼓課上握住木棒，指導(dǎo)你完成一個食譜，幫助你找到丟失的鑰匙，或者像全息圖一樣浮現(xiàn)出你的記憶。

為了實現(xiàn)這些新技術(shù)，人工智能需要像我們一樣，從第一人稱的角度理解世界并與它互動，這在研究界，通常被稱為以第一人稱為中心的視覺感知。

然而，今天的計算機視覺（CV）系統(tǒng)從數(shù)以百萬計的照片和視頻中學(xué)習(xí)，盡管發(fā)展飛速，有了喜人的研究進展，可這些照片和視頻都是以第三人稱視角拍攝的，相機的視角只是一個行動的旁觀者視角。

嗯。。。鋼鐵俠系列的電影都結(jié)束了，現(xiàn)實生活中什么時候才能見到像賈維斯那樣，以第一視角理解世界的AI，出現(xiàn)在增強現(xiàn)實設(shè)備里呢？

別著急，有眉目了！

「Ego4D」計劃

2021年，F(xiàn)acebook AI正在宣布開展「Ego4D」（Egocentric 4D Perception）計劃，這是一個雄心勃勃的長期項目，為的就是解決以第一人稱視覺為中心的感知領(lǐng)域的研究挑戰(zhàn)。

「Ego4D」（Egocentric 4D Perception）是一個大規(guī)模的以第一人稱視覺為中心的數(shù)據(jù)集，具有前所未有的多樣性。它由來自全球9個不同國家74個地點的855名獨特參與者收集的3025小時視頻組成。

該項目匯集了88名研究人員，將這一數(shù)據(jù)集的規(guī)模大幅增加了一個數(shù)量級，比任何其他項目都大20多倍，并且即將在11月底開放下載。

讓AI也體驗「第一人稱視角」

就拿過山車來說吧，你在上面體驗著腎上腺素飆升的快感。而下面的人則是看得一臉懵比。

人工智能，就更懵了……如果把CV系統(tǒng)綁在過山車上，它估計完全不知道自己該看些什么。即便在地面上從旁觀者的角度看了幾十萬張過山車的圖片或視頻，也是如此。

AI在第一人稱視角把自行車上的部件識別為「紅綠燈」

Facebook首席研究科學(xué)家Kristen Grauman表示：「為了使人工智能系統(tǒng)能夠像我們一樣與世界互動，人工智能領(lǐng)域需要發(fā)展到一種全新的第一人稱感知范式。這意味著教人工智能在實時運動、互動和多感官觀察的背景下，通過人類的眼睛理解日常生活活動。」

于是，F(xiàn)acebook AI在「Ego4D」中開放了五個以第一人稱視覺體驗為中心的基準挑戰(zhàn)。

哎，你看到我的手機了嗎？我又找不著我的手機了！

很熟悉，對吧？

Ego4D希望解決的第一個問題是情景記憶（Episodic memory）。

以第一人稱視覺為中心的視頻記錄了相機佩戴者的日常生活，如果用這些視頻去訓(xùn)練AI，AI就能學(xué)會通過檢索過去以第一人稱視覺為中心的視頻中的關(guān)鍵時刻來擴展你的個人記憶。

你可能會問人工智能各種自由形式的問題，比如：視覺查詢「我把我孩子最喜歡的泰迪熊放在哪里了？」、文本查詢「我加了多少杯糖」，以及事件查詢「我什么時候和狗玩的」。

為此，模型必須能響應(yīng)你的提問，并在過去的視頻幀中定位，進一步提供記憶中的三維空間方向，時間，事件細節(jié)等信息。

壞了，接下來我要做什么來著？

Ego4D要解決的第二個問題便是預(yù)測（Forecasting）：下一步我要做什么？

人工智能可以理解佩戴者的行為會如何影響這個人未來的狀態(tài)，比如這個人可能會移動到哪里，他們可能會觸摸什么物體，或者他們接下來可能會從事什么活動。

預(yù)測行動不僅需要認識到已經(jīng)發(fā)生的事情，還需要展望未來，預(yù)測下一步行動。這樣AI系統(tǒng)就可以在當下提供有用的指導(dǎo)。

比方說，就在你準備端著鍋里的湯就走的時候，你的人工智能助手會趕緊通知你，「等等，你沒加鹽咋吃啊？」

我在做什么，該怎么做？

手-物之間的互動（Hand and object manipulation）也是難點之一，因為AI需要理解我在做什么，該怎么做？

學(xué)習(xí)手如何與物體互動對于AI指導(dǎo)我們的日常生活至關(guān)重要。AI必須檢測第一人稱的人-物交互，識別抓取，并檢測物體狀態(tài)變化。這時，AI機器人可以總結(jié)視頻中觀察到的人類經(jīng)驗，獲得自己的經(jīng)驗。

因此，當你在烹飪一份食譜時，人工智能助手可以指導(dǎo)你需要哪些配料，需要先做什么，了解你已經(jīng)做了什么，指導(dǎo)你度過每一個「大腦宕機」的時刻。

剛剛他說了什么，他什么時候說的？

人類可以用聲音來理解世界，未來的人工智能也要學(xué)會這種視聽記錄（Audio-visual diarization）。

如果你正在上一堂重要的課，但因為爸媽給你發(fā)短信而分了心，你可以問AI：「教授把我們的試卷收上去之后，說明天要講什么」？

我正在與誰互動，如何互動？

社會互動（Social interaction）是Ego4D所盼望的最后一個方向。

[[429189]]

除了識別視覺和聲音提示，理解社交互動是智能人工智能助手的核心。一個社交智能人工智能會理解誰在和誰說話，誰在關(guān)注誰。

所以，下次你參加晚宴時，即使再嘈雜，AI助手可以幫助你專注于桌子對面和你說話的人在說什么。

以上這些基準挑戰(zhàn)都是以第一人稱視覺為中心的人工智能的基本構(gòu)建模塊，這將讓AI不僅可以在現(xiàn)實世界中理解和互動，還可以在元宇宙中進行理解和互動，構(gòu)成更有用的人工智能助手和其他未來創(chuàng)新的基礎(chǔ)。

一個又大又干凈的數(shù)據(jù)集

基準和數(shù)據(jù)集在歷史上被證明是人工智能行業(yè)創(chuàng)新的關(guān)鍵催化劑。畢竟，今天的CV系統(tǒng)可以識別圖像中的幾乎任何物體，是建立在數(shù)據(jù)集和基準之上的，例如MNIST、COCO和ImageNet，它們?yōu)檠芯咳藛T提供了研究真實世界圖像的測試平臺。

但是以自我為中心的感知是一個全新的領(lǐng)域。我們不可能用昨天的工具來構(gòu)建明天的創(chuàng)新。Ego4D的空前規(guī)模和多樣性對于迎來下一代智能人工智能系統(tǒng)至關(guān)重要。

Ego4D數(shù)據(jù)集的地理覆蓋面、場景、參與者和捕獲模式都各不相同。數(shù)據(jù)也是使用多種不同的現(xiàn)成頭戴式攝像機捕獲的，如GoPro、Vuzix Blade等等。

除了視頻之外，Ego4D的部分功能還提供其他數(shù)據(jù)形式：3D掃描立體圖、音頻、多個同步可穿戴攝像頭等等。

Ego4D數(shù)據(jù)集的貢獻者也來自很多所大學(xué)，包括大家熟知的卡內(nèi)基梅隆大學(xué)，佐治亞理工學(xué)院，東京大學(xué)和新加坡國立大學(xué)等。

參與者錄制需要錄制大約8分鐘的日常場景片段，如買菜、做飯、玩游戲時的交談以及與家人和朋友進行的集體活動。

Ego4D捕捉到了佩戴攝像機的人在特定環(huán)境中選擇注視的地方，他們用手（和他們面前的物體）做了什么，以及他們?nèi)绾螐牡谝蝗朔Q視角與其他人互動。它們當中的一些鏡頭還可以與3D掃描、慣性測量單元的運動數(shù)據(jù)和眼球追蹤相搭配。

下一步是什么？

Facebook AI試圖通過Ego4D項目打造一條全新的道路，以構(gòu)建更智能、更具交互性和靈活性的計算機視覺系統(tǒng)。

隨著人工智能對人們正常生活方式有了更深入的理解，它可以開始以前所未有的方式對交互體驗進行情境化和個性化。

Grauman表示：「Ego4D使人工智能有可能獲得根植于物理和社會世界的知識，這些知識是通過生活在其中的人的第一人稱視角收集的?！?/p>

「由此開始，人工智能不僅會更好地了解周圍的世界，有一天它可能還會實現(xiàn)個性化——它能知道你最喜歡的咖啡杯，或者為你的下一次家庭旅行指引路線?！?/p>

有了Ego4D的基準支持，配合上在全新數(shù)據(jù)集中的訓(xùn)練，AI助手有可能以非常獨特和有意義的方式提供很多的價值，比如，幫助回憶起最近與同事交談中的關(guān)鍵信息，或者指導(dǎo)制作新的晚餐食譜。

Facebook表示，從這一系列工作中獲得的價值將推動我們走向未來的「現(xiàn)實」。

對此，瑪麗皇后大學(xué)的人工智能研究員Mike Cook認為，「從積極的角度來說，至少就目前而言，這是一個非常棒的大型數(shù)據(jù)集?！?/p>

「不過，這實際上并沒有解決人工智能中的一個緊迫挑戰(zhàn)或問題......除非你是一家想要銷售可穿戴相機的科技公司。它確實告訴你更多關(guān)于Facebook的未來計劃，但是......他們向它注入資金并不意味著它一定會變得重要?！?/p>

責任編輯：張燕妮來源：新智元

AI 數(shù)據(jù)人工智能

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI即將擁有自我意識？Facebook推「Ego4D 」開啟元宇宙大門

「Ego4D」計劃

讓AI也體驗「第一人稱視角」

哎，你看到我的手機了嗎？我又找不著我的手機了！

壞了，接下來我要做什么來著？

我在做什么，該怎么做？

剛剛他說了什么，他什么時候說的？

我正在與誰互動，如何互動？