自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="3wfkf"><menuitem id="3wfkf"></menuitem></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

作者：機(jī)器之心 2022-06-29 14:49:43

人工智能新聞

在前段時(shí)間的一篇文章中，李飛飛指出了計(jì)算機(jī)視覺未來的幾個(gè)重要方向，其中最重要的一個(gè)就是具身智能。她認(rèn)為，具身智能將成為 AI 領(lǐng)域的下一個(gè)「北極星問題」之一。那么，具身智能是什么？為什么如此重要？現(xiàn)在發(fā)展到什么程度了？這篇文章進(jìn)行了詳細(xì)分析。

2009 年，當(dāng)時(shí)在普林斯頓大學(xué)工作的計(jì)算機(jī)科學(xué)家李飛飛主導(dǎo)構(gòu)建了一個(gè)改變?nèi)斯ぶ悄軞v史的數(shù)據(jù)集——ImageNet。它包含了數(shù)百萬張有標(biāo)簽的圖像，可以用來訓(xùn)練復(fù)雜的機(jī)器學(xué)習(xí)模型，以識(shí)別圖像中的物體。

2015 年，機(jī)器的識(shí)別能力超過了人類。李飛飛也在不久之后轉(zhuǎn)向了新的目標(biāo)，去尋找她所說的另一顆「北極星」（此處的「北極星」指的是研究人員所專注于解決的關(guān)鍵科學(xué)問題，這個(gè)問題可以激發(fā)他們的研究熱情并取得突破性的進(jìn)展）。

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

她通過回溯 5.3 億年前的寒武紀(jì)生命大爆發(fā)找到了靈感，當(dāng)時(shí)，許多陸生動(dòng)物物種首次出現(xiàn)。一個(gè)有影響力的理論認(rèn)為，新物種的爆發(fā)部分是由眼睛的出現(xiàn)所驅(qū)動(dòng)的，這些眼睛讓生物第一次看到周圍的世界。李飛飛認(rèn)為，動(dòng)物的視覺不會(huì)孤零零地產(chǎn)生，而是「深深地嵌在一個(gè)整體中，這個(gè)整體需要在快速變化的環(huán)境中移動(dòng)、導(dǎo)航、生存、操縱和改變，」她說道，「所以我就很自然地轉(zhuǎn)向了一個(gè)更加活躍的 AI 領(lǐng)域。」

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

如今，李飛飛的工作重點(diǎn)集中在 AI 智能體上，這種智能體不僅能接收來自數(shù)據(jù)集的靜態(tài)圖像，還能在三維虛擬世界的模擬環(huán)境中四處移動(dòng)，并與周圍環(huán)境交互。

這是一個(gè)被稱為「具身 AI」的新領(lǐng)域的廣泛目標(biāo)。它與機(jī)器人技術(shù)有所重疊，因?yàn)闄C(jī)器人可以看作是現(xiàn)實(shí)世界中具身 AI 智能體和強(qiáng)化學(xué)習(xí)的物理等價(jià)物。李飛飛等人認(rèn)為，具身 AI 可能會(huì)給我們帶來一次重大的轉(zhuǎn)變，從識(shí)別圖像等機(jī)器學(xué)習(xí)的簡(jiǎn)單能力，轉(zhuǎn)變到學(xué)習(xí)如何通過多個(gè)步驟執(zhí)行復(fù)雜的類人任務(wù)，如制作煎蛋卷。

今天，具身 AI 的工作包括任何可以探測(cè)和改變自身環(huán)境的智能體。在機(jī)器人技術(shù)中，AI 智能體總是生活在機(jī)器人身體中，而真實(shí)模擬中的智能體可能有一個(gè)虛擬的身體，或者可能通過一個(gè)移動(dòng)的相機(jī)機(jī)位來感知世界，而且還能與周圍環(huán)境交互?！妇呱淼暮x不是身體本身，而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能，」李飛飛解釋說。

這種交互性為智能體提供了一種全新的——在許多情況下是更好的——了解世界的方式。這就相當(dāng)于，之前你只是觀察兩個(gè)物體之間可能的關(guān)系，而現(xiàn)在，你可以親自實(shí)驗(yàn)并讓這種關(guān)系發(fā)生。有了這種新的理解，想法就會(huì)付諸實(shí)踐，更大的智慧也會(huì)隨之而來。隨著一套新的虛擬世界的建立和運(yùn)行，具身 AI 智能體已經(jīng)開始發(fā)揮這種潛力，在他們的新環(huán)境中取得了重大進(jìn)展。

「現(xiàn)在，我們沒有任何證據(jù)證明存在不通過與世界互動(dòng)來學(xué)習(xí)的智能，」德國(guó)奧斯訥布呂克大學(xué)的具身 AI 研究者 Viviane Clay 說。

走向完美模擬

雖然研究人員早就想為 AI 智能體創(chuàng)造真實(shí)的虛擬世界來探索，但真正創(chuàng)建的時(shí)間才只有五年左右。這種能力來自于電影和視頻游戲行業(yè)對(duì)圖像的改進(jìn)。2017 年，AI 智能體可以像在家里一樣逼真地描繪室內(nèi)空間——雖然是虛擬的，但卻是字面上的「家」。艾倫人工智能研究所的計(jì)算機(jī)科學(xué)家構(gòu)建了一個(gè)名為 AI2-Thor 的模擬器，讓智能體在自然的廚房、浴室、客廳和臥室中隨意走動(dòng)。智能體可以學(xué)習(xí)三維視圖，這些視圖會(huì)隨著他們的移動(dòng)而改變，當(dāng)他們決定近距離觀察時(shí)，模擬器會(huì)顯示新的角度。

這種新世界也給了智能體一個(gè)機(jī)會(huì)去思考一個(gè)新維度「時(shí)間」中的變化。西蒙弗雷澤大學(xué)的計(jì)算機(jī)圖形學(xué)研究員 Manolis savva 說，「這是一個(gè)很大的變化。在具身 AI 設(shè)定中，你有這些時(shí)間上的連貫信息流，你可以控制它。」

這些模擬的世界現(xiàn)在已經(jīng)足夠好，可以訓(xùn)練智能體完成全新的任務(wù)。它們不僅可以識(shí)別一個(gè)物體，還可以與它互動(dòng)，撿起它并在它周圍導(dǎo)航。這些看似很小的步驟對(duì)任何智能體來說都是理解其環(huán)境的必要步驟。2020 年，虛擬智能體擁有了視覺以外的能力，可以聽到虛擬事物發(fā)出的聲音，這為其了解物體及其在世界上的運(yùn)行方式提供了一種新的視角。

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

可以在虛擬世界（ManipulaTHOR environment）中運(yùn)行的具身 AI 智能體以不同的方式學(xué)習(xí)，可能更適合更復(fù)雜的、類人的任務(wù)。

不過，模擬器也有自己的局限?！讣词棺詈玫哪M器也遠(yuǎn)不如現(xiàn)實(shí)世界真實(shí)，」斯坦福大學(xué)計(jì)算機(jī)科學(xué)家 Daniel Yamins 說。Yamins 與麻省理工學(xué)院和 IBM 的同事共同開發(fā)了 ThreeDWorld，該項(xiàng)目重點(diǎn)關(guān)注在虛擬世界中模擬現(xiàn)實(shí)生活中的物理現(xiàn)象，如液體的行為以及一些物體如何在一個(gè)區(qū)域是剛性的，而在另一個(gè)區(qū)域又是柔性的。

這是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)，需要讓 AI 以新的方式去學(xué)習(xí)。

與神經(jīng)網(wǎng)絡(luò)進(jìn)行比較

到目前為止，衡量具身 AI 進(jìn)展的一種簡(jiǎn)單方法是：將具身智能體的表現(xiàn)與在更簡(jiǎn)單的靜態(tài)圖像任務(wù)上訓(xùn)練的算法進(jìn)行比較。研究人員指出，這些比較并不完美，但早期結(jié)果確實(shí)表明，具身 AI 的學(xué)習(xí)方式不同于它們的前輩，有時(shí)候比它們的前輩學(xué)得還好。

在最近的一篇論文（《Interactron: Embodied Adaptive Object Detection》）中，研究人員發(fā)現(xiàn)，一個(gè)具身 AI 智能體在檢測(cè)特定物體方面更準(zhǔn)確，比傳統(tǒng)方法提高了近 12%。該研究的合著者、艾倫人工智能研究所計(jì)算機(jī)科學(xué)家 Roozbeh Mottaghi 表示，「目標(biāo)檢測(cè)領(lǐng)域花了三年多的時(shí)間才實(shí)現(xiàn)這種水平的改進(jìn)。而我們僅通過與世界的交互就取得了很大的進(jìn)步。」

其他論文已經(jīng)表明，當(dāng)你把目標(biāo)檢測(cè)算法做成具身 AI 的形式，并讓它們探索一次虛擬空間或者隨處走動(dòng)收集對(duì)象的多視圖信息時(shí)，該算法會(huì)取得進(jìn)步。

研究人員還發(fā)現(xiàn)，具身算法和傳統(tǒng)算法的學(xué)習(xí)方式完全不同。要想證明這一點(diǎn)，可以想想神經(jīng)網(wǎng)絡(luò)，它是每個(gè)具身算法和許多非具身算法學(xué)習(xí)能力背后的基本成分。神經(jīng)網(wǎng)絡(luò)由許多層的人工神經(jīng)元節(jié)點(diǎn)連接而成，它松散地模仿人類大腦中的網(wǎng)絡(luò)。在兩篇獨(dú)立的論文中，研究人員發(fā)現(xiàn)，在具身智能體的神經(jīng)網(wǎng)絡(luò)中，對(duì)視覺信息作出反應(yīng)的神經(jīng)元較少，這意味著每個(gè)單獨(dú)的神經(jīng)元在作出反應(yīng)時(shí)更有選擇性。非具身網(wǎng)絡(luò)的效率要低得多，需要更多的神經(jīng)元在大部分時(shí)間保持活躍。其中一個(gè)研究小組（由即將任紐約大學(xué)教授的 Grace Lindsay 領(lǐng)導(dǎo)）甚至將具身和非具身的神經(jīng)網(wǎng)絡(luò)與活體大腦中的神經(jīng)元活動(dòng)（老鼠的視覺皮層）進(jìn)行了比較，發(fā)現(xiàn)具身的神經(jīng)網(wǎng)路最接近活體。

Lindsay 很快指出，這并不一定意味著具身化的版本更好，它們只是不同。與物體檢測(cè)論文不同的是，Lindsay 等人的研究比較了相同神經(jīng)網(wǎng)絡(luò)的潛在差異，讓智能體完成了完全不同的任務(wù)，因此他們可能需要工作方式不同的神經(jīng)網(wǎng)絡(luò)來完成他們的目標(biāo)。

雖然將具身神經(jīng)網(wǎng)絡(luò)與非具身神經(jīng)網(wǎng)絡(luò)相比是一種衡量改進(jìn)的方法，但研究人員真正想做的并不是在現(xiàn)有的任務(wù)上提升具身智能體的性能，他們的真正目標(biāo)是學(xué)習(xí)更復(fù)雜、更像人類的任務(wù)。這是最令研究人員興奮的地方，他們看到了令人印象深刻的進(jìn)展，尤其是在導(dǎo)航任務(wù)方面。在這些任務(wù)中，智能體必須記住其目的地的長(zhǎng)期目標(biāo)，同時(shí)制定一個(gè)到達(dá)目的地的計(jì)劃，而不會(huì)迷路或撞到物體。

在短短幾年的時(shí)間里，Meta AI 的一位研究主管、佐治亞理工學(xué)院計(jì)算機(jī)科學(xué)家 Dhruv Batra 領(lǐng)導(dǎo)的團(tuán)隊(duì)在一種被稱為「point-goal navigation」的特定導(dǎo)航任務(wù)上取得了很大進(jìn)展。在這項(xiàng)任務(wù)中，智能體被放在一個(gè)全新的環(huán)境中，它必須在沒有地圖的情況下走到某個(gè)坐標(biāo)（比如「Go to the point that is 5 meters north and 10 meters east」）。

Batra 介紹說，他們?cè)谝粋€(gè)名叫「AI Habitat」的 Meta 虛擬世界中訓(xùn)練智能體，并給了它一個(gè) GPS 和一個(gè)指南針，結(jié)果發(fā)現(xiàn)它可以在標(biāo)準(zhǔn)數(shù)據(jù)集上獲得 99.9% 以上的準(zhǔn)確率。最近，他們又成功地將結(jié)果擴(kuò)展到一個(gè)更困難、更現(xiàn)實(shí)的場(chǎng)景——沒有指南針和 GPS。結(jié)果，智能體僅借助移動(dòng)時(shí)看到的像素流來估計(jì)自身位置就實(shí)現(xiàn)了 94% 的準(zhǔn)確率。

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

Meta AI Dhruv Batra 團(tuán)隊(duì)創(chuàng)造的「AI Habitat」虛擬世界。他們希望提高模擬的速度，直到具身 AI 可以在僅僅 20 分鐘的掛鐘時(shí)間內(nèi)達(dá)到 20 年的模擬經(jīng)驗(yàn)。

Mottaghi 說，「這是一個(gè)了不起的進(jìn)步，但并不意味著徹底解決了導(dǎo)航問題。因?yàn)樵S多其他類型的導(dǎo)航任務(wù)需要使用更復(fù)雜的語言指令，比如「經(jīng)過廚房去拿臥室床頭柜上的眼鏡」，其準(zhǔn)確率仍然只有 30% 到 40% 左右。

但導(dǎo)航仍然是具身 AI 中最簡(jiǎn)單的任務(wù)之一，因?yàn)橹悄荏w在環(huán)境中移動(dòng)時(shí)不需要操作任何東西。到目前為止，具身 AI 智能體還遠(yuǎn)遠(yuǎn)沒有掌握任何與對(duì)象相關(guān)的任務(wù)。部分挑戰(zhàn)在于，當(dāng)智能體與新對(duì)象交互時(shí)，它可能會(huì)出現(xiàn)很多錯(cuò)誤，而且錯(cuò)誤可能會(huì)堆積起來。目前，大多數(shù)研究人員通過選擇只有幾個(gè)步驟的任務(wù)來解決這個(gè)問題，但大多數(shù)類人活動(dòng)，如烘焙或洗碗，需要對(duì)多個(gè)物體進(jìn)行長(zhǎng)序列的動(dòng)作。要實(shí)現(xiàn)這一目標(biāo)，AI 智能體將需要更大的進(jìn)步。

在這方面，李飛飛可能再次走在了前沿，她的團(tuán)隊(duì)開發(fā)了一個(gè)模擬數(shù)據(jù)集——BEHAVIOR，希望能像她的 ImageNet 項(xiàng)目為目標(biāo)識(shí)別所做的那樣，為具身 AI 作出貢獻(xiàn)。

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

這個(gè)數(shù)據(jù)集包含 100 多項(xiàng)人類活動(dòng)，供智能體去完成，測(cè)試可以在任何虛擬環(huán)境中完成。通過創(chuàng)建指標(biāo)，將執(zhí)行這些任務(wù)的智能體與人類執(zhí)行相同任務(wù)的真實(shí)視頻進(jìn)行比較，李飛飛團(tuán)隊(duì)的新數(shù)據(jù)集將允許社區(qū)更好地評(píng)估虛擬 AI 智能體的進(jìn)展。

一旦智能體成功完成了這些復(fù)雜的任務(wù)，李飛飛認(rèn)為，模擬的目的就是為最終的可操作空間——真實(shí)世界——進(jìn)行訓(xùn)練。

「在我看來，模擬是機(jī)器人研究中最重要、最令人興奮的領(lǐng)域之一?！估铒w飛說到。

機(jī)器人研究新前沿

機(jī)器人本質(zhì)上是具身智能體。它們寄居在現(xiàn)實(shí)世界的某種物理身體內(nèi)，代表了最極端的具身 AI 智能體形式。但許多研究人員發(fā)現(xiàn)，即使是這類智能體也能從虛擬世界的訓(xùn)練中受益。

Mottaghi 說，機(jī)器人技術(shù)中最先進(jìn)的算法，如強(qiáng)化學(xué)習(xí)等，通常需要數(shù)百萬次迭代來學(xué)習(xí)有意義的東西。因此，訓(xùn)練真實(shí)機(jī)器人完成艱巨任務(wù)可能需要數(shù)年時(shí)間。

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

機(jī)器人可以在現(xiàn)實(shí)世界中不確定的地形中導(dǎo)航。新的研究表明，虛擬環(huán)境中的訓(xùn)練可以幫助機(jī)器人掌握這些技能以及其他技能。

但如果先在虛擬世界中訓(xùn)練它們，速度就要快得多。數(shù)千個(gè)智能體可以在數(shù)千個(gè)不同的房間中同時(shí)訓(xùn)練。此外，虛擬訓(xùn)練對(duì)機(jī)器人和人來說都更安全。

2018 年，OpenAI 的研究人員證明了：智能體在虛擬世界中學(xué)到的技能可以遷移到現(xiàn)實(shí)世界，因此很多機(jī)器人專家開始更加重視模擬器。他們訓(xùn)練一只機(jī)械手去操作一個(gè)只在模擬中見過的立方體。最新的研究成果還包括讓無人機(jī)學(xué)會(huì)在空中避免碰撞，將自動(dòng)駕駛汽車部署在兩個(gè)不同大陸的城市環(huán)境中，以及讓四條腿的機(jī)器狗在瑞士阿爾卑斯山完成一小時(shí)的徒步旅行（和人類所花的時(shí)間一樣）。

未來，研究人員還可能通過虛擬現(xiàn)實(shí)頭顯將人類送入虛擬空間，從而縮小模擬和現(xiàn)實(shí)世界之間的差距。英偉達(dá)機(jī)器人研究高級(jí)主管、華盛頓大學(xué)教授 Dieter Fox 指出，機(jī)器人研究的一個(gè)關(guān)鍵目標(biāo)是構(gòu)建在現(xiàn)實(shí)世界中對(duì)人類有幫助的機(jī)器人。但要做到這一點(diǎn)，它們必須首先接觸并學(xué)習(xí)如何與人類交互。

Fox 說，利用虛擬現(xiàn)實(shí)技術(shù)讓人類進(jìn)入這些模擬環(huán)境，然后讓他們做出演示、與機(jī)器人交互，這將是一種非常強(qiáng)大的方法。

無論身處模擬還是現(xiàn)實(shí)世界，具身 AI 智能體都在學(xué)習(xí)如何更像人，完成的任務(wù)更像人類的任務(wù)。這個(gè)領(lǐng)域在各個(gè)方面都在進(jìn)步，包括新的世界、新的任務(wù)和新的學(xué)習(xí)算法。

「我看到了深度學(xué)習(xí)、機(jī)器人學(xué)習(xí)、視覺甚至語言的融合，」李飛飛說，「現(xiàn)在我認(rèn)為，通過這個(gè)面向具身 AI 的『登月計(jì)劃』或『北極星』，我們將學(xué)習(xí)智能的基礎(chǔ)技術(shù)，這可以真正帶來重大突破?！?/p>

李飛飛劃重點(diǎn)的「具身智能」，走到哪一步了？

李飛飛探討計(jì)算機(jī)視覺「北極星」問題的文章。鏈接：https://www.amacad.org/publication/searching-computer-vision-north-stars

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

計(jì)算機(jī)視覺智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)