自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛團(tuán)隊創(chuàng)建深度學(xué)習(xí)「游樂場」:AI也在自我進(jìn)化,細(xì)思極恐

新聞 人工智能
近日,斯坦福李飛飛教授等人的研究「深度進(jìn)化強化學(xué)習(xí)」登上nature子刊,首次證明了「鮑德溫效應(yīng)」?;蛟S,機器人形態(tài)的設(shè)計也可以通過一波「進(jìn)化」來搞定?

 [[427578]]

動物的智慧是在和環(huán)境互動的過程中與身體形態(tài)同步進(jìn)化的。

例如,倉鼠通過「進(jìn)化」出長了好多腿的倉鼠球來逃避貓的追捕(doge)。

李飛飛團(tuán)隊創(chuàng)建深度學(xué)習(xí)「游樂場」:AI也在自我進(jìn)化,細(xì)思極恐

好吧,言歸正傳,AI也相當(dāng)聰明,但與動物不同的是,AI通常是在硅基的芯片上實現(xiàn)的,并沒有實體。

那么,如果給AI一個「身體」,這對于智能的進(jìn)化是否重要?如果是的話,又該如何利用來創(chuàng)造更聰明的人工智能?

在李飛飛的帶領(lǐng)下,斯坦福大學(xué)的研究小組創(chuàng)建了一個計算機模擬的「游樂場」——DERL(深度進(jìn)化強化學(xué)習(xí)),其中被稱為「Unimals」(通用動物)的智能體在經(jīng)歷不斷變異和自然選擇。論文刊登在《自然通訊》雜志上。

李飛飛團(tuán)隊創(chuàng)建深度學(xué)習(xí)「游樂場」:AI也在自我進(jìn)化,細(xì)思極恐

https://www.nature.com/articles/s41467-021-25874-z

研究結(jié)果顯示,虛擬生物的身體形狀影響了它們學(xué)習(xí)新任務(wù)的能力,在更具挑戰(zhàn)性的環(huán)境中學(xué)習(xí)和進(jìn)化的形態(tài),或者在執(zhí)行更復(fù)雜的任務(wù)時,比那些在更簡單的環(huán)境中學(xué)習(xí)和進(jìn)化的形態(tài)學(xué)習(xí)進(jìn)化得更快、更好。

在這項研究中,具有最成功的形態(tài)的Unimal也比前幾代更快地掌握了任務(wù),盡管它們最初的基線智力水平與前代相同。也就是說,「具身化」是智能進(jìn)化的關(guān)鍵。

「我們通常專注于AI是如何實現(xiàn)人類大腦中神經(jīng)元的功能,」研究小組成員、斯坦福大學(xué)HAI的聯(lián)合主任李飛飛表示,「然而將AI看作是具有物理實體的東西是一種完全不同的范式?!?/p>

研究報告的共同作者、人文與科學(xué)學(xué)院應(yīng)用物理學(xué)副教授、HAI副主任Surya Ganguli說:「據(jù)我們所知,這是第一次相關(guān)的模擬實驗,其結(jié)果表明可以通過改變形態(tài)來加快學(xué)習(xí)的速度?!?/p>

「Unimal」宇宙

團(tuán)隊設(shè)置了一個虛擬空間,并將簡單的模擬生物放入其中。當(dāng)然,這些生物只是一些通過「隨機方式」進(jìn)行移動的「幾何圖形」(Unimal)。

在學(xué)習(xí)階段中,有平坦的地形,有更具挑戰(zhàn)性的地形,包括塊狀山脊、階梯和光滑的山丘。Unimal必須在多變的地形上將一個塊狀物移動到目標(biāo)位置。

訓(xùn)練結(jié)束后,每個Unimal與其他三個在相同環(huán)境/任務(wù)組合中訓(xùn)練過的Unimal進(jìn)行比賽。勝者將產(chǎn)生一個單一的后代,該后代在面對與父母相同的任務(wù)之前,經(jīng)歷了一次涉及肢體或關(guān)節(jié)變化的突變。

最終,在訓(xùn)練了4000種不同的形態(tài)后,團(tuán)隊結(jié)束了模擬。此時,幸存的Unimal平均經(jīng)歷了10代的進(jìn)化,其形態(tài)令人驚訝地多樣化,包括兩足動物、三足動物以及有手臂和無手臂的四足動物。

而最初,「幾乎圖形」只有一個「腦袋」和發(fā)達(dá)的「四肢」,他們有許多奇形怪狀的姿勢,「有些人蹣跚前行,有些如蜥蜴般的行走姿勢。其他人揮舞著十分逗趣的行為風(fēng)格,讓人聯(lián)想到「八爪魚」。

[[427581]]

咦?看起來似乎與舊實驗沒區(qū)別,別急,進(jìn)化才剛剛開始。

這些Unimal生長在不同的星球中,星球中充滿了「起伏的山丘」和「低矮的障礙物」,他們在更加激烈的環(huán)境中展開競爭??纯词欠袢绱蠹宜f,「逆境是成功之母」。

每個環(huán)境中的前 10 名Unimal被安排在了新任務(wù)中,從「新障礙」到將球移動到目標(biāo)位置、將盒子推上山或在兩點之間巡邏。這些「角斗士」真正展示了他們的虛擬勇氣。

最終,那些能在「復(fù)雜的地形中」行走的 Unimal 比在「平地上的表親」更快地學(xué)習(xí)新任務(wù),并且完成的更好。

換句話說,它們通過「生存」而「進(jìn)化」,但并不是「邊做邊學(xué)」。而是在復(fù)雜的環(huán)境中同時進(jìn)行「進(jìn)化」和「學(xué)習(xí)」,比如有臺階、丘陵、山脊和移動的地形,以便在這些復(fù)雜環(huán)境中進(jìn)行操作。

在平坦的地形上,「章魚flop」可能會以相同的時間到達(dá)終點線,但「適應(yīng)山丘和山脊的身體配置」往往是更快速、更穩(wěn)定和能力最強的。他們多才多藝的身體能夠更好的利用他們的經(jīng)驗教訓(xùn) - 很快他們就將競爭對手拋在了腦后。

都交給「進(jìn)化」去做吧

李飛飛團(tuán)隊創(chuàng)建深度學(xué)習(xí)「游樂場」:AI也在自我進(jìn)化,細(xì)思極恐

通用計算框架DERL利用兩個相互作用的適應(yīng)過程來制造具身的智能體

進(jìn)化的外循環(huán)通過變異操作優(yōu)化智能體的形態(tài)(b),內(nèi)部強化學(xué)習(xí)循環(huán)優(yōu)化了神經(jīng)控制器的參數(shù)(c)。在可變地形的操縱中,智能體必須從初始位置(綠色球體)開始,將一個盒子移動到目標(biāo)位置(紅色方塊)。

在每個環(huán)境完成三次進(jìn)化運行后(每次有4000種形態(tài)),團(tuán)隊從每個環(huán)境中挑選出表現(xiàn)最好的10個Unimal,并從頭開始訓(xùn)練它們完成8項全新的任務(wù),如繞過障礙物、操縱一個球或?qū)⒁粋€箱子推上斜坡。

最成功的Unimal在個體(通過較少的訓(xùn)練獲得更好的表現(xiàn))和跨代的學(xué)習(xí)方面也更快。團(tuán)隊發(fā)現(xiàn),在早期祖先生命后期習(xí)得的行為能夠在他們的后代生命早期表達(dá)出來。

此外,在10代之后,最成功的Unimal形態(tài)在學(xué)習(xí)同一任務(wù)的時間是其最早祖先的一半。

這也驗證了美國心理學(xué)家James Mark Baldwin在19世紀(jì)末提出的假設(shè):「學(xué)習(xí)具有適應(yīng)性優(yōu)勢的事物的能力」可以通過達(dá)爾文的自然選擇來傳承。

人類不一定知道如何為奇怪的任務(wù)設(shè)計機器人的身體,例如爬過核反應(yīng)堆提取廢物,在地震后提供救災(zāi),引導(dǎo)納米機器人穿過人體,甚至做洗碗或疊衣服等家務(wù)。

或許,設(shè)計這些機器人的唯一出路就是交給「進(jìn)化」去實現(xiàn)。

 

責(zé)任編輯:張燕妮 來源: 新智元
點贊
收藏

51CTO技術(shù)棧公眾號