自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI智能體學(xué)會動物進化法則:李飛飛等提出深度進化RL

新聞 人工智能
近日,斯坦福李飛飛等學(xué)者提出了一種新的計算框架——深度進化強化學(xué)習(xí)(DERL), 基于該框架創(chuàng)建的具身智能體可以在多個復(fù)雜環(huán)境中執(zhí)行多項任務(wù)。此外,該研究還通過形態(tài)學(xué)習(xí)首次證明了演化生物學(xué)中的鮑德溫效應(yīng)。

  智能體是人工智能領(lǐng)域的一大研究課題,并且也有非具身與具身智能之分。當(dāng)前,AI 領(lǐng)域更多關(guān)注非具身認知,而創(chuàng)建具身智能體非常具有挑戰(zhàn)性。近日,斯坦福李飛飛等學(xué)者提出了一種新的計算框架——深度進化強化學(xué)習(xí)(DERL), 基于該框架創(chuàng)建的具身智能體可以在多個復(fù)雜環(huán)境中執(zhí)行多項任務(wù)。此外,該研究還通過形態(tài)學(xué)習(xí)首次證明了演化生物學(xué)中的鮑德溫效應(yīng)。

在過去 6 億年中,進化帶來了不同類型的「無盡之形最美」(endless forms most beautiful),從古老的兩側(cè)對稱蟲到多種多樣的動物形態(tài)。這些動物還展示出了顯著的具身智能(embodied intelligence),利用進化的形態(tài)學(xué)習(xí)復(fù)雜任務(wù)。具身認知領(lǐng)域認為,智能體可以快速學(xué)得這種智能行為,它們的形態(tài)也能很好地適應(yīng)環(huán)境。然而,AI 領(lǐng)域更多地關(guān)注「非具身認知」,如語言、視覺或游戲等。

當(dāng)人工具身智能體的形態(tài)能夠很好地適應(yīng)環(huán)境,則它們可以在多種復(fù)雜環(huán)境中學(xué)習(xí)控制任務(wù),然而創(chuàng)建這類智能體很有挑戰(zhàn)性,原因如下:

這需要在大量可能形態(tài)中進行搜索;

通過終身學(xué)習(xí)評估智能體適應(yīng)度需要大量計算時間。

因此,之前的研究要么在極度有限的形態(tài)搜索空間中進化智能體,要么在給出的固定人工設(shè)計形態(tài)下找出最優(yōu)參數(shù)。評估適應(yīng)度(fitness)的難度使得先前研究避免直接基于原始感官觀察學(xué)習(xí)自適應(yīng)控制器;使用少量參數(shù) (≤ 100) 學(xué)習(xí)人工設(shè)計控制器;學(xué)習(xí)預(yù)測一種形態(tài)的適應(yīng)度;模仿拉馬克進化(Lamarckian)而不是達爾文進化,直接跨代傳輸學(xué)得的信息。此外,之前研究主要局限于平地移動的簡單任務(wù),智能體具備的自由度 (DoF) 較少,或者形體構(gòu)型由立方體組成,將學(xué)習(xí)控制器這一問題進一步簡化。

如何克服這些局限呢?

近日,來自斯坦福大學(xué)的研究者 Agrim Gupta、Silvio Savarese、Surya Ganguli 和李飛飛提出了一種新型計算框架——深度進化強化學(xué)習(xí) (Deep Evolutionary Reinforcement Learning, DERL),該框架能夠在環(huán)境、形態(tài)和控制這三種復(fù)雜度維度下同時規(guī)模化創(chuàng)建具身智能體。

DERL 框架如下圖 1 所示

AI智能體學(xué)會動物進化法則:李飛飛等提出深度進化RL

DERL 為在計算機模擬實驗執(zhí)行大規(guī)模具身智能體創(chuàng)建活動打開了大門,這有助于獲得對學(xué)習(xí)和進化如何協(xié)作構(gòu)建環(huán)境復(fù)雜度、形態(tài)智能和控制任務(wù)易學(xué)性之間復(fù)雜關(guān)系的科學(xué)洞見。此外,DERL 還緩解了強化學(xué)習(xí)的樣本低效性,創(chuàng)建具身智能體不僅可以使用較少的數(shù)據(jù),還能夠泛化解決多種新任務(wù)。DERL 通過模仿達爾文進化論中錯綜復(fù)雜的跨代進化過程來搜索形態(tài)空間,通過終身神經(jīng)學(xué)習(xí)來評估給定形態(tài)通過智能控制解決復(fù)雜任務(wù)的速度和質(zhì)量。

論文作者之一、斯坦福大學(xué)教授李飛飛表示:「該研究不僅提出了新型計算框架深度進化強化學(xué)習(xí)(DERL),并通過形態(tài)學(xué)習(xí)首次證明了達爾文 - 鮑德溫效應(yīng)。形態(tài)學(xué)習(xí)是自然界動物進化必不可少的技能,現(xiàn)已在我們創(chuàng)建的 AI 智能體中展現(xiàn)?!?。

AI智能體學(xué)會動物進化法則:李飛飛等提出深度進化RL

論文地址:https://arxiv.org/pdf/2102.02202.pdf

具身智能體能執(zhí)行哪些任務(wù)?

本研究創(chuàng)建的具身智能體可以在平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT) 三種環(huán)境中執(zhí)行巡視(patrol)、點導(dǎo)航(point navigation)、避障(obstacle)、探索(exploration)、逃脫(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任務(wù)

以下三張動圖分別為具身智能體的避障(上)、斜坡推箱子(中)和控球(下)行為。

避障。

斜坡推箱子。

控球。

DERL:用于創(chuàng)建具身智能體的計算框架

對于學(xué)習(xí),每個智能體通過只接收低層次的自我本體感受和外部感受觀察來感知世界,并通過由深度神經(jīng)網(wǎng)絡(luò)參數(shù)確定的隨機策略來選擇其動作(上圖 1b),深度神經(jīng)網(wǎng)絡(luò)的參數(shù)通過近端策略優(yōu)化 (PPO) 學(xué)習(xí)得到。

總體來說,DERL 允許研究者在 1152 個 CPU 上進行大規(guī)模實驗,涉及平均 10 代的進化,搜索并訓(xùn)練了 4000 種形態(tài),每種形態(tài)有 500 萬次智能體 - 環(huán)境交互(即學(xué)習(xí)迭代)。該研究可以在并行異步(parallel asynchronous)比賽中訓(xùn)練 288 個形態(tài),因此在任意給定時刻,整個學(xué)習(xí)和進化過程可在 16 小時內(nèi)完成。據(jù)了解,這是迄今為止最大規(guī)模的形態(tài)進化和 RL 同步模擬

UNIMAL:UNIversal aniMAL 形態(tài)設(shè)計空間

為了克服以往形態(tài)搜索空間表達能力的限制,該研究引入了一個 UNIversal aniMAL(UNIMAL)設(shè)計空間(上圖 1e)。該研究的基因型(genotype )是一個運動樹,對應(yīng)于由電機驅(qū)動的鉸鏈連接的 3D 剛性部件的層次結(jié)構(gòu)。運動樹的節(jié)點由兩種組件類型構(gòu)成:表示智能體頭部的球體(構(gòu)成樹的根)和表示肢體的圓柱體。

進化通過三類變異算子進行無性繁殖:1)通過長出或刪除肢體來收縮或生長運動樹(上圖 1d);2)改變現(xiàn)有肢體的物理特性,如長度和密度(上圖 1d);3)修改四肢之間關(guān)節(jié)的屬性,包括自由度、旋轉(zhuǎn)角度限制以及齒輪比。

最重要的是,該研究只允許保持兩側(cè)對稱的成對變異,這是動物形體構(gòu)型在進化過程中最古老的特征(起源于 6 億年前)。一個關(guān)鍵的物理結(jié)果是,每個智能體的質(zhì)心都位于矢狀面,從而減少了學(xué)習(xí)左右平衡所需要的控制程度。盡管有這一限制,但該研究提出的形態(tài)設(shè)計空間極具表達力,包含大約 1018 種獨特的智能體形態(tài),至少有 10 個肢體。

智能體「變形記」:在復(fù)雜環(huán)境中進化出不同的形態(tài)

該研究稱,DERL 使智能體首次超出了平地移動任務(wù),在 3 種環(huán)境中同時進化多種智能體形態(tài)和學(xué)習(xí)控制器,且 3 種環(huán)境的難度是逐步增加的:平地 (FT)、多變地形 (VT) 和多變地形中的非抓握操作 (MVT)。DERL 能夠為這 3 種環(huán)境找出成功的形態(tài)解。

首先智能體在 FT 環(huán)境中移動:

其次智能體在地勢高低不平的 VT 環(huán)境中移動:

[[381233]]

最后智能體在 MVT 環(huán)境中移動并推動箱子:

[[381234]]

研究者分析了不同形態(tài)描述子在這 3 種環(huán)境中的變化(參見下圖 3),發(fā)現(xiàn)環(huán)境對形態(tài)進化有極大影響。

當(dāng)在所有環(huán)境中進化的智能體具備類似的質(zhì)量和控制復(fù)雜度時,VT/MVT 智能體比 FT 智能體在前進方向上移動時間較長,在高度方向上移動時間較短,而 FT 智能體所占的空間小于 VT/MVT。FT 智能體占據(jù)空間較少的屬性反映了一個常見策略:在身體上間隔較遠地安裝肢體,使之具備完整的運動范圍(參見下圖 2i、7a、8a)。FT 智能體展示出向前倒的移動步態(tài)和蜥蜴樣的移動方式(下圖 2i),VT 智能體與 FT 較為相似,但它具備額外的機制,使步態(tài)更穩(wěn)。最后,MVT 智能體發(fā)展出類似鉗或爪的前伸手臂,從而完成將箱子推到目標(biāo)位置的任務(wù)。

環(huán)境復(fù)雜度衍生出形態(tài)智能

上文關(guān)于環(huán)境對形態(tài)進化的影響的分析主要聚焦于不同形態(tài)描述子或形態(tài)復(fù)雜度,但其關(guān)鍵挑戰(zhàn)是設(shè)計智能體時要確保它能快速適應(yīng)任意新任務(wù)。因而,研究者轉(zhuǎn)而通過描述一種形態(tài)中的具身智能,來了解如何通過組合學(xué)習(xí)和進化獲得這種能力。具體而言,研究者計算形態(tài)對學(xué)習(xí)大量測試任務(wù)的促進作用。這一方法類似于,通過計算潛在神經(jīng)表示經(jīng)由遷移學(xué)習(xí)在下游任務(wù)上的性能來評估其質(zhì)量。

研究者一共創(chuàng)建了一組 8 個任務(wù)(下圖 4a),可分為 3 個領(lǐng)域,分別測試智能體形態(tài)的敏捷性(巡視、點導(dǎo)航、避障與探索)、穩(wěn)定性(逃脫與爬坡)和操縱能力(斜坡推箱子和控球)。每個任務(wù)的控制器都是從頭學(xué)習(xí),從而確保性能差異均來自形態(tài)上的不同。

研究者首先測試了這一假設(shè):在更復(fù)雜環(huán)境中的進化會帶來更智能的形態(tài),從而在測試任務(wù)中性能更好(參見上圖 4b)。結(jié)果表明,在 MVT 環(huán)境中進化出的智能體性能在 7 項測試任務(wù)中優(yōu)于在 FT 中進化的智能體;在涉及敏捷性和穩(wěn)定性的 6 個任務(wù)中,VT 智能體在 5 項任務(wù)里優(yōu)于 FT 智能體,在操縱任務(wù)中性能相似。

為了測試學(xué)習(xí)速度,研究者以 1/5 學(xué)習(xí)迭代重復(fù)了相同實驗(參見上圖 4c),發(fā)現(xiàn) MVT/VT 智能體和 FT 智能體在所有任務(wù)中的區(qū)別更大了。這些結(jié)果表明,在更復(fù)雜環(huán)境中進化出的形態(tài)確實更智能,因為它們促進智能體更好、更快地學(xué)習(xí)多種新任務(wù)。

證明了更強形式的形態(tài)學(xué)鮑德溫效應(yīng)

一個多世紀(jì)以前,美國心理學(xué)家鮑德溫(Baldwin)推測存在一種替代機制,通過這種機制,最初在早代進化中終身學(xué)得的行為將逐漸在后代(later generation)中成為本能甚至可能通過基因傳播。表面上,這種鮑德溫效應(yīng)看起來像拉馬克遺傳(Lamarckian inheritance),但嚴格來說,它源于達爾文主義(Darwinian )。然而,長期以來,生物學(xué)家一直認為鮑德溫效應(yīng)在復(fù)雜環(huán)境中可能保持在形態(tài)進化和感覺運動學(xué)習(xí)(sensorimotor learning)的層面。所以,盡管這一猜想廣為流傳,但迄今為止尚無研究證明體內(nèi)或計算機(vivo or in silico)形態(tài)進化中的鮑德溫效應(yīng)。

在模擬中,研究者找到了證明鮑德溫效應(yīng)在形態(tài)學(xué)中存在的首個證據(jù),這反映在三個環(huán)境中達到前 100 個智能體標(biāo)準(zhǔn)適應(yīng)度水平(level of fitness)所需訓(xùn)練時間的快速減少,如下圖 5A 所示。值得注意的是,僅在 10 代之內(nèi),平均訓(xùn)練時間就減少為原來的一半。研究者提供了如何加速學(xué)習(xí)的示例,如下圖 5d 所示,他們展示了 FT 中進化的智能體在不同代中的學(xué)習(xí)曲線:

在學(xué)習(xí)結(jié)束時,第 8 代智能體的表現(xiàn)兩倍優(yōu)于第 1 代智能體,而且可以在后者 1/5 的時間里達到相同的最終適應(yīng)度。研究者還注意到他們在模擬中對于快速學(xué)習(xí)沒有遇到任何顯式的選擇壓力,這是因為一個形態(tài)的適應(yīng)度僅由學(xué)習(xí)結(jié)束時自身的性能決定。盡管如此,進化依然選擇速度更快的學(xué)習(xí)者,這樣做也沒有任何選擇壓力。因此,研究者通過證明技能獲取速度的顯式選擇壓力對于鮑德溫效應(yīng)并不是必要的,實際發(fā)現(xiàn)了比以往文獻中猜想的形式更強的鮑德溫效應(yīng)。

有趣的是,形態(tài)學(xué)鮑德溫效應(yīng)的存在可以在未來研究中得到進一步探索,以創(chuàng)建更低樣本復(fù)雜度和更高泛化性的具身智能體。

形態(tài)智能以及強大鮑德溫效應(yīng)的機制基礎(chǔ)

接下來,該研究將探索進化如何產(chǎn)生形態(tài)智能(上圖 4b,c)以及如何選擇更快的學(xué)習(xí)者,而無需對學(xué)習(xí)速度施加任何直接選擇壓力的潛在機制基礎(chǔ)。

該研究假設(shè),按照具身認知(embodied cognition)中的推測,進化發(fā)現(xiàn)的形態(tài)可以更有效地利用智能體主體與環(huán)境之間物理交互的被動動力學(xué)(passive dynamics),從而簡化學(xué)習(xí)控制的問題,它既能在新的環(huán)境中實現(xiàn)更好的學(xué)習(xí)(形態(tài)智能),又能跨代實現(xiàn)更快的學(xué)習(xí)(鮑德溫效應(yīng))。任何這樣的智能形態(tài)學(xué)都可能表現(xiàn)出能量效率和被動穩(wěn)定性的物理特性,因此該研究對這兩種特性進行了研究。

研究者將能源效率定義為每單位質(zhì)量完成一個目標(biāo)所消耗的能量(見附錄 D)。令人驚訝的是,在沒有能源效率直接選擇壓力的情況下,進化選擇了能效形態(tài)解決方案(上圖 5c)。研究證實,能源效率并不是簡單地通過降低肢體密度來實現(xiàn)的(上圖 3e)。

相反,在所有三種環(huán)境中,總體質(zhì)量實際上都在增加,這表明能源效率是通過選擇更有效地利用身體 - 環(huán)境相互作用的被動物理動力學(xué)的形態(tài)來實現(xiàn)的。此外,在任意固定代,能源效率更高的形態(tài)表現(xiàn)得更好(下圖 6a),學(xué)習(xí)速度也更快(下圖 6b)。

同樣地,在所有的三種環(huán)境中,隨著時間的推移,進化選擇更被動穩(wěn)定的形態(tài)(見附錄 D),盡管相對于 FT、VT/MVT 中穩(wěn)定形態(tài)的比例更高,這表明在這些更復(fù)雜的環(huán)境中穩(wěn)定性的相對選擇壓力更高(上圖 5b)。

因此,隨著進化的推移,能源效率(上圖 5c)和穩(wěn)定性(上圖 5b)都以一種與學(xué)習(xí)速度緊密相關(guān)的方式提高(上圖 5A)。

 

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2021-10-08 15:21:52

AI 數(shù)據(jù)人工智能

2024-08-07 13:00:00

2018-06-28 22:04:25

智能體華為云人工智能

2024-01-22 12:31:18

模型訓(xùn)練

2024-07-23 14:10:48

2025-01-14 14:20:47

2022-01-21 11:03:15

人工智能深度學(xué)習(xí)計算

2024-06-13 09:20:26

2024-03-14 11:55:21

2023-12-20 14:03:00

模型數(shù)據(jù)

2025-03-07 10:24:43

2025-04-11 09:35:34

2024-10-29 21:01:44

2023-10-30 10:58:57

2024-11-08 09:20:00

2024-04-15 12:43:26

人工智能LLM

2024-12-13 14:20:00

AI模型訓(xùn)練

2022-06-21 14:08:25

AIGitHub模仿人類
點贊
收藏

51CTO技術(shù)棧公眾號