自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不用LLM,遺傳編程可控Python代碼!谷歌DeepMind等提出全新ARZ框架

人工智能 新聞
最近,來自谷歌、DeepMind等機(jī)構(gòu)的研究人員,提出了一種基于AutoML-Zero的方法AutoRobotics-Zero,可以從零開始發(fā)現(xiàn)zero-shot策略。與僅優(yōu)化模型參數(shù)的神經(jīng)網(wǎng)絡(luò)不同,ARZ可以構(gòu)建具備完整表達(dá)能力的控制算法。

谷歌等團(tuán)隊(duì)發(fā)布了遺傳編程最新成果——AutoRobotics-Zero(ARZ)。最新論文已被IROS 2023接收。

論文地址:https://arxiv.org/pdf/2307.16890.pdf

這是一種使用AutoML-Zero的搜索方法,能夠構(gòu)建緊湊、可解釋的機(jī)器人策略,可以快速適應(yīng)環(huán)境的劇烈變化。

即使在隨機(jī)選擇的一條腿折斷后,ARZ策略能夠控制步態(tài),讓其繼續(xù)行走。

而這一挑戰(zhàn)任務(wù),在2個流行的神經(jīng)網(wǎng)絡(luò)基線MLP+LSTM中,取得了失敗結(jié)果。

甚至,ARZ使用的參數(shù)和FLOPS比基線少得多。

英偉達(dá)高級研究科學(xué)家Jim Fan表示,令人耳目一新的機(jī)器人技術(shù)!無需LLM,甚至無需神經(jīng)網(wǎng)絡(luò):只需使用進(jìn)化搜索控制機(jī)器人的Python代碼??山忉?,并且自適應(yīng)。

全新ARZ框架

現(xiàn)實(shí)世界中的機(jī)器人,面臨著不同類型的挑戰(zhàn),比如物理磨損、地形障礙等等。

如果僅是依靠將相同狀態(tài)映射到,相同動作的靜態(tài)控制器,只能暫且逃過這一劫。

但不能將萬事萬物都映射出來,而需要機(jī)器人能夠根據(jù)不同變化的環(huán)境,來持續(xù)調(diào)整控制策略。

要實(shí)現(xiàn)這種能力,它們必須在沒有外部提示的情況下,通過觀察行動如何隨時間改變系統(tǒng)狀態(tài),來識別環(huán)境變化,并更新其控制以做出響應(yīng)。

當(dāng)前,遞歸深度神經(jīng)網(wǎng)絡(luò)是支持快速適應(yīng)的常用策略表示法。然而,它的問題在于,單一,參數(shù)過高,難以解釋。

由此,谷歌等研究人員提出了基于AMLZ的AutoRobotics-Zero (ARZ)方法,以支持四足機(jī)器人適應(yīng)任務(wù)中動態(tài)、自我修正的控制策略進(jìn)化。

研究人員將這些策略表示為程序,而非神經(jīng)網(wǎng)絡(luò)。

他們演示了如何從零開始,僅使用基本數(shù)學(xué)運(yùn)算作為構(gòu)建模塊,進(jìn)化出適應(yīng)性策略及其初始參數(shù)。

自動發(fā)現(xiàn)Python代碼,代表四足機(jī)器人模擬器的可適應(yīng)策略

演化可以發(fā)現(xiàn)控制程序,這些程序在與環(huán)境交互的過程中,利用其感官-運(yùn)動經(jīng)驗(yàn)來微調(diào)其策略參數(shù)或即時改變其控制邏輯。

這就實(shí)現(xiàn)了在不斷變化的環(huán)境條件下,保持接近最佳性能所需的自適應(yīng)行為。

與AMLZ不同,研究人員為Laikago機(jī)器人設(shè)計了模擬器,在倒立擺任務(wù)(Cataclysmic Cartpole)中取得良好性能。為此,團(tuán)隊(duì)還放棄了AMLZ的監(jiān)督學(xué)習(xí)范式。

研究表明,進(jìn)化程序可以在其生命周期內(nèi)進(jìn)行自適應(yīng),而無需明確接收任何監(jiān)督輸入,比如獎勵信號。

此外,AMLZ依靠的是人為應(yīng)用三個已發(fā)現(xiàn)的函數(shù),而ARZ允許進(jìn)化程序中使用的函數(shù)數(shù)量,由進(jìn)化過程本身決定。

為此,研究人員使用了條件自動定義函數(shù)(CADF),并展示了其影響。

通過這種方法,發(fā)現(xiàn)進(jìn)化的適應(yīng)性策略比先進(jìn)解決方案要簡單得多,因?yàn)檫M(jìn)化搜索從最小的程序開始,并通過與任務(wù)領(lǐng)域的交互逐步增加復(fù)雜性。

因此,它們的行為具有很高的可解釋性。

在四足機(jī)器人中,即使隨機(jī)選擇的一條腿上的所有電機(jī)都無法產(chǎn)生任何扭矩,ARZ也能進(jìn)化出適應(yīng)性策略,保持向前運(yùn)動并避免摔倒。

相比之下,盡管進(jìn)行了全面的超參數(shù)調(diào)整,并采用了最先進(jìn)的強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練,但MLP和LSTM基線仍無法在這種具有挑戰(zhàn)性的條件下學(xué)習(xí)到穩(wěn)健的行為。

由于模擬真實(shí)機(jī)器人卻非常耗時,自適應(yīng)控制缺乏高效且具有挑戰(zhàn)性的基準(zhǔn),研究人員還創(chuàng)建了一個簡易自適應(yīng)任務(wù),名為「倒立擺」。

倒立擺任務(wù)中軌道角度變化的示意圖

總而言之,本論文開發(fā)了一種進(jìn)化方法,用于從零開始自動發(fā)現(xiàn)適應(yīng)性機(jī)器人策略。在每個任務(wù)中,得到的策略具有以下特點(diǎn):

? 超越經(jīng)過精心訓(xùn)練的MLP和LSTM基線;

? 表示為可解釋的、符號化的程序;

? 使用的參數(shù)和操作比基線更少。

2種搜索算法:自然選擇第一性原理

算法由兩個核心函數(shù)組成:StartEpisode() 和 GetAction()。

StartEpisode() 會在與環(huán)境交互的每episode開始時運(yùn)行一次。它的唯一目的是用進(jìn)化常量初始化虛擬內(nèi)存的內(nèi)容。

這些內(nèi)存在任何時間的內(nèi)容,都可以被描述為控制程序的狀態(tài)。研究人員的目標(biāo)是發(fā)現(xiàn),能夠在與環(huán)境交互的同時,通過調(diào)整內(nèi)存狀態(tài),或改變控制代碼來適應(yīng)環(huán)境的算法。

而這種適應(yīng)性以及算法的決策策略,由 GetAction() 函數(shù)實(shí)現(xiàn),其中每條指令都執(zhí)行一個操作,比如「0=s7*s1 or s3=v1[i2]」。

同時,研究人員定義了一個更大的操作庫,對程序的復(fù)雜度不設(shè)限制。

進(jìn)化搜索被用來發(fā)現(xiàn) GetAction() 函數(shù)中出現(xiàn)的操作序列和相關(guān)內(nèi)存地址。

論文中,采用了2種進(jìn)化算法:(a) 多目標(biāo)搜索采用NSGA-II,(b) 單目標(biāo)搜索采用RegEvo.

這兩種搜索算法都,采用了達(dá)爾文自然選擇原理的算法模型,對候選控制程序群體進(jìn)行迭代更新。

進(jìn)化搜索的一般步驟如下:

1. 初始化一組隨機(jī)控制程序

2. 評估任務(wù)中的每個程序

進(jìn)化控制算法的評估過程:單目標(biāo)進(jìn)化搜索采用均值episode獎勵作為算法的適應(yīng)度,而多目標(biāo)搜索優(yōu)化了兩個適應(yīng)度指標(biāo):均值獎勵(第一個返回值),每個episode的均值步長(第二個返回值)

3. 使用特定任務(wù)的適應(yīng)度指標(biāo)選擇有前途的程序

4. 通過交叉和變異改變選定的個體

算法群的簡化示例,通過交叉和變異產(chǎn)生新的算法群體

5. 在群(population)中加入新的項(xiàng)目,取代一定比例的現(xiàn)有個體

6. 返回第二步

就本研究而言,NSGA-II和RegEvo之間的最大區(qū)別在于它們的選擇方法。

NSGA-II使用多種適應(yīng)性指標(biāo),比如前向運(yùn)動和穩(wěn)定性,來識別有潛力的個體。

而RegEvo則根據(jù)單一指標(biāo)(前向運(yùn)動)進(jìn)行選擇。

兩種搜索方法同時演化:(1) 初始算法參數(shù)(即浮點(diǎn)存儲器中的初始值sX、vX、mX),由 StartEpisode() 設(shè)置;(2) GetAction() 函數(shù)和CADF的程序內(nèi)容。

測試環(huán)境

研究人員考慮在兩種不同的環(huán)境中來測試ARZ:一個是四足機(jī)器人真實(shí)模擬器,另一個是全新倒立擺。

在這兩種情況下,ARZ策略必須處理過渡函數(shù)的變化,這通常會阻礙它們的正常功能。

這些變化可能是突然的,也可能是漸進(jìn)的,而且沒有傳感器輸入來指示何時發(fā)生變化或環(huán)境如何變化。

結(jié)果

斷腿

與ARS+MLP和ARS+LSTM基線相比,ARZ(包括CADF)是唯一一個在四足機(jī)器人腿部折斷的任務(wù)中,生成了可行控制策略的方法。

實(shí)際上,這個問題非常困難,因?yàn)檎业揭环N能夠保持平穩(wěn)運(yùn)動且對腿部折斷具有魯棒性的策略,需要重復(fù)20次進(jìn)化實(shí)驗(yàn)。

CADF 加快了進(jìn)化速度,并產(chǎn)生了最佳的結(jié)果

從5個測試場景的軌跡可視化中可以發(fā)現(xiàn),ARZ策略是唯一一個能夠在所有情況下避免摔倒的控制器,盡管在前左腿折斷的情況下,維持前行會有些困難。

ARZ發(fā)現(xiàn)了唯一能夠適應(yīng)任何斷腿情況的策略

相比之下,MLP策略在右后腿折斷的情況下可以繼續(xù)前行,但在其他動態(tài)任務(wù)中都會摔倒。而LSTM策略只能在所有腿都完好的靜止任務(wù)中避免摔倒。

ARZ發(fā)現(xiàn)了唯一能持續(xù)避免摔倒的策略

簡潔性和可解釋性

研究人員提出的進(jìn)化算法只用了608個參數(shù)和40行代碼,每步最多執(zhí)行2080個浮點(diǎn)運(yùn)算(FLOPs)。

這與基線MLP/LSTM模型在每一步中使用的超過2.5k/9k個參數(shù)和5k/18k個FLOPs相比顯得更為簡潔。

從下圖中可以看到,ARZ策略能夠快速識別和適應(yīng)多種獨(dú)特的故障條件。

比如,當(dāng)一條腿折斷時,控制器的行為會瞬時發(fā)生改變,而該策略能夠在發(fā)生變化時迅速做出調(diào)整。

當(dāng)左前腿在途中折斷時,ARZ策略發(fā)生的變化

倒立擺

在倒立擺中,研究人員證實(shí)ARZ與ARS+LSTM基線相比,在突然、劇烈變化的任務(wù)中能產(chǎn)生更好的控制效果。

如下,ARZ和LSTM都解決了適應(yīng)任務(wù),并且沒有觀察到從靜態(tài)任務(wù)到動態(tài)任務(wù)的直接轉(zhuǎn)移。

倒立擺連續(xù)變化任務(wù)的進(jìn)化后測試結(jié)果

另外,在突變?nèi)蝿?wù)中,ARZ發(fā)現(xiàn)了唯一適用于所有突變的倒立擺任務(wù)的策略。

倒立擺突變?nèi)蝿?wù)的進(jìn)化后測試結(jié)果

簡單性和可解釋性

在這里,研究人員對ARZ策略進(jìn)行分解,以詳細(xì)解釋它是如何在不斷變化的環(huán)境中,整合狀態(tài)觀測結(jié)果來計算最優(yōu)行動的。

下圖,展示了ARZ設(shè)置中發(fā)現(xiàn)的算法示例。

值得注意的是,解決這項(xiàng)任務(wù)并不需要CADF,因此為了簡化程序分析,搜索空間中省略了CADF。

研究人員發(fā)現(xiàn)的是三個累加器,它們收集了觀察值和行動值的歷史記錄,從中可以推斷出當(dāng)前的行動。

在所有參數(shù)都不斷變化的任務(wù)上,演化出有狀態(tài)動作函數(shù)示例

該算法使用11個變量,每步執(zhí)行25 FLOPs。

與此同時,MLP和LSTM算法分別使用了超過1k和 4.5k參數(shù),每步分別耗費(fèi)超過2k和9k FLOPs

討論

使用ARZ在程序空間和參數(shù)空間中同時搜索,可以產(chǎn)生熟練、簡單和可解釋的控制算法。

這些算法可以進(jìn)行零樣本適應(yīng),也就是在環(huán)境發(fā)生根本性變化時迅速改變其行為,從而保持接近最優(yōu)的控制能力。

· CADF和分心困境

在四足機(jī)器人領(lǐng)域,在搜索空間中包括有條件地調(diào)用自動定義函數(shù)(CADF)可以提高進(jìn)化控制算法的表現(xiàn)能力。

在單個最佳策略中,CADF被用于將觀測空間分成四個狀態(tài)。然后,行動完全由系統(tǒng)的內(nèi)部狀態(tài)和這個離散化的觀測決定。其中,離散化有助于策略去定義一種切換行為,從而克服分心困境。

相比之下,僅在人工設(shè)計的MLP或LSTM網(wǎng)絡(luò)的參數(shù)空間中進(jìn)行搜索,并不能產(chǎn)生能夠適應(yīng)多個變化事件的策略(例如,單條腿折斷)。

· 適應(yīng)未見任務(wù)動態(tài)

那么問題來了,在不知道未來可能會發(fā)生什么樣的環(huán)境變化時,應(yīng)該如何構(gòu)建自適應(yīng)控制策略?

在倒立擺任務(wù)中,ARZ的初步結(jié)果表明,在進(jìn)化(訓(xùn)練)過程中注入部分可觀測性和動態(tài)執(zhí)行器噪聲,可以作為非穩(wěn)態(tài)任務(wù)動態(tài)的一般替代。

如果這個結(jié)論得到進(jìn)一步證明,也就意味著我們能夠在完全不了解任務(wù)環(huán)境動態(tài)的情況下,進(jìn)化出熟練的控制策略,從而減輕對準(zhǔn)確物理模擬器的需求。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-07-05 15:06:00

2023-12-01 10:20:00

谷歌技術(shù)

2024-10-15 09:20:38

2023-05-22 15:17:02

谷歌AI

2023-09-20 09:49:41

2023-12-25 09:23:07

模型技術(shù)

2024-12-23 07:20:00

LLM逆向思維語言模型

2025-02-10 13:30:00

語言模型谷歌

2021-02-04 12:46:54

谷歌開源安全漏洞

2021-02-22 14:21:21

開源軟件漏洞網(wǎng)絡(luò)安全

2024-11-21 13:40:00

AI數(shù)據(jù)

2023-07-27 13:58:19

2025-03-05 04:00:00

2020-11-29 20:24:13

數(shù)據(jù)谷歌DeepMind

2022-04-01 15:30:18

語言模型自然語言AI

2025-01-13 12:12:19

2024-09-30 09:04:20

2023-09-20 12:58:00

訓(xùn)練研究

2024-12-05 13:50:00

AI大模型

2023-02-08 10:48:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號