自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="l1jr4"><tt id="l1jr4"></tt></abbr>

<style id="l1jr4"></style>

<sub id="l1jr4"></sub>

<cite id="l1jr4"><track id="l1jr4"></track></cite>

<sub id="l1jr4"><s id="l1jr4"></s></sub>

<sup id="l1jr4"><rt id="l1jr4"></rt></sup>

<s id="l1jr4"><abbr id="l1jr4"><menuitem id="l1jr4"></menuitem></abbr></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

不用LLM，遺傳編程可控Python代碼！谷歌DeepMind等提出全新ARZ框架

作者：新智元 2023-08-11 14:18:52

人工智能新聞

最近，來自谷歌、DeepMind等機(jī)構(gòu)的研究人員，提出了一種基于AutoML-Zero的方法AutoRobotics-Zero，可以從零開始發(fā)現(xiàn)zero-shot策略。與僅優(yōu)化模型參數(shù)的神經(jīng)網(wǎng)絡(luò)不同，ARZ可以構(gòu)建具備完整表達(dá)能力的控制算法。

谷歌等團(tuán)隊(duì)發(fā)布了遺傳編程最新成果——AutoRobotics-Zero（ARZ）。最新論文已被IROS 2023接收。

論文地址：https://arxiv.org/pdf/2307.16890.pdf

這是一種使用AutoML-Zero的搜索方法，能夠構(gòu)建緊湊、可解釋的機(jī)器人策略，可以快速適應(yīng)環(huán)境的劇烈變化。

即使在隨機(jī)選擇的一條腿折斷后，ARZ策略能夠控制步態(tài)，讓其繼續(xù)行走。

而這一挑戰(zhàn)任務(wù)，在2個流行的神經(jīng)網(wǎng)絡(luò)基線MLP+LSTM中，取得了失敗結(jié)果。

甚至，ARZ使用的參數(shù)和FLOPS比基線少得多。

英偉達(dá)高級研究科學(xué)家Jim Fan表示，令人耳目一新的機(jī)器人技術(shù)！無需LLM，甚至無需神經(jīng)網(wǎng)絡(luò)：只需使用進(jìn)化搜索控制機(jī)器人的Python代碼?？山忉?，并且自適應(yīng)。

全新ARZ框架

現(xiàn)實(shí)世界中的機(jī)器人，面臨著不同類型的挑戰(zhàn)，比如物理磨損、地形障礙等等。

如果僅是依靠將相同狀態(tài)映射到，相同動作的靜態(tài)控制器，只能暫且逃過這一劫。

但不能將萬事萬物都映射出來，而需要機(jī)器人能夠根據(jù)不同變化的環(huán)境，來持續(xù)調(diào)整控制策略。

要實(shí)現(xiàn)這種能力，它們必須在沒有外部提示的情況下，通過觀察行動如何隨時間改變系統(tǒng)狀態(tài)，來識別環(huán)境變化，并更新其控制以做出響應(yīng)。

當(dāng)前，遞歸深度神經(jīng)網(wǎng)絡(luò)是支持快速適應(yīng)的常用策略表示法。然而，它的問題在于，單一，參數(shù)過高，難以解釋。

由此，谷歌等研究人員提出了基于AMLZ的AutoRobotics-Zero （ARZ）方法，以支持四足機(jī)器人適應(yīng)任務(wù)中動態(tài)、自我修正的控制策略進(jìn)化。

研究人員將這些策略表示為程序，而非神經(jīng)網(wǎng)絡(luò)。

他們演示了如何從零開始，僅使用基本數(shù)學(xué)運(yùn)算作為構(gòu)建模塊，進(jìn)化出適應(yīng)性策略及其初始參數(shù)。

自動發(fā)現(xiàn)Python代碼，代表四足機(jī)器人模擬器的可適應(yīng)策略

演化可以發(fā)現(xiàn)控制程序，這些程序在與環(huán)境交互的過程中，利用其感官-運(yùn)動經(jīng)驗(yàn)來微調(diào)其策略參數(shù)或即時改變其控制邏輯。

這就實(shí)現(xiàn)了在不斷變化的環(huán)境條件下，保持接近最佳性能所需的自適應(yīng)行為。

與AMLZ不同，研究人員為Laikago機(jī)器人設(shè)計了模擬器，在倒立擺任務(wù)（Cataclysmic Cartpole）中取得良好性能。為此，團(tuán)隊(duì)還放棄了AMLZ的監(jiān)督學(xué)習(xí)范式。

研究表明，進(jìn)化程序可以在其生命周期內(nèi)進(jìn)行自適應(yīng)，而無需明確接收任何監(jiān)督輸入，比如獎勵信號。

此外，AMLZ依靠的是人為應(yīng)用三個已發(fā)現(xiàn)的函數(shù)，而ARZ允許進(jìn)化程序中使用的函數(shù)數(shù)量，由進(jìn)化過程本身決定。

為此，研究人員使用了條件自動定義函數(shù)（CADF），并展示了其影響。

通過這種方法，發(fā)現(xiàn)進(jìn)化的適應(yīng)性策略比先進(jìn)解決方案要簡單得多，因?yàn)檫M(jìn)化搜索從最小的程序開始，并通過與任務(wù)領(lǐng)域的交互逐步增加復(fù)雜性。

因此，它們的行為具有很高的可解釋性。

在四足機(jī)器人中，即使隨機(jī)選擇的一條腿上的所有電機(jī)都無法產(chǎn)生任何扭矩，ARZ也能進(jìn)化出適應(yīng)性策略，保持向前運(yùn)動并避免摔倒。

相比之下，盡管進(jìn)行了全面的超參數(shù)調(diào)整，并采用了最先進(jìn)的強(qiáng)化學(xué)習(xí)方法進(jìn)行訓(xùn)練，但MLP和LSTM基線仍無法在這種具有挑戰(zhàn)性的條件下學(xué)習(xí)到穩(wěn)健的行為。

由于模擬真實(shí)機(jī)器人卻非常耗時，自適應(yīng)控制缺乏高效且具有挑戰(zhàn)性的基準(zhǔn)，研究人員還創(chuàng)建了一個簡易自適應(yīng)任務(wù)，名為「倒立擺」。

倒立擺任務(wù)中軌道角度變化的示意圖

總而言之，本論文開發(fā)了一種進(jìn)化方法，用于從零開始自動發(fā)現(xiàn)適應(yīng)性機(jī)器人策略。在每個任務(wù)中，得到的策略具有以下特點(diǎn)：

? 超越經(jīng)過精心訓(xùn)練的MLP和LSTM基線；

? 表示為可解釋的、符號化的程序；

? 使用的參數(shù)和操作比基線更少。

2種搜索算法：自然選擇第一性原理

算法由兩個核心函數(shù)組成：StartEpisode() 和 GetAction()。

StartEpisode() 會在與環(huán)境交互的每episode開始時運(yùn)行一次。它的唯一目的是用進(jìn)化常量初始化虛擬內(nèi)存的內(nèi)容。

這些內(nèi)存在任何時間的內(nèi)容，都可以被描述為控制程序的狀態(tài)。研究人員的目標(biāo)是發(fā)現(xiàn)，能夠在與環(huán)境交互的同時，通過調(diào)整內(nèi)存狀態(tài)，或改變控制代碼來適應(yīng)環(huán)境的算法。

而這種適應(yīng)性以及算法的決策策略，由 GetAction() 函數(shù)實(shí)現(xiàn)，其中每條指令都執(zhí)行一個操作，比如「0=s7*s1 or s3=v1[i2]」。

同時，研究人員定義了一個更大的操作庫，對程序的復(fù)雜度不設(shè)限制。

進(jìn)化搜索被用來發(fā)現(xiàn) GetAction() 函數(shù)中出現(xiàn)的操作序列和相關(guān)內(nèi)存地址。

論文中，采用了2種進(jìn)化算法：(a) 多目標(biāo)搜索采用NSGA-II，(b) 單目標(biāo)搜索采用RegEvo.

這兩種搜索算法都，采用了達(dá)爾文自然選擇原理的算法模型，對候選控制程序群體進(jìn)行迭代更新。

進(jìn)化搜索的一般步驟如下:

1. 初始化一組隨機(jī)控制程序

2. 評估任務(wù)中的每個程序

進(jìn)化控制算法的評估過程：單目標(biāo)進(jìn)化搜索采用均值episode獎勵作為算法的適應(yīng)度，而多目標(biāo)搜索優(yōu)化了兩個適應(yīng)度指標(biāo)：均值獎勵（第一個返回值），每個episode的均值步長（第二個返回值）

3. 使用特定任務(wù)的適應(yīng)度指標(biāo)選擇有前途的程序

4. 通過交叉和變異改變選定的個體

算法群的簡化示例，通過交叉和變異產(chǎn)生新的算法群體

5. 在群（population）中加入新的項(xiàng)目，取代一定比例的現(xiàn)有個體

6. 返回第二步

就本研究而言，NSGA-II和RegEvo之間的最大區(qū)別在于它們的選擇方法。

NSGA-II使用多種適應(yīng)性指標(biāo)，比如前向運(yùn)動和穩(wěn)定性，來識別有潛力的個體。

而RegEvo則根據(jù)單一指標(biāo)（前向運(yùn)動）進(jìn)行選擇。

兩種搜索方法同時演化：(1) 初始算法參數(shù)（即浮點(diǎn)存儲器中的初始值sX、vX、mX），由 StartEpisode() 設(shè)置；(2) GetAction() 函數(shù)和CADF的程序內(nèi)容。

測試環(huán)境

研究人員考慮在兩種不同的環(huán)境中來測試ARZ：一個是四足機(jī)器人真實(shí)模擬器，另一個是全新倒立擺。

在這兩種情況下，ARZ策略必須處理過渡函數(shù)的變化，這通常會阻礙它們的正常功能。

這些變化可能是突然的，也可能是漸進(jìn)的，而且沒有傳感器輸入來指示何時發(fā)生變化或環(huán)境如何變化。

結(jié)果

斷腿

與ARS+MLP和ARS+LSTM基線相比，ARZ（包括CADF）是唯一一個在四足機(jī)器人腿部折斷的任務(wù)中，生成了可行控制策略的方法。

實(shí)際上，這個問題非常困難，因?yàn)檎业揭环N能夠保持平穩(wěn)運(yùn)動且對腿部折斷具有魯棒性的策略，需要重復(fù)20次進(jìn)化實(shí)驗(yàn)。

CADF 加快了進(jìn)化速度，并產(chǎn)生了最佳的結(jié)果

從5個測試場景的軌跡可視化中可以發(fā)現(xiàn)，ARZ策略是唯一一個能夠在所有情況下避免摔倒的控制器，盡管在前左腿折斷的情況下，維持前行會有些困難。

ARZ發(fā)現(xiàn)了唯一能夠適應(yīng)任何斷腿情況的策略

相比之下，MLP策略在右后腿折斷的情況下可以繼續(xù)前行，但在其他動態(tài)任務(wù)中都會摔倒。而LSTM策略只能在所有腿都完好的靜止任務(wù)中避免摔倒。

ARZ發(fā)現(xiàn)了唯一能持續(xù)避免摔倒的策略

簡潔性和可解釋性

研究人員提出的進(jìn)化算法只用了608個參數(shù)和40行代碼，每步最多執(zhí)行2080個浮點(diǎn)運(yùn)算（FLOPs）。

這與基線MLP/LSTM模型在每一步中使用的超過2.5k/9k個參數(shù)和5k/18k個FLOPs相比顯得更為簡潔。

從下圖中可以看到，ARZ策略能夠快速識別和適應(yīng)多種獨(dú)特的故障條件。

比如，當(dāng)一條腿折斷時，控制器的行為會瞬時發(fā)生改變，而該策略能夠在發(fā)生變化時迅速做出調(diào)整。

當(dāng)左前腿在途中折斷時，ARZ策略發(fā)生的變化

倒立擺

在倒立擺中，研究人員證實(shí)ARZ與ARS+LSTM基線相比，在突然、劇烈變化的任務(wù)中能產(chǎn)生更好的控制效果。

如下，ARZ和LSTM都解決了適應(yīng)任務(wù)，并且沒有觀察到從靜態(tài)任務(wù)到動態(tài)任務(wù)的直接轉(zhuǎn)移。

倒立擺連續(xù)變化任務(wù)的進(jìn)化后測試結(jié)果

另外，在突變?nèi)蝿?wù)中，ARZ發(fā)現(xiàn)了唯一適用于所有突變的倒立擺任務(wù)的策略。

倒立擺突變?nèi)蝿?wù)的進(jìn)化后測試結(jié)果

簡單性和可解釋性

在這里，研究人員對ARZ策略進(jìn)行分解，以詳細(xì)解釋它是如何在不斷變化的環(huán)境中，整合狀態(tài)觀測結(jié)果來計算最優(yōu)行動的。

下圖，展示了ARZ設(shè)置中發(fā)現(xiàn)的算法示例。

值得注意的是，解決這項(xiàng)任務(wù)并不需要CADF，因此為了簡化程序分析，搜索空間中省略了CADF。

研究人員發(fā)現(xiàn)的是三個累加器，它們收集了觀察值和行動值的歷史記錄，從中可以推斷出當(dāng)前的行動。

在所有參數(shù)都不斷變化的任務(wù)上，演化出有狀態(tài)動作函數(shù)示例

該算法使用11個變量，每步執(zhí)行25 FLOPs。

與此同時，MLP和LSTM算法分別使用了超過1k和 4.5k參數(shù)，每步分別耗費(fèi)超過2k和9k FLOPs

討論

使用ARZ在程序空間和參數(shù)空間中同時搜索，可以產(chǎn)生熟練、簡單和可解釋的控制算法。

這些算法可以進(jìn)行零樣本適應(yīng)，也就是在環(huán)境發(fā)生根本性變化時迅速改變其行為，從而保持接近最優(yōu)的控制能力。

· CADF和分心困境

在四足機(jī)器人領(lǐng)域，在搜索空間中包括有條件地調(diào)用自動定義函數(shù)（CADF）可以提高進(jìn)化控制算法的表現(xiàn)能力。

在單個最佳策略中，CADF被用于將觀測空間分成四個狀態(tài)。然后，行動完全由系統(tǒng)的內(nèi)部狀態(tài)和這個離散化的觀測決定。其中，離散化有助于策略去定義一種切換行為，從而克服分心困境。

相比之下，僅在人工設(shè)計的MLP或LSTM網(wǎng)絡(luò)的參數(shù)空間中進(jìn)行搜索，并不能產(chǎn)生能夠適應(yīng)多個變化事件的策略（例如，單條腿折斷）。

· 適應(yīng)未見任務(wù)動態(tài)

那么問題來了，在不知道未來可能會發(fā)生什么樣的環(huán)境變化時，應(yīng)該如何構(gòu)建自適應(yīng)控制策略？

在倒立擺任務(wù)中，ARZ的初步結(jié)果表明，在進(jìn)化（訓(xùn)練）過程中注入部分可觀測性和動態(tài)執(zhí)行器噪聲，可以作為非穩(wěn)態(tài)任務(wù)動態(tài)的一般替代。

如果這個結(jié)論得到進(jìn)一步證明，也就意味著我們能夠在完全不了解任務(wù)環(huán)境動態(tài)的情況下，進(jìn)化出熟練的控制策略，從而減輕對準(zhǔn)確物理模擬器的需求。

責(zé)任編輯：張燕妮來源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營