跨石灘、過(guò)草地,UC伯克利等研發(fā)新型機(jī)器人運(yùn)動(dòng)算法,實(shí)時(shí)快速適應(yīng)變化環(huán)境
說(shuō)到腿式機(jī)器人,機(jī)器之心以前介紹過(guò)不少,如能跑、能跳、能跳繩、跨越障礙的 Spot 機(jī)器狗,不用攝像頭和激光雷達(dá)憑感覺(jué)「越野」的 ANYmal 機(jī)器人、會(huì)翻跟斗的 MIT 機(jī)器人,等等。
這些腿式機(jī)器人都有一定的適應(yīng)外部環(huán)境的能力,但還不夠。腿式機(jī)器人在現(xiàn)實(shí)世界的成功部署需要其實(shí)時(shí)適應(yīng)未見(jiàn)過(guò)和不斷變化的場(chǎng)景,如多樣化的地形、不同重量的負(fù)載以及不同程度的磨損。
近日,來(lái)自 UC 伯克利、CMU 和 FAIR 的研究者們?cè)谕仁綑C(jī)器人實(shí)時(shí)、智能適應(yīng)具有挑戰(zhàn)性、陌生的地形和環(huán)境方面取得了重大突破,推出了一種快速運(yùn)動(dòng)適應(yīng)(Rapid Motor Adaptation, RMA)算法。該算法包含兩個(gè)子策略,其一是使用強(qiáng)化學(xué)習(xí)訓(xùn)練的基本策略(base policy)和使用監(jiān)督學(xué)習(xí)訓(xùn)練的適應(yīng)模塊(adaptation module),二者完全在模擬中學(xué)習(xí)。在 RMA 算法加持下,四足機(jī)器人擁有了所有智能體共有的適應(yīng)環(huán)境因素的能力。
- 論文地址:https://ashish-kmr.github.io/rma-legged-robots/rma-locomotion-final.pdf
- 項(xiàng)目主頁(yè):https://ashish-kmr.github.io/rma-legged-robots/
以往的四足機(jī)器人要么已經(jīng)針對(duì)它們所要適應(yīng)的環(huán)境進(jìn)行了完全手動(dòng)編碼,要么通過(guò)手動(dòng)編碼和學(xué)習(xí)技巧的結(jié)合來(lái)教它們?cè)诃h(huán)境中導(dǎo)航。與這些不同,RMA 是首個(gè)完全基于學(xué)習(xí)的系統(tǒng),通過(guò)探索并與世界進(jìn)行交互,使腿式機(jī)器人能夠從頭開(kāi)始適應(yīng)環(huán)境。
具體來(lái)講,RMA 在不使用任何領(lǐng)域知識(shí)(如基準(zhǔn)軌跡或預(yù)定義的足軌跡生成器)的情況下完全在模擬中訓(xùn)練,并且無(wú)需任何微調(diào)即可以部署在 Unitree 的 A1 機(jī)器人上。
研究者在各種地形生成器上訓(xùn)練 RMA,包括亂石灘、泥地、不平整草地、混凝土地、鵝卵石地、石階和沙灘等。結(jié)果表明,RMA 在不同的現(xiàn)實(shí)環(huán)境和模擬實(shí)驗(yàn)中都實(shí)現(xiàn)了優(yōu)于其他腿式機(jī)器人的性能。
優(yōu)哉游哉穿過(guò)亂石灘:
走過(guò)高低不平的草地:
在潑了油的塑料板上也不打滑:
此外,RMA 中的適應(yīng)模塊至關(guān)重要。測(cè)試表明,有適應(yīng)模塊的四足機(jī)器人可以負(fù)載 8 千克的重量,無(wú)適應(yīng)模塊的則負(fù)載不了這個(gè)重量。
無(wú)適應(yīng)模塊的四足機(jī)器人也無(wú)法在海綿板上行走:
RMA 賦能的四足機(jī)器人不僅可以負(fù)載不同重量,而且必須能夠適應(yīng)預(yù)期的磨損以及現(xiàn)實(shí)世界可能出現(xiàn)的其他不可預(yù)測(cè)的變化。得益于自身能力完全基于遭遇的環(huán)境,RMA 賦能的四足機(jī)器人還可以適應(yīng)程序員未曾考慮到的情況。
對(duì)于這款能夠適應(yīng)復(fù)雜多變環(huán)境的四足機(jī)器人,網(wǎng)友表示:「我滿腦子想到的都是電視劇《黑鏡》里面的機(jī)器狗……」
機(jī)器人是如何做到的?
手動(dòng)編碼的改進(jìn)可以提高機(jī)器人在受控環(huán)境中的性能,但是想要機(jī)器人真正的適合現(xiàn)實(shí)世界中的變化,唯一的方法是教機(jī)器人真正的適應(yīng)環(huán)境,類似于人類的學(xué)習(xí)方式。
想要賦予機(jī)器人適應(yīng)不斷變化世界的能力,研究者需要通過(guò)數(shù)百萬(wàn)次重復(fù)實(shí)驗(yàn)來(lái)教他們,而做到這一點(diǎn)的最佳方法不是在現(xiàn)實(shí)世界中,在現(xiàn)實(shí)世界中機(jī)器人可能會(huì)在學(xué)習(xí)過(guò)程中損壞或磨損,研究者是在模擬環(huán)境中進(jìn)行的。
RMA 全程使用端到端學(xué)習(xí),甚至直接輸出關(guān)節(jié)位置,而不依賴預(yù)定義的腿部運(yùn)動(dòng)或其他控制原語(yǔ)。
然而,這些機(jī)器人在模擬環(huán)境中學(xué)習(xí)技能,當(dāng)部署到現(xiàn)實(shí)環(huán)境中會(huì)出現(xiàn)很多挑戰(zhàn)。在模擬環(huán)境中,機(jī)器人的物理結(jié)構(gòu)和模型往往在微小但重要的方面有所不同。例如,在發(fā)送控制信號(hào)和執(zhí)行器移動(dòng)之間可能有輕微的延遲,或者腳上的磨損使它比以前更滑,或者關(guān)節(jié)的角度可能偏差了百分之一度。
物理世界本身也呈現(xiàn)出一些復(fù)雜的情況,以自由空間中移動(dòng)的剛體為模型的模擬器無(wú)法準(zhǔn)確捕捉到這些復(fù)雜情況。床墊或泥坑等表面接觸后會(huì)變形。在模擬中相當(dāng)標(biāo)準(zhǔn)化的環(huán)境在現(xiàn)實(shí)世界中變得更加多樣化和復(fù)雜,如果考慮到室內(nèi)和室外空間中可能存在的大量地形,情況就更加復(fù)雜了。當(dāng)然,現(xiàn)實(shí)世界中的因素從來(lái)都不是靜態(tài)的,所以腿式機(jī)器人能夠掌握的現(xiàn)實(shí)世界環(huán)境可能與大不相同。
在真實(shí)世界中進(jìn)行模擬和部署訓(xùn)練
RMA 通過(guò)使用兩個(gè)不同的子系統(tǒng)克服了這些挑戰(zhàn):基本策略和適應(yīng)模塊。
基本策略是在 RL 模擬中學(xué)習(xí)的,使用不同環(huán)境的信息(例如摩擦量以及有效載荷的重量和形狀)。研究者設(shè)置了不同的變量——模擬更滑或少滑的地面或斜坡的坡度——因此機(jī)器人可以學(xué)習(xí)在不同條件下的正確控制,研究者將關(guān)于這些變量的信息編碼為「extrinsics」。
環(huán)境參數(shù)范圍。
當(dāng)然,不能僅僅用這個(gè)基本策略來(lái)部署機(jī)器人,因?yàn)槲覀儾恢浪诂F(xiàn)實(shí)世界中會(huì)遇到什么外部特性。因此,研究者依賴于機(jī)器人在周圍環(huán)境中自己學(xué)到的信息,即機(jī)器人最近的運(yùn)動(dòng)信息。我們知道關(guān)節(jié)的實(shí)際運(yùn)動(dòng)和來(lái)自命令的預(yù)期運(yùn)動(dòng)之間的差異依賴于這些外部特性。例如,突然的腿部障礙物會(huì)使機(jī)器人停止,但同時(shí)也會(huì)顯示其周圍地面高度的信息。同樣,在柔軟的表面上,機(jī)器人腿會(huì)隨著腳下沉而伸展得更遠(yuǎn),而在堅(jiān)硬的表面上,機(jī)器人會(huì)快速的停止。
由于我們知道機(jī)器人在模擬中遇到的實(shí)際外部特性,我們可以使用監(jiān)督學(xué)習(xí)訓(xùn)練自適應(yīng)模塊,從機(jī)器人最近的歷史狀態(tài)預(yù)測(cè)當(dāng)前行為。
適應(yīng)新條件,幾乎是瞬間完成
通過(guò)基本策略和適應(yīng)模塊的這種組合,機(jī)器人可以在幾分之一秒內(nèi)適應(yīng)新的條件。
相比較而言,先前基于 RL 的方法訓(xùn)練的機(jī)器人需要幾分鐘時(shí)間,有時(shí)還需要人工干預(yù)才能適應(yīng)新條件,使得這些機(jī)器人在現(xiàn)實(shí)世界中不現(xiàn)實(shí)。
當(dāng)部署支持 RMA 的機(jī)器人時(shí),基本策略和適應(yīng)模塊協(xié)同異步工作(基本策略以更快的速度運(yùn)行,適應(yīng)模塊以更慢的速度運(yùn)行),以使機(jī)器人能夠在沒(méi)有任何微調(diào)的情況下執(zhí)行魯棒和自適應(yīng)的移動(dòng)。異步運(yùn)行兩種策略并以本質(zhì)上不同的頻率運(yùn)行還有助于使用小型機(jī)載計(jì)算部署 RMA。小的基本策略可以保持機(jī)器人以高頻行走,而較大的適應(yīng)模塊可以以低頻發(fā)送外部向量。異步運(yùn)行這兩個(gè)策略還為有些不可預(yù)測(cè)的硬件速度和時(shí)間增加了魯棒性。
實(shí)驗(yàn)表明,RMA 支持的機(jī)器人成功地在幾個(gè)具有挑戰(zhàn)性的環(huán)境中行走,表現(xiàn)優(yōu)于 non-RMA 部署的機(jī)器人,與 Unitree 機(jī)器人相媲美,甚至是優(yōu)于 Unitree 機(jī)器人。研究者使用相同的策略執(zhí)行所有現(xiàn)實(shí)世界的部署,而不需要任何模擬校準(zhǔn)或現(xiàn)實(shí)世界的微調(diào)。
在所有的試驗(yàn)中,這個(gè)機(jī)器人能夠在沙子上、泥土里、徒步小徑上、高草叢和土堆上行走,沒(méi)有一次失敗。在 70% 的試驗(yàn)中,這個(gè)機(jī)器人成功地沿著一條徒步路線走下臺(tái)階。在 80% 的試驗(yàn)中,它成功地通過(guò)了一堆水泥和一堆鵝卵石,盡管在訓(xùn)練中從未見(jiàn)過(guò)這種不穩(wěn)定或下沉的地面、阻塞的植被或臺(tái)階。當(dāng)它以 12 公斤的有效載荷(相當(dāng)于其體重的 100%)移動(dòng)時(shí),它也能以很高的成功率保持高度。
RMA 是機(jī)器人技術(shù)一項(xiàng)激動(dòng)人心的進(jìn)步,它可以在現(xiàn)實(shí)世界中部署新型、高效且適應(yīng)性強(qiáng)的步行機(jī)器人。這項(xiàng)工作還表明,人工智能的進(jìn)步可以改變機(jī)器人領(lǐng)域,增強(qiáng)機(jī)器人的能力,同時(shí)使這些改進(jìn)更易于擴(kuò)展到新的條件和應(yīng)用。純粹依靠學(xué)習(xí)的方法有可能在更便宜、不準(zhǔn)確的硬件環(huán)境下工作,這將大大降低未來(lái)機(jī)器人的成本。效率的提高和成本的降低可能意味著 RMA 支持的機(jī)器人將來(lái)可以發(fā)揮多種作用,比如在搜索和救援行動(dòng)中充當(dāng)助手,特別是在那些對(duì)人類來(lái)說(shuō)太危險(xiǎn)或不切實(shí)際的地區(qū)。
除了機(jī)器人技術(shù)之外,RMA 還指出了構(gòu)建 AI 系統(tǒng)的方法,該系統(tǒng)可以通過(guò)利用動(dòng)態(tài)數(shù)據(jù)來(lái)了解特定算法運(yùn)行的上下文,從而實(shí)時(shí)適應(yīng)許多困難的挑戰(zhàn)。