DrEureka:語言模型引導(dǎo)的sim2real! 原創(chuàng)
將在仿真中學(xué)到的策略轉(zhuǎn)移到現(xiàn)實世界是一種獲取大規(guī)模機器人技能的有前景的策略。然而,從仿真到現(xiàn)實的方法通常依賴于任務(wù)獎勵函數(shù)和仿真物理參數(shù)的手工設(shè)計和調(diào)整,使得該過程緩慢且需要大量人力。研究人員使用大型語言模型(LLMs)來自動化和加速從仿真到現(xiàn)實的設(shè)計。LLM引導(dǎo)的從仿真到現(xiàn)實方法僅需要目標(biāo)任務(wù)的物理仿真,并自動構(gòu)建適當(dāng)?shù)莫剟詈瘮?shù)和域隨機化分布以支持現(xiàn)實世界的轉(zhuǎn)移。研究人員首先證明了可以發(fā)現(xiàn)與現(xiàn)有人工設(shè)計的競爭性從仿真到現(xiàn)實配置,用于四足動物的運動和靈巧操作任務(wù)。然后,展示該方法能夠解決新穎的機器人任務(wù),例如四足動物平衡和在瑜伽球上行走,而無需迭代手工設(shè)計。
DrEureka組件
DrEureka接收任務(wù)和安全指令,以及環(huán)境源代碼,并運行Eureka生成一個正則化的獎勵函數(shù)和策略。然后,它在不同的仿真條件下測試策略,構(gòu)建一個考慮獎勵的物理先驗,該先驗提供給LLM以生成一組域隨機化(DR)參數(shù)。最后,使用合成的獎勵和DR參數(shù),它訓(xùn)練策略以進行現(xiàn)實世界的部署。
實驗亮點
研究人員呈現(xiàn)了實驗的關(guān)鍵定性結(jié)果,突出了DrEureka策略在真實世界瑜伽球行走任務(wù)中的穩(wěn)健性,以及所有基準(zhǔn)任務(wù)的最佳DrEureka輸出。詳細的定量實驗和比較可在論文中找到。所有視頻以1倍速播放。
DrEureka行走球畫廊
DrEureka策略在真實世界中展現(xiàn)出令人印象深刻的穩(wěn)健性,在各種真實世界的不受控制的地形條件變化和干擾下,熟練地平衡和行走在瑜伽球上。研究人員還嘗試了踢球或放氣球,DrEureka策略對這些干擾具有魯棒性,并且可以從中恢復(fù)!?
DrEureka獎勵,DR參數(shù)和策略
研究人員對3個任務(wù)進行了DrEureka評估,包括四足球行走,四足動物運動和靈巧的立方體旋轉(zhuǎn)。在此演示中,可視化了每個任務(wù)的未修改的最佳DrEureka獎勵和DR參數(shù),并可視化了在訓(xùn)練仿真環(huán)境以及真實世界環(huán)境中部署的策略。
定性比較
研究人員對基準(zhǔn)四足動物運動任務(wù)進行了系統(tǒng)研究。
地形穩(wěn)健性。在四足動物運動任務(wù)中,研究人員還系統(tǒng)評估了DrEureka策略在幾種真實世界地形上的表現(xiàn),并發(fā)現(xiàn)它們保持穩(wěn)健并且優(yōu)于使用人工設(shè)計的獎勵和DR配置訓(xùn)練的策略。
默認(rèn)以及額外的真實世界環(huán)境,用于測試四足動物運動中的DrEureka穩(wěn)健性。
DrEureka在不同地形上表現(xiàn)一致,并保持對人工設(shè)計的優(yōu)勢。
DrEureka安全指令。DrEureka的LLM獎勵設(shè)計子程序通過納入安全指令改進了Eureka。研究人員發(fā)現(xiàn)這對于生成足以在現(xiàn)實世界部署的獎勵函數(shù)至關(guān)重要。
DrEureka獎勵感知物理先驗。通過廣泛的消融研究,研究人員發(fā)現(xiàn)使用初始Eureka策略生成獎勵感知的物理先驗對于DrEureka的成功至關(guān)重要,
譯自(有刪改):https://eureka-research.github.io/dr-eureka/
本文轉(zhuǎn)載自公眾號AIGC最前線
