瑜伽球上遛「狗」!入選英偉達(dá)十大項(xiàng)目之一的Eureka有了新突破
機(jī)器狗在瑜伽球上穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)男凶撸胶饬δ鞘窍喈?dāng)?shù)暮茫?/span>
各種場(chǎng)景都能拿捏,不管是平坦的人行道、還是充滿挑戰(zhàn)的草坪都能 hold 住:
甚至是研究人員踢了一腳瑜伽球,機(jī)器狗也不會(huì)歪倒:
給氣球放氣機(jī)器狗也能保持平衡:
上述展示都是 1 倍速,沒(méi)有經(jīng)過(guò)加速處理。
- 論文地址:https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf
- 項(xiàng)目主頁(yè):https://github.com/eureka-research/DrEureka
- 論文標(biāo)題:DrEureka: Language Model Guided Sim-To-Real Transfer
這項(xiàng)研究由賓夕法尼亞大學(xué)、 NVIDIA 、得克薩斯大學(xué)奧斯汀分校的研究者聯(lián)合打造,并且完全開源。他們提出了 DrEureka(域隨機(jī)化 Eureka),這是一種利用 LLM 實(shí)現(xiàn)獎(jiǎng)勵(lì)設(shè)計(jì)和域隨機(jī)化參數(shù)配置的新型算法,可同時(shí)實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。該研究展示了 DrEureka 算法能夠解決新穎的機(jī)器人任務(wù),例如四足機(jī)器人平衡和在瑜伽球上行走,而無(wú)需迭代手動(dòng)設(shè)計(jì)。
DrEureka 是基于 Eureka 完成的,后者還被評(píng)為 2023 年英偉達(dá)十大項(xiàng)目之一。了解 Eureka 更多內(nèi)容可參考《有了 GPT-4 之后,機(jī)器人把轉(zhuǎn)筆、盤核桃都學(xué)會(huì)了》。
在論文摘要部分,研究者表示將在模擬中學(xué)習(xí)到的策略遷移到現(xiàn)實(shí)世界是一種大規(guī)模獲取機(jī)器人技能的有前途的策略。然而,模擬到現(xiàn)實(shí)的方法通常依賴于任務(wù)獎(jiǎng)勵(lì)函數(shù)以及模擬物理參數(shù)的手動(dòng)設(shè)計(jì)和調(diào)整,這使得該過(guò)程緩慢且耗費(fèi)人力。本文研究了使用大型語(yǔ)言模型 (LLM) 來(lái)自動(dòng)化和加速模擬到現(xiàn)實(shí)的設(shè)計(jì)。
論文作者之一、英偉達(dá)高級(jí)科學(xué)家 Jim Fan 也參與了這項(xiàng)研究。此前英偉達(dá)成立 AI 實(shí)驗(yàn)室,領(lǐng)隊(duì)人就是 Jim Fan,專攻具身智能。Jim Fan 表示:
「我們訓(xùn)練了一只機(jī)器狗能在瑜伽球上保持平衡并行走,這完全是在模擬中進(jìn)行的,然后零樣本遷移到現(xiàn)實(shí)世界,無(wú)需微調(diào),直接運(yùn)行。
對(duì)機(jī)器狗來(lái)說(shuō),走瑜伽球任務(wù)尤其困難,因?yàn)槲覀儫o(wú)法準(zhǔn)確模擬彈力球表面。然而,DrEureka 可以輕松搜索大量模擬真實(shí)配置,并讓機(jī)器狗能夠在各種地形上操控球,甚至橫著走!
一般來(lái)講,從模擬到現(xiàn)實(shí)的遷移是通過(guò)域隨機(jī)化實(shí)現(xiàn)的,這是一個(gè)繁瑣的過(guò)程,需要機(jī)器人專家盯著每個(gè)參數(shù)并手動(dòng)調(diào)整。像 GPT-4 這樣的前沿 LLM 擁有大量?jī)?nèi)置的物理直覺(jué),包括摩擦、阻尼、剛度、重力等,借助 GPT-4,DrEureka 可以熟練地調(diào)整這些參數(shù)并很好地解釋其推理?!?/span>
論文介紹
DrEureka 流程如下所示,其接受任務(wù)和安全指令以及環(huán)境源代碼,并運(yùn)行 Eureka 以生成正則化的獎(jiǎng)勵(lì)函數(shù)和策略。然后,它在不同的模擬條件下測(cè)試該策略以構(gòu)建獎(jiǎng)勵(lì)感知物理先驗(yàn),并將其提供給 LLM 以生成一組域隨機(jī)化 (DR) 參數(shù)。最后,使用合成的獎(jiǎng)勵(lì)和 DR 參數(shù)訓(xùn)練策略以進(jìn)行實(shí)際部署。
Eureka 獎(jiǎng)勵(lì)設(shè)計(jì)。獎(jiǎng)勵(lì)設(shè)計(jì)組件基于 Eureka,因?yàn)樗?jiǎn)單且具有表現(xiàn)力,但本文引入了一些改進(jìn),以增強(qiáng)其在模擬到真實(shí)環(huán)境中的適用性。偽代碼如下:
獎(jiǎng)勵(lì)感知物理先驗(yàn)(RAPP,reward aware physics prior)。安全獎(jiǎng)勵(lì)函數(shù)可以規(guī)范策略行為以固定環(huán)境選擇,但本身不足以實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。因此本文引入了一種簡(jiǎn)單的 RAPP 機(jī)制來(lái)限制 LLM 的基本范圍。
LLM 用于域隨機(jī)化。給定每個(gè) DR 參數(shù)的 RAPP 范圍,DrEureka 的最后一步指示 LLM 在 RAPP 范圍的限制內(nèi)生成域隨機(jī)化配置。具體過(guò)程參見(jiàn)圖 3:
該研究使用 Unitree Go1 來(lái)實(shí)驗(yàn),Go1 是一個(gè)小型四足機(jī)器人,四條腿有 12 個(gè)自由度。在四足運(yùn)動(dòng)任務(wù)中,本文還系統(tǒng)地評(píng)估了 DrEureka 策略在幾個(gè)現(xiàn)實(shí)世界地形上的性能,發(fā)現(xiàn)它們?nèi)匀痪哂恤敯粜?,并且?yōu)于使用人類設(shè)計(jì)的獎(jiǎng)勵(lì)和 DR 配置訓(xùn)練的策略。
了解更多內(nèi)容,請(qǐng)參考原論文。