自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

瑜伽球上遛「狗」!入選英偉達(dá)十大項(xiàng)目之一的Eureka有了新突破

人工智能 新聞
這項(xiàng)研究由賓夕法尼亞大學(xué)、 NVIDIA 、得克薩斯大學(xué)奧斯汀分校的研究者聯(lián)合打造,并且完全開源。他們提出了 DrEureka(域隨機(jī)化 Eureka)

機(jī)器狗在瑜伽球上穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)男凶撸胶饬δ鞘窍喈?dāng)?shù)暮茫?/span>

圖片

各種場(chǎng)景都能拿捏,不管是平坦的人行道、還是充滿挑戰(zhàn)的草坪都能 hold 住:

圖片

甚至是研究人員踢了一腳瑜伽球,機(jī)器狗也不會(huì)歪倒:

圖片

給氣球放氣機(jī)器狗也能保持平衡:

圖片

上述展示都是 1 倍速,沒(méi)有經(jīng)過(guò)加速處理。

圖片


  • 論文地址:https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf
  • 項(xiàng)目主頁(yè):https://github.com/eureka-research/DrEureka
  • 論文標(biāo)題:DrEureka: Language Model Guided Sim-To-Real Transfer

這項(xiàng)研究由賓夕法尼亞大學(xué)、 NVIDIA 、得克薩斯大學(xué)奧斯汀分校的研究者聯(lián)合打造,并且完全開源。他們提出了 DrEureka(域隨機(jī)化 Eureka),這是一種利用 LLM 實(shí)現(xiàn)獎(jiǎng)勵(lì)設(shè)計(jì)和域隨機(jī)化參數(shù)配置的新型算法,可同時(shí)實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。該研究展示了 DrEureka 算法能夠解決新穎的機(jī)器人任務(wù),例如四足機(jī)器人平衡和在瑜伽球上行走,而無(wú)需迭代手動(dòng)設(shè)計(jì)。

DrEureka 是基于 Eureka 完成的,后者還被評(píng)為 2023 年英偉達(dá)十大項(xiàng)目之一。了解 Eureka 更多內(nèi)容可參考《有了 GPT-4 之后,機(jī)器人把轉(zhuǎn)筆、盤核桃都學(xué)會(huì)了》。

在論文摘要部分,研究者表示將在模擬中學(xué)習(xí)到的策略遷移到現(xiàn)實(shí)世界是一種大規(guī)模獲取機(jī)器人技能的有前途的策略。然而,模擬到現(xiàn)實(shí)的方法通常依賴于任務(wù)獎(jiǎng)勵(lì)函數(shù)以及模擬物理參數(shù)的手動(dòng)設(shè)計(jì)和調(diào)整,這使得該過(guò)程緩慢且耗費(fèi)人力。本文研究了使用大型語(yǔ)言模型 (LLM) 來(lái)自動(dòng)化和加速模擬到現(xiàn)實(shí)的設(shè)計(jì)。

論文作者之一、英偉達(dá)高級(jí)科學(xué)家 Jim Fan 也參與了這項(xiàng)研究。此前英偉達(dá)成立 AI 實(shí)驗(yàn)室,領(lǐng)隊(duì)人就是 Jim Fan,專攻具身智能。Jim Fan 表示:

「我們訓(xùn)練了一只機(jī)器狗能在瑜伽球上保持平衡并行走,這完全是在模擬中進(jìn)行的,然后零樣本遷移到現(xiàn)實(shí)世界,無(wú)需微調(diào),直接運(yùn)行。

對(duì)機(jī)器狗來(lái)說(shuō),走瑜伽球任務(wù)尤其困難,因?yàn)槲覀儫o(wú)法準(zhǔn)確模擬彈力球表面。然而,DrEureka 可以輕松搜索大量模擬真實(shí)配置,并讓機(jī)器狗能夠在各種地形上操控球,甚至橫著走!

一般來(lái)講,從模擬到現(xiàn)實(shí)的遷移是通過(guò)域隨機(jī)化實(shí)現(xiàn)的,這是一個(gè)繁瑣的過(guò)程,需要機(jī)器人專家盯著每個(gè)參數(shù)并手動(dòng)調(diào)整。像 GPT-4 這樣的前沿 LLM 擁有大量?jī)?nèi)置的物理直覺(jué),包括摩擦、阻尼、剛度、重力等,借助 GPT-4,DrEureka 可以熟練地調(diào)整這些參數(shù)并很好地解釋其推理?!?/span>

論文介紹

DrEureka 流程如下所示,其接受任務(wù)和安全指令以及環(huán)境源代碼,并運(yùn)行 Eureka 以生成正則化的獎(jiǎng)勵(lì)函數(shù)和策略。然后,它在不同的模擬條件下測(cè)試該策略以構(gòu)建獎(jiǎng)勵(lì)感知物理先驗(yàn),并將其提供給 LLM 以生成一組域隨機(jī)化 (DR) 參數(shù)。最后,使用合成的獎(jiǎng)勵(lì)和 DR 參數(shù)訓(xùn)練策略以進(jìn)行實(shí)際部署。

 圖片

Eureka 獎(jiǎng)勵(lì)設(shè)計(jì)。獎(jiǎng)勵(lì)設(shè)計(jì)組件基于 Eureka,因?yàn)樗?jiǎn)單且具有表現(xiàn)力,但本文引入了一些改進(jìn),以增強(qiáng)其在模擬到真實(shí)環(huán)境中的適用性。偽代碼如下:

圖片

獎(jiǎng)勵(lì)感知物理先驗(yàn)(RAPP,reward aware physics prior)。安全獎(jiǎng)勵(lì)函數(shù)可以規(guī)范策略行為以固定環(huán)境選擇,但本身不足以實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。因此本文引入了一種簡(jiǎn)單的 RAPP 機(jī)制來(lái)限制 LLM 的基本范圍。

LLM 用于域隨機(jī)化。給定每個(gè) DR 參數(shù)的 RAPP 范圍,DrEureka 的最后一步指示 LLM 在 RAPP 范圍的限制內(nèi)生成域隨機(jī)化配置。具體過(guò)程參見(jiàn)圖 3:

該研究使用 Unitree Go1 來(lái)實(shí)驗(yàn),Go1 是一個(gè)小型四足機(jī)器人,四條腿有 12 個(gè)自由度。在四足運(yùn)動(dòng)任務(wù)中,本文還系統(tǒng)地評(píng)估了 DrEureka 策略在幾個(gè)現(xiàn)實(shí)世界地形上的性能,發(fā)現(xiàn)它們?nèi)匀痪哂恤敯粜?,并且?yōu)于使用人類設(shè)計(jì)的獎(jiǎng)勵(lì)和 DR 配置訓(xùn)練的策略。

了解更多內(nèi)容,請(qǐng)參考原論文。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-02-09 08:54:43

項(xiàng)目JavaScriptvite

2011-04-07 15:09:48

項(xiàng)目管理項(xiàng)目

2017-02-27 11:36:31

阿里

2013-04-23 15:31:28

大項(xiàng)目

2018-11-12 08:04:15

2018-12-03 05:06:53

2015-07-13 11:09:06

谷歌改變世界

2012-04-12 14:36:47

js項(xiàng)目合作

2020-05-27 11:03:27

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT

2022-12-16 15:25:00

AIScience

2019-08-08 16:54:08

GitHubJavaScript編程語(yǔ)言

2024-01-12 19:12:46

2019-02-28 22:08:04

阿里巴巴語(yǔ)音AI

2024-10-29 13:19:16

2010-01-05 10:59:24

2020-11-10 15:07:17

PythonGitHub項(xiàng)目

2024-08-21 13:09:53

2014-02-28 13:27:08

程序員代碼

2024-12-16 00:50:56

2011-11-15 08:46:26

項(xiàng)目管理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)