自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

瑜伽球上遛「狗」！入選英偉達(dá)十大項(xiàng)目之一的Eureka有了新突破

作者：機(jī)器之心 2024-05-06 07:30:00

人工智能新聞

這項(xiàng)研究由賓夕法尼亞大學(xué)、 NVIDIA 、得克薩斯大學(xué)奧斯汀分校的研究者聯(lián)合打造，并且完全開源。他們提出了 DrEureka（域隨機(jī)化 Eureka）

機(jī)器狗在瑜伽球上穩(wěn)穩(wěn)當(dāng)當(dāng)?shù)男凶撸胶饬δ鞘窍喈?dāng)?shù)暮茫?/span>

各種場(chǎng)景都能拿捏，不管是平坦的人行道、還是充滿挑戰(zhàn)的草坪都能 hold 住：

甚至是研究人員踢了一腳瑜伽球，機(jī)器狗也不會(huì)歪倒：

給氣球放氣機(jī)器狗也能保持平衡：

上述展示都是 1 倍速，沒(méi)有經(jīng)過(guò)加速處理。

論文地址：https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf
項(xiàng)目主頁(yè)：https://github.com/eureka-research/DrEureka
論文標(biāo)題：DrEureka: Language Model Guided Sim-To-Real Transfer

這項(xiàng)研究由賓夕法尼亞大學(xué)、 NVIDIA 、得克薩斯大學(xué)奧斯汀分校的研究者聯(lián)合打造，并且完全開源。他們提出了 DrEureka（域隨機(jī)化 Eureka），這是一種利用 LLM 實(shí)現(xiàn)獎(jiǎng)勵(lì)設(shè)計(jì)和域隨機(jī)化參數(shù)配置的新型算法，可同時(shí)實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。該研究展示了 DrEureka 算法能夠解決新穎的機(jī)器人任務(wù)，例如四足機(jī)器人平衡和在瑜伽球上行走，而無(wú)需迭代手動(dòng)設(shè)計(jì)。

DrEureka 是基于 Eureka 完成的，后者還被評(píng)為 2023 年英偉達(dá)十大項(xiàng)目之一。了解 Eureka 更多內(nèi)容可參考《有了 GPT-4 之后，機(jī)器人把轉(zhuǎn)筆、盤核桃都學(xué)會(huì)了》。

在論文摘要部分，研究者表示將在模擬中學(xué)習(xí)到的策略遷移到現(xiàn)實(shí)世界是一種大規(guī)模獲取機(jī)器人技能的有前途的策略。然而，模擬到現(xiàn)實(shí)的方法通常依賴于任務(wù)獎(jiǎng)勵(lì)函數(shù)以及模擬物理參數(shù)的手動(dòng)設(shè)計(jì)和調(diào)整，這使得該過(guò)程緩慢且耗費(fèi)人力。本文研究了使用大型語(yǔ)言模型 (LLM) 來(lái)自動(dòng)化和加速模擬到現(xiàn)實(shí)的設(shè)計(jì)。

論文作者之一、英偉達(dá)高級(jí)科學(xué)家 Jim Fan 也參與了這項(xiàng)研究。此前英偉達(dá)成立 AI 實(shí)驗(yàn)室，領(lǐng)隊(duì)人就是 Jim Fan，專攻具身智能。Jim Fan 表示：

「我們訓(xùn)練了一只機(jī)器狗能在瑜伽球上保持平衡并行走，這完全是在模擬中進(jìn)行的，然后零樣本遷移到現(xiàn)實(shí)世界，無(wú)需微調(diào)，直接運(yùn)行。

對(duì)機(jī)器狗來(lái)說(shuō)，走瑜伽球任務(wù)尤其困難，因?yàn)槲覀儫o(wú)法準(zhǔn)確模擬彈力球表面。然而，DrEureka 可以輕松搜索大量模擬真實(shí)配置，并讓機(jī)器狗能夠在各種地形上操控球，甚至橫著走！

一般來(lái)講，從模擬到現(xiàn)實(shí)的遷移是通過(guò)域隨機(jī)化實(shí)現(xiàn)的，這是一個(gè)繁瑣的過(guò)程，需要機(jī)器人專家盯著每個(gè)參數(shù)并手動(dòng)調(diào)整。像 GPT-4 這樣的前沿 LLM 擁有大量?jī)?nèi)置的物理直覺(jué)，包括摩擦、阻尼、剛度、重力等，借助 GPT-4，DrEureka 可以熟練地調(diào)整這些參數(shù)并很好地解釋其推理?！?/span>

論文介紹

DrEureka 流程如下所示，其接受任務(wù)和安全指令以及環(huán)境源代碼，并運(yùn)行 Eureka 以生成正則化的獎(jiǎng)勵(lì)函數(shù)和策略。然后，它在不同的模擬條件下測(cè)試該策略以構(gòu)建獎(jiǎng)勵(lì)感知物理先驗(yàn)，并將其提供給 LLM 以生成一組域隨機(jī)化 (DR) 參數(shù)。最后，使用合成的獎(jiǎng)勵(lì)和 DR 參數(shù)訓(xùn)練策略以進(jìn)行實(shí)際部署。

Eureka 獎(jiǎng)勵(lì)設(shè)計(jì)。獎(jiǎng)勵(lì)設(shè)計(jì)組件基于 Eureka，因?yàn)樗?jiǎn)單且具有表現(xiàn)力，但本文引入了一些改進(jìn)，以增強(qiáng)其在模擬到真實(shí)環(huán)境中的適用性。偽代碼如下：

獎(jiǎng)勵(lì)感知物理先驗(yàn)（RAPP，reward aware physics prior）。安全獎(jiǎng)勵(lì)函數(shù)可以規(guī)范策略行為以固定環(huán)境選擇，但本身不足以實(shí)現(xiàn)模擬到現(xiàn)實(shí)的遷移。因此本文引入了一種簡(jiǎn)單的 RAPP 機(jī)制來(lái)限制 LLM 的基本范圍。

LLM 用于域隨機(jī)化。給定每個(gè) DR 參數(shù)的 RAPP 范圍，DrEureka 的最后一步指示 LLM 在 RAPP 范圍的限制內(nèi)生成域隨機(jī)化配置。具體過(guò)程參見(jiàn)圖 3：

該研究使用 Unitree Go1 來(lái)實(shí)驗(yàn)，Go1 是一個(gè)小型四足機(jī)器人，四條腿有 12 個(gè)自由度。在四足運(yùn)動(dòng)任務(wù)中，本文還系統(tǒng)地評(píng)估了 DrEureka 策略在幾個(gè)現(xiàn)實(shí)世界地形上的性能，發(fā)現(xiàn)它們?nèi)匀痪哂恤敯粜?，并且?yōu)于使用人類設(shè)計(jì)的獎(jiǎng)勵(lì)和 DR 配置訓(xùn)練的策略。

了解更多內(nèi)容，請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

機(jī)器狗 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="tqoyt"></blockquote>}