自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

GPT-4教會(huì)機(jī)器手轉(zhuǎn)筆、玩魔方！RL社區(qū)震驚：LLM設(shè)計(jì)獎(jiǎng)勵(lì)竟能超越人類(lèi)？

2023-10-23 13:31:37

來(lái)自英偉達(dá)等機(jī)構(gòu)的研究者，竟然讓GPT-4教會(huì)機(jī)器人轉(zhuǎn)筆、玩魔方？通過(guò)編碼大語(yǔ)言模型，可以完成超越人類(lèi)水平的獎(jiǎng)勵(lì)設(shè)計(jì)，整個(gè)RL社區(qū)都震驚了。

GPT-4，竟然教會(huì)機(jī)器人轉(zhuǎn)筆了！

圖片

英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專(zhuān)家提出一個(gè)開(kāi)放式Agent——Eureka，它是一個(gè)開(kāi)放式Agent，為超人類(lèi)水平的機(jī)器人靈巧性設(shè)計(jì)了獎(jiǎng)勵(lì)功能。

圖片

論文鏈接：https://arxiv.org/pdf/2310.12931.pdf

項(xiàng)目鏈接：https://eureka-research.github.io/

代碼鏈接：https://github.com/eureka-research/Eureka

作者之一的英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此點(diǎn)評(píng)道：這簡(jiǎn)直就像物理模擬器API空間中的旅行者空間探測(cè)器！

圖片

以往，LLM和機(jī)器人結(jié)合的應(yīng)用案例，往往是讓大模型幫助機(jī)器人規(guī)劃高級(jí)任務(wù)。比如，讓LLM告訴機(jī)器人，把大象裝進(jìn)冰箱需要3步，打開(kāi)冰箱，把大象放進(jìn)去，再關(guān)上冰箱門(mén)。

然而控制機(jī)器人完成打開(kāi)冰箱，放置大象，和關(guān)上冰箱門(mén)這3個(gè)具體的低級(jí)動(dòng)作，機(jī)器人需要依靠其他的方式來(lái)控制完成。

圖片

但是英偉達(dá)等機(jī)構(gòu)的研究人員開(kāi)發(fā)出的Eureka系統(tǒng)，可以讓GPT-4直接教機(jī)器人完成基本的動(dòng)作。

具體來(lái)說(shuō)，它是一個(gè)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法，充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力，產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過(guò)強(qiáng)化學(xué)習(xí)來(lái)讓機(jī)器人獲得復(fù)雜的具體技能。

圖片

在沒(méi)有任何特定于任務(wù)的提示或預(yù)定義的獎(jiǎng)勵(lì)模板的情況下，Eureka生成的獎(jiǎng)勵(lì)函數(shù)的質(zhì)量，已經(jīng)能夠超過(guò)人類(lèi)專(zhuān)家設(shè)計(jì)的獎(jiǎng)勵(lì)！

從此，LLM+機(jī)器人又有了新玩法。

同往常一樣，代碼是開(kāi)源的。

圖片

全體RL社區(qū)，起立！

AI學(xué)者驚呼：全體RL社區(qū)都應(yīng)該對(duì)Eureka論文感到敬畏和震驚。

圖片

如果按他們的方法一遍一遍重復(fù)，RL會(huì)在不同的任務(wù)中取得超越人類(lèi)的成功，并且完全不需要人工干預(yù)！

幾年前，RL似乎讓業(yè)界有野心實(shí)現(xiàn)AGI，但后來(lái)發(fā)生的事情，讓RL被降級(jí)為蛋糕上的櫻桃，而LLM一直是那塊缺失的拼圖。

如今，基于自我改進(jìn)的正反饋循環(huán)很可能即將到來(lái)，進(jìn)而讓我們擁有超越人類(lèi)的訓(xùn)練數(shù)據(jù)和能力。

Jim Fan還表示，Eureka可以應(yīng)用機(jī)器人之外的許多場(chǎng)景，比如動(dòng)畫(huà)和游戲。

圖片

動(dòng)畫(huà)即是控制虛擬世界中的角色，這是勞動(dòng)密集型的工作：工作室讓藝術(shù)家用手畫(huà)每一幀，或者讓演員做MoCap。即便如此，動(dòng)作也是靜態(tài)數(shù)據(jù)，無(wú)法對(duì)動(dòng)態(tài)變化的環(huán)境做出反應(yīng)。

而Eureka是通用的，提供了一種快速擴(kuò)展物理逼真和響應(yīng)式動(dòng)畫(huà)的方法。它可以成為藝術(shù)家的copilot，通過(guò)自然語(yǔ)言界面創(chuàng)造新的靈巧技能。而且，游戲甚至可以通過(guò)使用臨時(shí)獎(jiǎng)勵(lì)功能微調(diào)控制器，來(lái)動(dòng)態(tài)生成行為。

圖片

《艾爾登法環(huán)》的Boss戰(zhàn)中，女神瑪蓮妮亞標(biāo)志性的「水鳥(niǎo)亂舞」動(dòng)作不知道需要多少天的手工工作

在編碼和電機(jī)控制之間，架起橋梁

Eureka在高級(jí)推理（編碼）和低級(jí)電機(jī)控制之間，架起了一座橋梁，彌合了差距。

它是一種「混合梯度架構(gòu)」：一個(gè)黑盒、純推理的LLM指導(dǎo)一個(gè)白盒、可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。

外循環(huán)運(yùn)行 GPT-4 以?xún)?yōu)化獎(jiǎng)勵(lì)函數(shù)（無(wú)梯度），而內(nèi)循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)以訓(xùn)練機(jī)器人控制器（基于梯度）。

圖片

研究者之所以能擴(kuò)大Eureka的規(guī)模，這要?dú)w功于IsaacGym，這是一款GPU加速的物理模擬器，可將現(xiàn)實(shí)速度提高1000倍。

在10個(gè)機(jī)器人執(zhí)行的29項(xiàng)基準(zhǔn)任務(wù)中，Eureka在83%的任務(wù)中獲得的獎(jiǎng)勵(lì)超過(guò)了人類(lèi)編寫(xiě)的專(zhuān)家獎(jiǎng)勵(lì)，平均提高幅度達(dá)52%。

Eureka獎(jiǎng)勵(lì)和策略

研究人員展示了Eureka設(shè)計(jì)的獎(jiǎng)勵(lì)以及使用這些獎(jiǎng)勵(lì)為每個(gè)環(huán)境訓(xùn)練的策略：

在兩個(gè)開(kāi)源基準(zhǔn)測(cè)試：Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中，Eureka針對(duì)10個(gè)機(jī)器人和29個(gè)獨(dú)立任務(wù)設(shè)計(jì)了獎(jiǎng)勵(lì)。

圖片

最讓人驚訝的是，Eureka竟然學(xué)會(huì)了轉(zhuǎn)筆！要知道，即使是CGI藝術(shù)家，也很難把它逐幀制作成動(dòng)畫(huà)。

圖片

網(wǎng)格中心的視頻展示的是筆的旋轉(zhuǎn)軸垂直于手掌，將筆平行與手掌進(jìn)行旋轉(zhuǎn)（經(jīng)典的轉(zhuǎn)筆動(dòng)作）。此外，研究人員還訓(xùn)練了圍繞不同軸轉(zhuǎn)筆的其他幾種變體。

并且，Eureka還實(shí)現(xiàn)了一種新形式的上下文RLHF，它能將人類(lèi)操作員的自然語(yǔ)言反饋納入其中，以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。

而且，機(jī)器人工程師設(shè)計(jì)復(fù)雜的運(yùn)動(dòng)行為時(shí)，這種RLHF還可以提供強(qiáng)大的co-pilot功能。

在機(jī)器人學(xué)習(xí)中，大語(yǔ)言模型一直擅長(zhǎng)的是生成高級(jí)計(jì)劃和中級(jí)動(dòng)作，比如拾取和放置（VIMA、RT-1 等），但在復(fù)雜的高頻運(yùn)動(dòng)控制上，LLM就有所欠缺了。

而Eureka時(shí)刻通過(guò)編碼實(shí)現(xiàn)了獎(jiǎng)勵(lì)功能，這是LLM學(xué)習(xí)靈巧技能的關(guān)鍵入口。

Eureka的構(gòu)成組件

Eureka通過(guò)在上下文中發(fā)展獎(jiǎng)勵(lì)功能，實(shí)現(xiàn)了人類(lèi)水平的獎(jiǎng)勵(lì)設(shè)計(jì)。

它有3個(gè)關(guān)鍵組成部分。

圖片

模擬器環(huán)境代碼作為上下文，快速啟動(dòng)初始「種子」獎(jiǎng)勵(lì)函數(shù)。
GPU上的大規(guī)模并行RL，可以快速評(píng)估大量候選獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)反射可在上下文中產(chǎn)生有針對(duì)性的獎(jiǎng)勵(lì)突變。

將原始環(huán)境用作LLM上下文

首先，通過(guò)使用原始的IsaacGym環(huán)境代碼作為上下文，Eureka已經(jīng)可以生成可用的獎(jiǎng)勵(lì)程序，而無(wú)需任何特定任務(wù)的提示工程。

這就使得Eureka成為一個(gè)開(kāi)放式的通用獎(jiǎng)勵(lì)設(shè)計(jì)師，在第一次嘗試時(shí)就可以輕松地為所有的環(huán)境生成獎(jiǎng)勵(lì)函數(shù)。

圖片

其次，Eureka 會(huì)在每個(gè)進(jìn)化步驟中生成許多候選獎(jiǎng)勵(lì)，然后使用完整的RL訓(xùn)練循環(huán)對(duì)其進(jìn)行評(píng)估。

通常，這個(gè)過(guò)程非常緩慢，可能需要幾天甚至幾周。

而有了英偉達(dá)的GPU原生機(jī)器人訓(xùn)練平臺(tái)IsaacGym (https://developer.nvidia.com/isaac-gym)，這一規(guī)?？梢匝杆贁U(kuò)大，將模擬時(shí)間提高了1000倍。

現(xiàn)在，RL內(nèi)循環(huán)可以在幾分鐘內(nèi)完成！

Eureka獎(jiǎng)勵(lì)反思（Reward Reflection）

Eureka依賴(lài)于獎(jiǎng)勵(lì)反思，這是對(duì)RL訓(xùn)練的自動(dòng)文本總結(jié)。

因?yàn)镚PT-4在上下文代碼修復(fù)上的卓越能力，使得Eureka能夠執(zhí)行有針對(duì)性的獎(jiǎng)勵(lì)突變。

圖片

實(shí)驗(yàn)

研究人員在一系列不同的機(jī)器人實(shí)施例和任務(wù)上對(duì) Eureka 進(jìn)行了全面評(píng)估，測(cè)試其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)以及整合各種形式的人類(lèi)輸入的能力。

研究人員的環(huán)境由10 個(gè)不同的機(jī)器人和使用IsaacGym模擬器執(zhí)行的29個(gè)任務(wù)組成。

首先，研究人員包括來(lái)自 IsaacGym (Isaac) 的 9 個(gè)原始環(huán)境，涵蓋從四足、雙足、四旋翼、協(xié)作機(jī)器人手臂到靈巧手的各種機(jī)器人形態(tài)。

除了囊括了機(jī)器人外形尺寸之外，研究人員還通過(guò)納入Dexterity基準(zhǔn)測(cè)試中的所有 20 項(xiàng)任務(wù)來(lái)確保評(píng)估的深度。

Dexterity包含20項(xiàng)復(fù)雜的雙手動(dòng)任務(wù)，需要一雙影子手來(lái)解決各種復(fù)雜的具體操作技能，從物體交接到將杯子旋轉(zhuǎn)180度。

評(píng)估結(jié)果

圖片

Eureka可以生成超人類(lèi)水平的獎(jiǎng)勵(lì)函數(shù)

在29項(xiàng)任務(wù)中，Eureka生成的獎(jiǎng)勵(lì)在83%的任務(wù)上表現(xiàn)優(yōu)于人類(lèi)專(zhuān)家編寫(xiě)的獎(jiǎng)勵(lì)，平均標(biāo)準(zhǔn)化提升為52%。

特別是，Eureka在高維Dexterity環(huán)境中實(shí)現(xiàn)了更大的收益。

圖片

Eureka進(jìn)化獎(jiǎng)勵(lì)搜索可以隨著時(shí)間的推移實(shí)現(xiàn)持續(xù)的獎(jiǎng)勵(lì)改進(jìn)

Eureka通過(guò)將大規(guī)模獎(jiǎng)勵(lì)搜索與詳細(xì)獎(jiǎng)勵(lì)反思反饋相結(jié)合，逐步產(chǎn)生更好的獎(jiǎng)勵(lì)，最終超過(guò)人類(lèi)水平。

Eureka生成的原創(chuàng)性獎(jiǎng)勵(lì)

圖片

研究人員通過(guò)計(jì)算所有Isaac任務(wù)上的Eureka和人類(lèi)獎(jiǎng)勵(lì)之間的相關(guān)性來(lái)評(píng)估Eureka獎(jiǎng)勵(lì)的新穎性。

如上圖所示，Eureka主要生成弱相關(guān)的獎(jiǎng)勵(lì)函數(shù)，其表現(xiàn)優(yōu)于人類(lèi)的獎(jiǎng)勵(lì)函數(shù)。

此外，研究人員觀察到任務(wù)越難，Eureka獎(jiǎng)勵(lì)的相關(guān)性就越小。在某些情況下，Eureka獎(jiǎng)勵(lì)甚至與人類(lèi)獎(jiǎng)勵(lì)呈負(fù)相關(guān)，但表現(xiàn)卻明顯優(yōu)于人類(lèi)獎(jiǎng)勵(lì)。

通過(guò)課程學(xué)習(xí)來(lái)教會(huì)靈巧轉(zhuǎn)筆

圖片

轉(zhuǎn)筆任務(wù)需要影子手不斷旋轉(zhuǎn)筆，以實(shí)現(xiàn)一些預(yù)定義的旋轉(zhuǎn)模式，完成盡可能多的循環(huán)。

圖片

研究人員通過(guò)以下方式解決此任務(wù)：

（1）指示 Eureka 生成獎(jiǎng)勵(lì)函數(shù)，用于將筆重新定向到隨機(jī)目標(biāo)配置，然后

（2）使用 Eureka 獎(jiǎng)勵(lì)微調(diào)此預(yù)訓(xùn)練策略以達(dá)到所需的筆序列-旋轉(zhuǎn)配置。

如圖所示，Eureka微調(diào)很快就適應(yīng)了策略，成功地連續(xù)旋轉(zhuǎn)了許多個(gè)周期。相比之下，預(yù)訓(xùn)練或從頭開(kāi)始學(xué)習(xí)的策略連單個(gè)周期都無(wú)法完成。

圖片

5次查詢(xún)，教會(huì)人形機(jī)器人穩(wěn)定地跑步！

Eureka能否根據(jù)人類(lèi)反饋進(jìn)行調(diào)整呢？

目前為止，Eureka可以通過(guò)環(huán)境反饋全自動(dòng)運(yùn)行。

為了捕捉人類(lèi)的細(xì)微偏好，Eureka還可以使用自然語(yǔ)言反饋來(lái)共同引導(dǎo)獎(jiǎng)勵(lì)設(shè)計(jì)。

這就產(chǎn)生了一種新穎的無(wú)梯度情境下的RLHF。

圖片

帶有人類(lèi)反饋的Eureka只用了5次查詢(xún)，就教會(huì)了人形機(jī)器人如何穩(wěn)定地跑步！

圖片

而在沒(méi)有RLHF前，人形機(jī)器人是這樣跑步的。

圖片

參考資料：

https://eureka-research.github.io/

責(zé)任編輯：武曉燕來(lái)源：新智元

GPT-4 語(yǔ)言模型

相似話題

機(jī)器學(xué)習(xí)

2031內(nèi)容

深度學(xué)習(xí)

1694內(nèi)容

自然語(yǔ)言處理

110內(nèi)容

語(yǔ)音識(shí)別

107內(nèi)容

同話題下的熱門(mén)內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費(fèi)了深夜突襲，阿里Qwen3登頂全球開(kāi)源王座！暴擊DeepSeek-R1，2小時(shí)狂攬17k星 MCP 服務(wù)器很危險(xiǎn)！這里有安全使用指南！剛剛，Qwen3強(qiáng)勢(shì)登頂，成開(kāi)源新王！國(guó)內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開(kāi)：全系列8個(gè)模型一口氣開(kāi)源！Kimi-Audio開(kāi)源橫掃全場(chǎng)景，1300萬(wàn)+小時(shí)數(shù)據(jù)煉成語(yǔ)音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個(gè)AI工具讓全球每個(gè)GitHub項(xiàng)目開(kāi)口說(shuō)話大模型應(yīng)用系列：兩萬(wàn)字解讀MCP 一文詳解深度學(xué)習(xí)中的標(biāo)量、向量、矩陣、張量

相關(guān)專(zhuān)題更多

解讀惠普Z(yǔ)系列工作站ZBook Ultra G1a高性能移動(dòng)

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開(kāi)發(fā)者成長(zhǎng)學(xué)院 | 成長(zhǎng)有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="kmx9q"><rp id="kmx9q"><form id="kmx9q"></form></rp></cite>

<legend id="kmx9q"><abbr id="kmx9q"></abbr></legend>