GPT-4教會(huì)機(jī)器手轉(zhuǎn)筆、玩魔方!RL社區(qū)震驚:LLM設(shè)計(jì)獎(jiǎng)勵(lì)竟能超越人類(lèi)?
GPT-4,竟然教會(huì)機(jī)器人轉(zhuǎn)筆了!
圖片
英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專(zhuān)家提出一個(gè)開(kāi)放式Agent——Eureka,它是一個(gè)開(kāi)放式Agent,為超人類(lèi)水平的機(jī)器人靈巧性設(shè)計(jì)了獎(jiǎng)勵(lì)功能。
圖片
論文鏈接:https://arxiv.org/pdf/2310.12931.pdf
項(xiàng)目鏈接:https://eureka-research.github.io/
代碼鏈接:https://github.com/eureka-research/Eureka
作者之一的英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此點(diǎn)評(píng)道:這簡(jiǎn)直就像物理模擬器API空間中的旅行者空間探測(cè)器!
圖片
以往,LLM和機(jī)器人結(jié)合的應(yīng)用案例,往往是讓大模型幫助機(jī)器人規(guī)劃高級(jí)任務(wù)。比如,讓LLM告訴機(jī)器人,把大象裝進(jìn)冰箱需要3步,打開(kāi)冰箱,把大象放進(jìn)去,再關(guān)上冰箱門(mén)。
然而控制機(jī)器人完成打開(kāi)冰箱,放置大象,和關(guān)上冰箱門(mén)這3個(gè)具體的低級(jí)動(dòng)作,機(jī)器人需要依靠其他的方式來(lái)控制完成。
圖片
但是英偉達(dá)等機(jī)構(gòu)的研究人員開(kāi)發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機(jī)器人完成基本的動(dòng)作。
具體來(lái)說(shuō),它是一個(gè)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力,產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過(guò)強(qiáng)化學(xué)習(xí)來(lái)讓機(jī)器人獲得復(fù)雜的具體技能。
圖片
在沒(méi)有任何特定于任務(wù)的提示或預(yù)定義的獎(jiǎng)勵(lì)模板的情況下,Eureka生成的獎(jiǎng)勵(lì)函數(shù)的質(zhì)量,已經(jīng)能夠超過(guò)人類(lèi)專(zhuān)家設(shè)計(jì)的獎(jiǎng)勵(lì)!
從此,LLM+機(jī)器人又有了新玩法。
同往常一樣,代碼是開(kāi)源的。
圖片
全體RL社區(qū),起立!
AI學(xué)者驚呼:全體RL社區(qū)都應(yīng)該對(duì)Eureka論文感到敬畏和震驚。
圖片
如果按他們的方法一遍一遍重復(fù),RL會(huì)在不同的任務(wù)中取得超越人類(lèi)的成功,并且完全不需要人工干預(yù)!
幾年前,RL似乎讓業(yè)界有野心實(shí)現(xiàn)AGI,但后來(lái)發(fā)生的事情,讓RL被降級(jí)為蛋糕上的櫻桃,而LLM一直是那塊缺失的拼圖。
如今,基于自我改進(jìn)的正反饋循環(huán)很可能即將到來(lái),進(jìn)而讓我們擁有超越人類(lèi)的訓(xùn)練數(shù)據(jù)和能力。
Jim Fan還表示,Eureka可以應(yīng)用機(jī)器人之外的許多場(chǎng)景,比如動(dòng)畫(huà)和游戲。
圖片
動(dòng)畫(huà)即是控制虛擬世界中的角色,這是勞動(dòng)密集型的工作:工作室讓藝術(shù)家用手畫(huà)每一幀,或者讓演員做MoCap。即便如此,動(dòng)作也是靜態(tài)數(shù)據(jù),無(wú)法對(duì)動(dòng)態(tài)變化的環(huán)境做出反應(yīng)。
而Eureka是通用的,提供了一種快速擴(kuò)展物理逼真和響應(yīng)式動(dòng)畫(huà)的方法。它可以成為藝術(shù)家的copilot,通過(guò)自然語(yǔ)言界面創(chuàng)造新的靈巧技能。而且,游戲甚至可以通過(guò)使用臨時(shí)獎(jiǎng)勵(lì)功能微調(diào)控制器,來(lái)動(dòng)態(tài)生成行為。
圖片
《艾爾登法環(huán)》的Boss戰(zhàn)中,女神瑪蓮妮亞標(biāo)志性的「水鳥(niǎo)亂舞」動(dòng)作不知道需要多少天的手工工作
在編碼和電機(jī)控制之間,架起橋梁
Eureka在高級(jí)推理(編碼)和低級(jí)電機(jī)控制之間,架起了一座橋梁,彌合了差距。
它是一種「混合梯度架構(gòu)」:一個(gè)黑盒、純推理的LLM指導(dǎo)一個(gè)白盒、可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。
外循環(huán)運(yùn)行 GPT-4 以?xún)?yōu)化獎(jiǎng)勵(lì)函數(shù)(無(wú)梯度),而內(nèi)循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)以訓(xùn)練機(jī)器人控制器(基于梯度)。
圖片
研究者之所以能擴(kuò)大Eureka的規(guī)模,這要?dú)w功于IsaacGym,這是一款GPU加速的物理模擬器,可將現(xiàn)實(shí)速度提高1000倍。
在10個(gè)機(jī)器人執(zhí)行的29項(xiàng)基準(zhǔn)任務(wù)中,Eureka在83%的任務(wù)中獲得的獎(jiǎng)勵(lì)超過(guò)了人類(lèi)編寫(xiě)的專(zhuān)家獎(jiǎng)勵(lì),平均提高幅度達(dá)52%。
Eureka獎(jiǎng)勵(lì)和策略
研究人員展示了Eureka設(shè)計(jì)的獎(jiǎng)勵(lì)以及使用這些獎(jiǎng)勵(lì)為每個(gè)環(huán)境訓(xùn)練的策略:
在兩個(gè)開(kāi)源基準(zhǔn)測(cè)試:Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中,Eureka針對(duì)10個(gè)機(jī)器人和29個(gè)獨(dú)立任務(wù)設(shè)計(jì)了獎(jiǎng)勵(lì)。
圖片
最讓人驚訝的是,Eureka竟然學(xué)會(huì)了轉(zhuǎn)筆!要知道,即使是CGI藝術(shù)家,也很難把它逐幀制作成動(dòng)畫(huà)。
圖片
網(wǎng)格中心的視頻展示的是筆的旋轉(zhuǎn)軸垂直于手掌,將筆平行與手掌進(jìn)行旋轉(zhuǎn)(經(jīng)典的轉(zhuǎn)筆動(dòng)作)。此外,研究人員還訓(xùn)練了圍繞不同軸轉(zhuǎn)筆的其他幾種變體。
并且,Eureka還實(shí)現(xiàn)了一種新形式的上下文RLHF,它能將人類(lèi)操作員的自然語(yǔ)言反饋納入其中,以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。
而且,機(jī)器人工程師設(shè)計(jì)復(fù)雜的運(yùn)動(dòng)行為時(shí),這種RLHF還可以提供強(qiáng)大的co-pilot功能。
在機(jī)器人學(xué)習(xí)中,大語(yǔ)言模型一直擅長(zhǎng)的是生成高級(jí)計(jì)劃和中級(jí)動(dòng)作,比如拾取和放置(VIMA、RT-1 等),但在復(fù)雜的高頻運(yùn)動(dòng)控制上,LLM就有所欠缺了。
而Eureka時(shí)刻通過(guò)編碼實(shí)現(xiàn)了獎(jiǎng)勵(lì)功能,這是LLM學(xué)習(xí)靈巧技能的關(guān)鍵入口。
Eureka的構(gòu)成組件
Eureka通過(guò)在上下文中發(fā)展獎(jiǎng)勵(lì)功能,實(shí)現(xiàn)了人類(lèi)水平的獎(jiǎng)勵(lì)設(shè)計(jì)。
它有3個(gè)關(guān)鍵組成部分。
圖片
- 模擬器環(huán)境代碼作為上下文,快速啟動(dòng)初始「種子」獎(jiǎng)勵(lì)函數(shù)。
- GPU上的大規(guī)模并行RL,可以快速評(píng)估大量候選獎(jiǎng)勵(lì)。
- 獎(jiǎng)勵(lì)反射可在上下文中產(chǎn)生有針對(duì)性的獎(jiǎng)勵(lì)突變。
將原始環(huán)境用作LLM上下文
首先,通過(guò)使用原始的IsaacGym環(huán)境代碼作為上下文,Eureka已經(jīng)可以生成可用的獎(jiǎng)勵(lì)程序,而無(wú)需任何特定任務(wù)的提示工程。
這就使得Eureka成為一個(gè)開(kāi)放式的通用獎(jiǎng)勵(lì)設(shè)計(jì)師,在第一次嘗試時(shí)就可以輕松地為所有的環(huán)境生成獎(jiǎng)勵(lì)函數(shù)。
圖片
其次,Eureka 會(huì)在每個(gè)進(jìn)化步驟中生成許多候選獎(jiǎng)勵(lì),然后使用完整的RL訓(xùn)練循環(huán)對(duì)其進(jìn)行評(píng)估。
通常,這個(gè)過(guò)程非常緩慢,可能需要幾天甚至幾周。
而有了英偉達(dá)的GPU原生機(jī)器人訓(xùn)練平臺(tái)IsaacGym (https://developer.nvidia.com/isaac-gym),這一規(guī)??梢匝杆贁U(kuò)大,將模擬時(shí)間提高了1000倍。
現(xiàn)在,RL內(nèi)循環(huán)可以在幾分鐘內(nèi)完成!
Eureka獎(jiǎng)勵(lì)反思(Reward Reflection)
Eureka依賴(lài)于獎(jiǎng)勵(lì)反思,這是對(duì)RL訓(xùn)練的自動(dòng)文本總結(jié)。
因?yàn)镚PT-4在上下文代碼修復(fù)上的卓越能力,使得Eureka能夠執(zhí)行有針對(duì)性的獎(jiǎng)勵(lì)突變。
圖片
實(shí)驗(yàn)
研究人員在一系列不同的機(jī)器人實(shí)施例和任務(wù)上對(duì) Eureka 進(jìn)行了全面評(píng)估,測(cè)試其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)以及整合各種形式的人類(lèi)輸入的能力。
研究人員的環(huán)境由10 個(gè)不同的機(jī)器人和使用IsaacGym模擬器執(zhí)行的29個(gè)任務(wù)組成。
首先,研究人員包括來(lái)自 IsaacGym (Isaac) 的 9 個(gè)原始環(huán)境,涵蓋從四足、雙足、四旋翼、協(xié)作機(jī)器人手臂到靈巧手的各種機(jī)器人形態(tài)。
除了囊括了機(jī)器人外形尺寸之外,研究人員還通過(guò)納入Dexterity基準(zhǔn)測(cè)試中的所有 20 項(xiàng)任務(wù)來(lái)確保評(píng)估的深度。
Dexterity包含20項(xiàng)復(fù)雜的雙手動(dòng)任務(wù),需要一雙影子手來(lái)解決各種復(fù)雜的具體操作技能,從物體交接到將杯子旋轉(zhuǎn)180度。
評(píng)估結(jié)果
圖片
Eureka可以生成超人類(lèi)水平的獎(jiǎng)勵(lì)函數(shù)
在29項(xiàng)任務(wù)中,Eureka生成的獎(jiǎng)勵(lì)在83%的任務(wù)上表現(xiàn)優(yōu)于人類(lèi)專(zhuān)家編寫(xiě)的獎(jiǎng)勵(lì),平均標(biāo)準(zhǔn)化提升為52%。
特別是,Eureka在高維Dexterity環(huán)境中實(shí)現(xiàn)了更大的收益。
圖片
Eureka進(jìn)化獎(jiǎng)勵(lì)搜索可以隨著時(shí)間的推移實(shí)現(xiàn)持續(xù)的獎(jiǎng)勵(lì)改進(jìn)
Eureka通過(guò)將大規(guī)模獎(jiǎng)勵(lì)搜索與詳細(xì)獎(jiǎng)勵(lì)反思反饋相結(jié)合,逐步產(chǎn)生更好的獎(jiǎng)勵(lì),最終超過(guò)人類(lèi)水平。
Eureka生成的原創(chuàng)性獎(jiǎng)勵(lì)
圖片
研究人員通過(guò)計(jì)算所有Isaac任務(wù)上的Eureka和人類(lèi)獎(jiǎng)勵(lì)之間的相關(guān)性來(lái)評(píng)估Eureka獎(jiǎng)勵(lì)的新穎性。
如上圖所示,Eureka主要生成弱相關(guān)的獎(jiǎng)勵(lì)函數(shù),其表現(xiàn)優(yōu)于人類(lèi)的獎(jiǎng)勵(lì)函數(shù)。
此外,研究人員觀察到任務(wù)越難,Eureka獎(jiǎng)勵(lì)的相關(guān)性就越小。在某些情況下,Eureka獎(jiǎng)勵(lì)甚至與人類(lèi)獎(jiǎng)勵(lì)呈負(fù)相關(guān),但表現(xiàn)卻明顯優(yōu)于人類(lèi)獎(jiǎng)勵(lì)。
通過(guò)課程學(xué)習(xí)來(lái)教會(huì)靈巧轉(zhuǎn)筆
圖片
轉(zhuǎn)筆任務(wù)需要影子手不斷旋轉(zhuǎn)筆,以實(shí)現(xiàn)一些預(yù)定義的旋轉(zhuǎn)模式,完成盡可能多的循環(huán)。
圖片
研究人員通過(guò)以下方式解決此任務(wù):
(1)指示 Eureka 生成獎(jiǎng)勵(lì)函數(shù),用于將筆重新定向到隨機(jī)目標(biāo)配置,然后
(2)使用 Eureka 獎(jiǎng)勵(lì)微調(diào)此預(yù)訓(xùn)練策略以達(dá)到所需的筆序列-旋轉(zhuǎn)配置。
如圖所示,Eureka微調(diào)很快就適應(yīng)了策略,成功地連續(xù)旋轉(zhuǎn)了許多個(gè)周期。相比之下,預(yù)訓(xùn)練或從頭開(kāi)始學(xué)習(xí)的策略連單個(gè)周期都無(wú)法完成。
圖片
5次查詢(xún),教會(huì)人形機(jī)器人穩(wěn)定地跑步!
Eureka能否根據(jù)人類(lèi)反饋進(jìn)行調(diào)整呢?
目前為止,Eureka可以通過(guò)環(huán)境反饋全自動(dòng)運(yùn)行。
為了捕捉人類(lèi)的細(xì)微偏好,Eureka還可以使用自然語(yǔ)言反饋來(lái)共同引導(dǎo)獎(jiǎng)勵(lì)設(shè)計(jì)。
這就產(chǎn)生了一種新穎的無(wú)梯度情境下的RLHF。
圖片
帶有人類(lèi)反饋的Eureka只用了5次查詢(xún),就教會(huì)了人形機(jī)器人如何穩(wěn)定地跑步!
圖片
而在沒(méi)有RLHF前,人形機(jī)器人是這樣跑步的。
圖片
參考資料: