GPT4教機器人盤轉(zhuǎn)筆,那叫一個絲滑!
那個在聊天中給數(shù)學家陶哲軒帶來啟發(fā)的GPT-4,最近又開始教機器人轉(zhuǎn)筆了。
項目叫Agent Eureka,是由英偉達、賓州大學、加州理工學院和得克薩斯大學奧斯汀分校聯(lián)手研發(fā)的。他們的研究結(jié)合了 GPT-4 結(jié)構(gòu)的能力和強化學習的優(yōu)勢,讓 Eureka 能設計出精妙的獎勵函數(shù)。
GPT-4 的編程能力賦予 Eureka 強大的獎勵函數(shù)設計技巧。這意味著,在大部分任務中,Eureka 自己設計的獎勵方案,甚至比人類專家更出色。這讓它能完成一些人類難以完成的任務,包括轉(zhuǎn)筆、打開抽屜,盤核桃,甚至更復雜的任務,如拋接球,操作剪刀等等。
圖片
圖片
雖然目前這些都是在模擬環(huán)境中完成的,但這已經(jīng)非常厲害了。
項目已經(jīng)開源,項目地址和論文地址放在文末。
簡單總結(jié)下論文的核心要點。
論文探討了如何使用大型語言模型(LLM)來設計并優(yōu)化機器學習中的獎勵函數(shù)。這是一個重要的課題,因為設計好的獎勵函數(shù)可以大大提高機器學習模型的性能,但是設計這樣的函數(shù)是非常困難的。
研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來生成和改進獎勵函數(shù)。在測試中,EUREKA 在 29 種不同的強化學習環(huán)境中達到了人類級別的性能,并在 83% 的任務中超越了人類專家設計的獎勵函數(shù)。
EUREKA 還成功地解決了一些以前無法通過人工設計獎勵函數(shù)解決的復雜操作任務,例如模擬「Shadow Hand」手部快速轉(zhuǎn)筆的操作。
此外,EUREKA 提供了一種新的方法,可以根據(jù)人類的反饋生成更有效、更符合人類期望的獎勵函數(shù)。
EUREKA 的工作方式包括三個主要步驟:
1. 將環(huán)境作為上下文:EUREKA 使用環(huán)境的源代碼作為上下文,從而生成可執(zhí)行的獎勵函數(shù)。
2. 進化搜索:EUREKA 通過進化搜索迭代地提出和改進獎勵函數(shù)。
3. 獎勵反思:EUREKA 根據(jù)策略訓練的統(tǒng)計數(shù)據(jù)生成獎勵質(zhì)量的文本總結(jié),從而自動和有針對性地改進獎勵函數(shù)。
這項研究可能會對強化學習和獎勵函數(shù)設計領域產(chǎn)生深遠影響,因為它提供了一種新的、有效的方法來自動生成和改進獎勵函數(shù),而且這種方法的性能在許多情況下超過了人類專家。