自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT4教機器人盤轉(zhuǎn)筆,那叫一個絲滑!

人工智能
研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來生成和改進獎勵函數(shù)。在測試中,EUREKA 在 29 種不同的強化學習環(huán)境中達到了人類級別的性能,并在 83% 的任務中超越了人類專家設計的獎勵函數(shù)。

那個在聊天中給數(shù)學家陶哲軒帶來啟發(fā)的GPT-4,最近又開始教機器人轉(zhuǎn)筆了。

圖片

項目叫Agent Eureka,是由英偉達、賓州大學、加州理工學院和得克薩斯大學奧斯汀分校聯(lián)手研發(fā)的。他們的研究結(jié)合了 GPT-4 結(jié)構(gòu)的能力和強化學習的優(yōu)勢,讓 Eureka 能設計出精妙的獎勵函數(shù)。

GPT-4 的編程能力賦予 Eureka 強大的獎勵函數(shù)設計技巧。這意味著,在大部分任務中,Eureka 自己設計的獎勵方案,甚至比人類專家更出色。這讓它能完成一些人類難以完成的任務,包括轉(zhuǎn)筆、打開抽屜,盤核桃,甚至更復雜的任務,如拋接球,操作剪刀等等。

圖片圖片

圖片圖片

雖然目前這些都是在模擬環(huán)境中完成的,但這已經(jīng)非常厲害了。

項目已經(jīng)開源,項目地址和論文地址放在文末。

簡單總結(jié)下論文的核心要點。

論文探討了如何使用大型語言模型(LLM)來設計并優(yōu)化機器學習中的獎勵函數(shù)。這是一個重要的課題,因為設計好的獎勵函數(shù)可以大大提高機器學習模型的性能,但是設計這樣的函數(shù)是非常困難的。

研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來生成和改進獎勵函數(shù)。在測試中,EUREKA 在 29 種不同的強化學習環(huán)境中達到了人類級別的性能,并在 83% 的任務中超越了人類專家設計的獎勵函數(shù)。

EUREKA 還成功地解決了一些以前無法通過人工設計獎勵函數(shù)解決的復雜操作任務,例如模擬「Shadow Hand」手部快速轉(zhuǎn)筆的操作。

此外,EUREKA 提供了一種新的方法,可以根據(jù)人類的反饋生成更有效、更符合人類期望的獎勵函數(shù)。

EUREKA 的工作方式包括三個主要步驟:

1. 將環(huán)境作為上下文:EUREKA 使用環(huán)境的源代碼作為上下文,從而生成可執(zhí)行的獎勵函數(shù)。

2. 進化搜索:EUREKA 通過進化搜索迭代地提出和改進獎勵函數(shù)。

3. 獎勵反思:EUREKA 根據(jù)策略訓練的統(tǒng)計數(shù)據(jù)生成獎勵質(zhì)量的文本總結(jié),從而自動和有針對性地改進獎勵函數(shù)。

這項研究可能會對強化學習和獎勵函數(shù)設計領域產(chǎn)生深遠影響,因為它提供了一種新的、有效的方法來自動生成和改進獎勵函數(shù),而且這種方法的性能在許多情況下超過了人類專家。

項目地址:https://github.com/eureka-research/Eureka

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

責任編輯:武曉燕 來源: 渡碼
相關推薦

2023-10-21 21:14:00

AI模型

2023-02-26 11:53:20

2023-10-22 20:14:08

人工智能GPT-4

2023-10-23 13:31:37

GPT-4語言模型

2023-03-16 12:14:55

2022-11-04 16:58:10

Linux環(huán)境變量

2021-08-06 09:35:37

Python盯盤機器人編程語言

2024-10-14 09:40:00

AI機器人

2022-10-21 17:30:26

機器人

2024-05-16 12:03:54

Python代碼開發(fā)

2020-02-18 10:26:58

機器人人工智能系統(tǒng)

2024-09-02 09:10:00

OpenAI機器人

2023-05-09 15:41:03

2020-09-15 13:56:08

公眾號機器人圖靈機器人

2021-04-01 10:51:44

機器人人工智能編程

2021-11-30 10:56:43

ChatterBot機器人人工智能

2021-05-24 15:29:24

人工智能機器人聊天

2012-06-21 14:20:16

CSS3

2021-01-12 12:45:16

機器人人工智能AI

2023-06-14 11:06:35

OpenAIGPT-4
點贊
收藏

51CTO技術棧公眾號