自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="2tsvu"></style>

<sup id="2tsvu"><rt id="2tsvu"></rt></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

GPT4教機器人盤轉(zhuǎn)筆，那叫一個絲滑！

作者：渡碼 2023-10-29 18:14:08

研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來生成和改進獎勵函數(shù)。在測試中，EUREKA 在 29 種不同的強化學習環(huán)境中達到了人類級別的性能，并在 83% 的任務中超越了人類專家設計的獎勵函數(shù)。

那個在聊天中給數(shù)學家陶哲軒帶來啟發(fā)的GPT-4，最近又開始教機器人轉(zhuǎn)筆了。

項目叫Agent Eureka，是由英偉達、賓州大學、加州理工學院和得克薩斯大學奧斯汀分校聯(lián)手研發(fā)的。他們的研究結(jié)合了 GPT-4 結(jié)構(gòu)的能力和強化學習的優(yōu)勢，讓 Eureka 能設計出精妙的獎勵函數(shù)。

GPT-4 的編程能力賦予 Eureka 強大的獎勵函數(shù)設計技巧。這意味著，在大部分任務中，Eureka 自己設計的獎勵方案，甚至比人類專家更出色。這讓它能完成一些人類難以完成的任務，包括轉(zhuǎn)筆、打開抽屜，盤核桃，甚至更復雜的任務，如拋接球，操作剪刀等等。

圖片

圖片

雖然目前這些都是在模擬環(huán)境中完成的，但這已經(jīng)非常厲害了。

項目已經(jīng)開源，項目地址和論文地址放在文末。

簡單總結(jié)下論文的核心要點。

論文探討了如何使用大型語言模型（LLM）來設計并優(yōu)化機器學習中的獎勵函數(shù)。這是一個重要的課題，因為設計好的獎勵函數(shù)可以大大提高機器學習模型的性能，但是設計這樣的函數(shù)是非常困難的。

研究人員提出了一種名為 EUREKA 的新算法。EUREKA 使用 LLM 來生成和改進獎勵函數(shù)。在測試中，EUREKA 在 29 種不同的強化學習環(huán)境中達到了人類級別的性能，并在 83% 的任務中超越了人類專家設計的獎勵函數(shù)。

EUREKA 還成功地解決了一些以前無法通過人工設計獎勵函數(shù)解決的復雜操作任務，例如模擬「Shadow Hand」手部快速轉(zhuǎn)筆的操作。

此外，EUREKA 提供了一種新的方法，可以根據(jù)人類的反饋生成更有效、更符合人類期望的獎勵函數(shù)。

EUREKA 的工作方式包括三個主要步驟：

1. 將環(huán)境作為上下文：EUREKA 使用環(huán)境的源代碼作為上下文，從而生成可執(zhí)行的獎勵函數(shù)。

2. 進化搜索：EUREKA 通過進化搜索迭代地提出和改進獎勵函數(shù)。

3. 獎勵反思：EUREKA 根據(jù)策略訓練的統(tǒng)計數(shù)據(jù)生成獎勵質(zhì)量的文本總結(jié)，從而自動和有針對性地改進獎勵函數(shù)。

這項研究可能會對強化學習和獎勵函數(shù)設計領域產(chǎn)生深遠影響，因為它提供了一種新的、有效的方法來自動生成和改進獎勵函數(shù)，而且這種方法的性能在許多情況下超過了人類專家。

項目地址：https://github.com/eureka-research/Eureka

論文鏈接：https://arxiv.org/pdf/2310.12931.pdf

責任編輯：武曉燕來源：渡碼

GPT4 機器人算法

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="pmlxe"></style>

<style id="pmlxe"></style>