自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能

新聞 機(jī)器學(xué)習(xí)
以往的強(qiáng)化學(xué)習(xí)模型都是指定任務(wù)來學(xué)習(xí)策略,近日,李飛飛的一位本科畢業(yè)于清華的博士生Kuan Fang,聯(lián)手英偉達(dá)提出一個(gè)學(xué)習(xí)模型SLIDE,通過生成多種任務(wù)來學(xué)習(xí)泛化性超強(qiáng)的技能,或許能帶來通用人工智能的新思考。

   [[409525]]

機(jī)器學(xué)習(xí)可以顯著提高智能體的學(xué)習(xí)效率和泛化能力。

然而在現(xiàn)實(shí)世界的應(yīng)用中,機(jī)器人的設(shè)計(jì)往往比其他問題更加棘手,因?yàn)闄C(jī)器人需要大量的訓(xùn)練和專業(yè)知識才能完成設(shè)計(jì)。

針對這個(gè)問題,李飛飛團(tuán)隊(duì)聯(lián)合英偉達(dá)提出了一個(gè)全新的技能訓(xùn)練方法Skill Learning In Diversified Environments(SLIDE),通過自動生成的一系列不同的任務(wù)來發(fā)現(xiàn)一般化的技能。

李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能

與之前無監(jiān)督的技能發(fā)現(xiàn)工作不同的是,他們是在相同的環(huán)境下訓(xùn)練產(chǎn)生不同的技能,而這篇論文中的方法將每個(gè)技能與一個(gè)可訓(xùn)練的任務(wù)生成器產(chǎn)生的獨(dú)特任務(wù)結(jié)合起來。

為了鼓勵(lì)一般化技能的出現(xiàn),對于每個(gè)被配對到的任務(wù)都進(jìn)行技能訓(xùn)練,并最大化生成任務(wù)的多樣性。在生成的任務(wù)中定義一個(gè)任務(wù)判別器來估計(jì)多樣性目標(biāo)的證據(jù)下界。

李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能

機(jī)器人的技能是通過自動生成任務(wù)來學(xué)習(xí)的。每一項(xiàng)技能都與一項(xiàng)由可訓(xùn)練的獨(dú)特任務(wù)相匹配任務(wù)生成器。這些技能被訓(xùn)練成專門從事被匹配到的任務(wù)。通過生成的多樣化任務(wù)來發(fā)現(xiàn)不同的技能。

方法中發(fā)現(xiàn)技能的關(guān)鍵是設(shè)計(jì)訓(xùn)練技能條件任務(wù)的目標(biāo)函數(shù)生成器g來創(chuàng)建不同的任務(wù)。為了讓更通用的技能可以被學(xué)習(xí)出來,研究人員認(rèn)為技能間(inter-skill)的多樣性和技能內(nèi)部(intra-skill)的多樣性都需要被考慮,在訓(xùn)練任務(wù)生成器g時(shí)應(yīng)當(dāng)適當(dāng)平衡。

技能間的多樣性鼓勵(lì)每項(xiàng)任務(wù)為配對到的技能提出更獨(dú)特的挑戰(zhàn)。而內(nèi)部技能多樣性衡量每個(gè)任務(wù)所能提供的環(huán)境變化。

對于機(jī)器人操作任務(wù),開發(fā)人員肯定希望機(jī)器人擅長不同類型的互動(如推、抓、放等)具有特定類型的對象。同時(shí),也希望每項(xiàng)技能都有足夠能力去處理場景變化和任務(wù)初始的通用性。

最后,還需要考慮了任務(wù)的可行性以防止在無法解決的任務(wù)中學(xué)習(xí)技能。

李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能

上圖就是通過SLIDE模型發(fā)現(xiàn)的示例任務(wù)和技能,通過展示兩個(gè)相關(guān)的采樣軌跡來展示技能間和技能內(nèi)的多樣性。每一個(gè)灰色區(qū)塊中都有相同的技能指數(shù)。每列顯示生成的任務(wù)的初始化和技能的執(zhí)行。不同顏色表示不同物品類別的目的地,包括罐頭(紅色)、盒子(綠色)和餐具(藍(lán)色)

文中的實(shí)驗(yàn)設(shè)計(jì)的主要目的是回答以下問題:1)SLIDE可以通過生成的任務(wù)來學(xué)習(xí)到不同的技能嗎?2) 通過SLIDE學(xué)到的技能,能夠被利用和泛化到其他沒見過的任務(wù)上嗎?3)SLIDE中的設(shè)計(jì)選項(xiàng)如何影響學(xué)習(xí)技能和任務(wù)績效?

李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能

為了學(xué)習(xí)機(jī)器人技能并評估其對未知目標(biāo)任務(wù)的泛化能力,設(shè)計(jì)了兩個(gè)桌面操作區(qū)域。每個(gè)域定義一個(gè)包含共享相同狀態(tài)和動作空間但不同的環(huán)境設(shè)計(jì)和獎(jiǎng)勵(lì)功能。這兩個(gè)任務(wù)空間由多個(gè)離散和離散變量參數(shù)化用于定義初始化、動力學(xué)和獎(jiǎng)勵(lì)功能。

首先訓(xùn)練技能發(fā)現(xiàn)的方法,通過從參數(shù)化任務(wù)按程序生成任務(wù)沒有目標(biāo)任務(wù)概念的空間。然后訓(xùn)練利用分層策略解決每個(gè)沒見過的目標(biāo)任務(wù)從同一領(lǐng)域?qū)W到的技能。

研究結(jié)果表明,相對于現(xiàn)有的強(qiáng)化學(xué)習(xí)和技能學(xué)習(xí)方法,論文中提出的方法學(xué)會的技能可以有效地提高機(jī)器人在各種沒有目標(biāo)的任務(wù)中的表現(xiàn)。

文章的主要貢獻(xiàn)在于提出了在多樣化的環(huán)境中學(xué)習(xí)技能的模型SLIDE,它通過自動生成一組不同的任務(wù)。通過最大化生成任務(wù)的多樣性,SLIDE方法能夠發(fā)現(xiàn)各種任務(wù)以啟用技能策略來激發(fā)機(jī)器人學(xué)習(xí)到各種各樣的行為。

通過訓(xùn)練分層結(jié)構(gòu),利用所學(xué)技能的強(qiáng)化學(xué)習(xí)算法作為低層策略,在兩個(gè)桌面操作區(qū)域,能夠有效地提高了隱性目標(biāo)任務(wù)的學(xué)習(xí)能力與學(xué)習(xí)效率。

在今后的工作中有幾個(gè)方面可以改進(jìn)。首先,提出的方法是專為學(xué)習(xí)一定數(shù)量的技能而設(shè)計(jì)的,一個(gè)有趣的研究方向是對任務(wù)進(jìn)行開放式技能發(fā)現(xiàn)和靈活的技能數(shù)量。

其次,文中暗示了在目標(biāo)任務(wù)中對目標(biāo)任務(wù)是有用的,并假設(shè)參數(shù)化獎(jiǎng)勵(lì)函數(shù)在任務(wù)中預(yù)定義,但未來的工作可以生成相應(yīng)任務(wù)任務(wù)基于內(nèi)在激勵(lì)的獎(jiǎng)勵(lì)函數(shù)。

最后,希望這項(xiàng)工作能鼓勵(lì)更多的人努力利用面向機(jī)器人學(xué)習(xí)和類似應(yīng)用的程序化內(nèi)容生成,可以為更廣泛的應(yīng)用范圍提出方法,比如視覺導(dǎo)航和仿人機(jī)器人。

文章的第一作者Kuan Fang是斯坦福大學(xué)Vision and Learning實(shí)驗(yàn)室的一名博士生,由Silvio Savarese教授和李飛飛教授共同指導(dǎo),主要研究方向是計(jì)算機(jī)視覺、機(jī)器人和機(jī)器學(xué)習(xí)。

他的本科在清華大學(xué),曾在Google Brain, Google X, 微軟亞洲研究院實(shí)習(xí)。

[[409526]]

本文的第二作者Yuke Zhu是德克薩斯州大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系的助理教授,也是機(jī)器人感知和學(xué)習(xí)實(shí)驗(yàn)室的主任,同時(shí)還是 NVIDIA 研究中心的高級研究科學(xué)家。

主要研究方向是為機(jī)器人和具身代理人構(gòu)建智能算法,這些機(jī)器人和具身代理人可以推理并與現(xiàn)實(shí)世界互動,這項(xiàng)研究是機(jī)器人學(xué)、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的交叉。重點(diǎn)研究了感知和控制的方法和機(jī)制,以實(shí)現(xiàn)通用機(jī)器人的自主性。

[[409527]]

這篇論文的導(dǎo)師是李飛飛,2020年當(dāng)選為美國國家工程院院士,美國國家醫(yī)學(xué)院院士,2021年當(dāng)選為美國藝術(shù)與科學(xué)院院士。她的工作包括括受認(rèn)知啟發(fā)的AI,機(jī)器學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺和AI+醫(yī)療保健,尤其是用于醫(yī)療保健交付的環(huán)境智能系統(tǒng)。

她還從事認(rèn)知和計(jì)算神經(jīng)科學(xué)方面的工作。她發(fā)明了ImageNet和ImageNet Challenge,其中ImageNet Challenge是一項(xiàng)重要的大規(guī)模數(shù)據(jù)集和基準(zhǔn)測試工作

[[409528]]

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-05-01 15:42:30

NLP人工智能自然語言處理

2018-11-21 14:54:56

2024-05-06 07:10:00

李飛飛智能空間

2022-06-20 11:05:58

通用人工智能機(jī)器人

2023-03-06 10:26:37

AI研究

2022-07-31 23:46:57

人工智能語言模型感知力

2022-07-04 15:29:59

人工智能機(jī)器計(jì)算機(jī)

2019-03-27 10:47:05

人工智能法律AI

2017-09-09 15:00:17

谷歌AI皮膚病

2021-02-06 10:43:49

人工智能

2019-03-20 14:02:13

AI 行業(yè) 人工智能

2023-03-15 10:35:16

GPTAI

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2020-10-16 10:27:58

人工智能

2020-04-07 15:22:56

李飛飛AI人工智能

2023-02-28 15:21:37

人工智能AGI

2023-07-10 10:36:17

人工智能AI

2019-03-24 12:11:47

AI 數(shù)據(jù)人工智能

2024-05-24 16:38:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號