自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛的華人斯坦福博士提出SLIDE模型與英偉達(dá)探索通用人工智能

作者：佚名 2021-07-06 10:37:37

新聞機(jī)器學(xué)習(xí)

以往的強(qiáng)化學(xué)習(xí)模型都是指定任務(wù)來學(xué)習(xí)策略，近日，李飛飛的一位本科畢業(yè)于清華的博士生Kuan Fang，聯(lián)手英偉達(dá)提出一個(gè)學(xué)習(xí)模型SLIDE，通過生成多種任務(wù)來學(xué)習(xí)泛化性超強(qiáng)的技能，或許能帶來通用人工智能的新思考。

機(jī)器學(xué)習(xí)可以顯著提高智能體的學(xué)習(xí)效率和泛化能力。

然而在現(xiàn)實(shí)世界的應(yīng)用中，機(jī)器人的設(shè)計(jì)往往比其他問題更加棘手，因?yàn)闄C(jī)器人需要大量的訓(xùn)練和專業(yè)知識才能完成設(shè)計(jì)。

針對這個(gè)問題，李飛飛團(tuán)隊(duì)聯(lián)合英偉達(dá)提出了一個(gè)全新的技能訓(xùn)練方法Skill Learning In Diversified Environments（SLIDE），通過自動生成的一系列不同的任務(wù)來發(fā)現(xiàn)一般化的技能。

李飛飛的華人斯坦福博士提出SLIDE模型與英偉達(dá)探索通用人工智能

與之前無監(jiān)督的技能發(fā)現(xiàn)工作不同的是，他們是在相同的環(huán)境下訓(xùn)練產(chǎn)生不同的技能，而這篇論文中的方法將每個(gè)技能與一個(gè)可訓(xùn)練的任務(wù)生成器產(chǎn)生的獨(dú)特任務(wù)結(jié)合起來。

為了鼓勵(lì)一般化技能的出現(xiàn)，對于每個(gè)被配對到的任務(wù)都進(jìn)行技能訓(xùn)練，并最大化生成任務(wù)的多樣性。在生成的任務(wù)中定義一個(gè)任務(wù)判別器來估計(jì)多樣性目標(biāo)的證據(jù)下界。

李飛飛的華人斯坦福博士提出SLIDE模型與英偉達(dá)探索通用人工智能

機(jī)器人的技能是通過自動生成任務(wù)來學(xué)習(xí)的。每一項(xiàng)技能都與一項(xiàng)由可訓(xùn)練的獨(dú)特任務(wù)相匹配任務(wù)生成器。這些技能被訓(xùn)練成專門從事被匹配到的任務(wù)。通過生成的多樣化任務(wù)來發(fā)現(xiàn)不同的技能。

方法中發(fā)現(xiàn)技能的關(guān)鍵是設(shè)計(jì)訓(xùn)練技能條件任務(wù)的目標(biāo)函數(shù)生成器g來創(chuàng)建不同的任務(wù)。為了讓更通用的技能可以被學(xué)習(xí)出來，研究人員認(rèn)為技能間（inter-skill）的多樣性和技能內(nèi)部(intra-skill)的多樣性都需要被考慮，在訓(xùn)練任務(wù)生成器g時(shí)應(yīng)當(dāng)適當(dāng)平衡。

技能間的多樣性鼓勵(lì)每項(xiàng)任務(wù)為配對到的技能提出更獨(dú)特的挑戰(zhàn)。而內(nèi)部技能多樣性衡量每個(gè)任務(wù)所能提供的環(huán)境變化。

對于機(jī)器人操作任務(wù)，開發(fā)人員肯定希望機(jī)器人擅長不同類型的互動（如推、抓、放等）具有特定類型的對象。同時(shí)，也希望每項(xiàng)技能都有足夠能力去處理場景變化和任務(wù)初始的通用性。

最后，還需要考慮了任務(wù)的可行性以防止在無法解決的任務(wù)中學(xué)習(xí)技能。

李飛飛的華人斯坦福博士提出SLIDE模型與英偉達(dá)探索通用人工智能

上圖就是通過SLIDE模型發(fā)現(xiàn)的示例任務(wù)和技能，通過展示兩個(gè)相關(guān)的采樣軌跡來展示技能間和技能內(nèi)的多樣性。每一個(gè)灰色區(qū)塊中都有相同的技能指數(shù)。每列顯示生成的任務(wù)的初始化和技能的執(zhí)行。不同顏色表示不同物品類別的目的地，包括罐頭（紅色）、盒子（綠色）和餐具（藍(lán)色）

文中的實(shí)驗(yàn)設(shè)計(jì)的主要目的是回答以下問題：1）SLIDE可以通過生成的任務(wù)來學(xué)習(xí)到不同的技能嗎？2）通過SLIDE學(xué)到的技能，能夠被利用和泛化到其他沒見過的任務(wù)上嗎？3）SLIDE中的設(shè)計(jì)選項(xiàng)如何影響學(xué)習(xí)技能和任務(wù)績效？

李飛飛的華人斯坦福博士提出SLIDE模型與英偉達(dá)探索通用人工智能

為了學(xué)習(xí)機(jī)器人技能并評估其對未知目標(biāo)任務(wù)的泛化能力，設(shè)計(jì)了兩個(gè)桌面操作區(qū)域。每個(gè)域定義一個(gè)包含共享相同狀態(tài)和動作空間但不同的環(huán)境設(shè)計(jì)和獎(jiǎng)勵(lì)功能。這兩個(gè)任務(wù)空間由多個(gè)離散和離散變量參數(shù)化用于定義初始化、動力學(xué)和獎(jiǎng)勵(lì)功能。

首先訓(xùn)練技能發(fā)現(xiàn)的方法，通過從參數(shù)化任務(wù)按程序生成任務(wù)沒有目標(biāo)任務(wù)概念的空間。然后訓(xùn)練利用分層策略解決每個(gè)沒見過的目標(biāo)任務(wù)從同一領(lǐng)域?qū)W到的技能。

研究結(jié)果表明，相對于現(xiàn)有的強(qiáng)化學(xué)習(xí)和技能學(xué)習(xí)方法，論文中提出的方法學(xué)會的技能可以有效地提高機(jī)器人在各種沒有目標(biāo)的任務(wù)中的表現(xiàn)。

文章的主要貢獻(xiàn)在于提出了在多樣化的環(huán)境中學(xué)習(xí)技能的模型SLIDE，它通過自動生成一組不同的任務(wù)。通過最大化生成任務(wù)的多樣性，SLIDE方法能夠發(fā)現(xiàn)各種任務(wù)以啟用技能策略來激發(fā)機(jī)器人學(xué)習(xí)到各種各樣的行為。

通過訓(xùn)練分層結(jié)構(gòu)，利用所學(xué)技能的強(qiáng)化學(xué)習(xí)算法作為低層策略，在兩個(gè)桌面操作區(qū)域，能夠有效地提高了隱性目標(biāo)任務(wù)的學(xué)習(xí)能力與學(xué)習(xí)效率。

在今后的工作中有幾個(gè)方面可以改進(jìn)。首先，提出的方法是專為學(xué)習(xí)一定數(shù)量的技能而設(shè)計(jì)的，一個(gè)有趣的研究方向是對任務(wù)進(jìn)行開放式技能發(fā)現(xiàn)和靈活的技能數(shù)量。

其次，文中暗示了在目標(biāo)任務(wù)中對目標(biāo)任務(wù)是有用的，并假設(shè)參數(shù)化獎(jiǎng)勵(lì)函數(shù)在任務(wù)中預(yù)定義，但未來的工作可以生成相應(yīng)任務(wù)任務(wù)基于內(nèi)在激勵(lì)的獎(jiǎng)勵(lì)函數(shù)。

最后，希望這項(xiàng)工作能鼓勵(lì)更多的人努力利用面向機(jī)器人學(xué)習(xí)和類似應(yīng)用的程序化內(nèi)容生成，可以為更廣泛的應(yīng)用范圍提出方法，比如視覺導(dǎo)航和仿人機(jī)器人。

文章的第一作者Kuan Fang是斯坦福大學(xué)Vision and Learning實(shí)驗(yàn)室的一名博士生，由Silvio Savarese教授和李飛飛教授共同指導(dǎo)，主要研究方向是計(jì)算機(jī)視覺、機(jī)器人和機(jī)器學(xué)習(xí)。

他的本科在清華大學(xué)，曾在Google Brain, Google X, 微軟亞洲研究院實(shí)習(xí)。

本文的第二作者Yuke Zhu是德克薩斯州大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系的助理教授，也是機(jī)器人感知和學(xué)習(xí)實(shí)驗(yàn)室的主任，同時(shí)還是 NVIDIA 研究中心的高級研究科學(xué)家。

主要研究方向是為機(jī)器人和具身代理人構(gòu)建智能算法，這些機(jī)器人和具身代理人可以推理并與現(xiàn)實(shí)世界互動，這項(xiàng)研究是機(jī)器人學(xué)、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的交叉。重點(diǎn)研究了感知和控制的方法和機(jī)制，以實(shí)現(xiàn)通用機(jī)器人的自主性。

這篇論文的導(dǎo)師是李飛飛，2020年當(dāng)選為美國國家工程院院士，美國國家醫(yī)學(xué)院院士，2021年當(dāng)選為美國藝術(shù)與科學(xué)院院士。她的工作包括括受認(rèn)知啟發(fā)的AI，機(jī)器學(xué)習(xí)，深度學(xué)習(xí)，計(jì)算機(jī)視覺和AI+醫(yī)療保健，尤其是用于醫(yī)療保健交付的環(huán)境智能系統(tǒng)。

她還從事認(rèn)知和計(jì)算神經(jīng)科學(xué)方面的工作。她發(fā)明了ImageNet和ImageNet Challenge，其中ImageNet Challenge是一項(xiàng)重要的大規(guī)模數(shù)據(jù)集和基準(zhǔn)測試工作

責(zé)任編輯：張燕妮來源：新智元

模型人工智能深度學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<var id="yo13y"></var>