李飛飛的華人斯坦福博士提出SLIDE模型 與英偉達(dá)探索通用人工智能
機(jī)器學(xué)習(xí)可以顯著提高智能體的學(xué)習(xí)效率和泛化能力。
然而在現(xiàn)實(shí)世界的應(yīng)用中,機(jī)器人的設(shè)計(jì)往往比其他問題更加棘手,因?yàn)闄C(jī)器人需要大量的訓(xùn)練和專業(yè)知識才能完成設(shè)計(jì)。
針對這個(gè)問題,李飛飛團(tuán)隊(duì)聯(lián)合英偉達(dá)提出了一個(gè)全新的技能訓(xùn)練方法Skill Learning In Diversified Environments(SLIDE),通過自動生成的一系列不同的任務(wù)來發(fā)現(xiàn)一般化的技能。

與之前無監(jiān)督的技能發(fā)現(xiàn)工作不同的是,他們是在相同的環(huán)境下訓(xùn)練產(chǎn)生不同的技能,而這篇論文中的方法將每個(gè)技能與一個(gè)可訓(xùn)練的任務(wù)生成器產(chǎn)生的獨(dú)特任務(wù)結(jié)合起來。
為了鼓勵(lì)一般化技能的出現(xiàn),對于每個(gè)被配對到的任務(wù)都進(jìn)行技能訓(xùn)練,并最大化生成任務(wù)的多樣性。在生成的任務(wù)中定義一個(gè)任務(wù)判別器來估計(jì)多樣性目標(biāo)的證據(jù)下界。

機(jī)器人的技能是通過自動生成任務(wù)來學(xué)習(xí)的。每一項(xiàng)技能都與一項(xiàng)由可訓(xùn)練的獨(dú)特任務(wù)相匹配任務(wù)生成器。這些技能被訓(xùn)練成專門從事被匹配到的任務(wù)。通過生成的多樣化任務(wù)來發(fā)現(xiàn)不同的技能。
方法中發(fā)現(xiàn)技能的關(guān)鍵是設(shè)計(jì)訓(xùn)練技能條件任務(wù)的目標(biāo)函數(shù)生成器g來創(chuàng)建不同的任務(wù)。為了讓更通用的技能可以被學(xué)習(xí)出來,研究人員認(rèn)為技能間(inter-skill)的多樣性和技能內(nèi)部(intra-skill)的多樣性都需要被考慮,在訓(xùn)練任務(wù)生成器g時(shí)應(yīng)當(dāng)適當(dāng)平衡。
技能間的多樣性鼓勵(lì)每項(xiàng)任務(wù)為配對到的技能提出更獨(dú)特的挑戰(zhàn)。而內(nèi)部技能多樣性衡量每個(gè)任務(wù)所能提供的環(huán)境變化。
對于機(jī)器人操作任務(wù),開發(fā)人員肯定希望機(jī)器人擅長不同類型的互動(如推、抓、放等)具有特定類型的對象。同時(shí),也希望每項(xiàng)技能都有足夠能力去處理場景變化和任務(wù)初始的通用性。
最后,還需要考慮了任務(wù)的可行性以防止在無法解決的任務(wù)中學(xué)習(xí)技能。

上圖就是通過SLIDE模型發(fā)現(xiàn)的示例任務(wù)和技能,通過展示兩個(gè)相關(guān)的采樣軌跡來展示技能間和技能內(nèi)的多樣性。每一個(gè)灰色區(qū)塊中都有相同的技能指數(shù)。每列顯示生成的任務(wù)的初始化和技能的執(zhí)行。不同顏色表示不同物品類別的目的地,包括罐頭(紅色)、盒子(綠色)和餐具(藍(lán)色)
文中的實(shí)驗(yàn)設(shè)計(jì)的主要目的是回答以下問題:1)SLIDE可以通過生成的任務(wù)來學(xué)習(xí)到不同的技能嗎?2) 通過SLIDE學(xué)到的技能,能夠被利用和泛化到其他沒見過的任務(wù)上嗎?3)SLIDE中的設(shè)計(jì)選項(xiàng)如何影響學(xué)習(xí)技能和任務(wù)績效?

為了學(xué)習(xí)機(jī)器人技能并評估其對未知目標(biāo)任務(wù)的泛化能力,設(shè)計(jì)了兩個(gè)桌面操作區(qū)域。每個(gè)域定義一個(gè)包含共享相同狀態(tài)和動作空間但不同的環(huán)境設(shè)計(jì)和獎(jiǎng)勵(lì)功能。這兩個(gè)任務(wù)空間由多個(gè)離散和離散變量參數(shù)化用于定義初始化、動力學(xué)和獎(jiǎng)勵(lì)功能。
首先訓(xùn)練技能發(fā)現(xiàn)的方法,通過從參數(shù)化任務(wù)按程序生成任務(wù)沒有目標(biāo)任務(wù)概念的空間。然后訓(xùn)練利用分層策略解決每個(gè)沒見過的目標(biāo)任務(wù)從同一領(lǐng)域?qū)W到的技能。
研究結(jié)果表明,相對于現(xiàn)有的強(qiáng)化學(xué)習(xí)和技能學(xué)習(xí)方法,論文中提出的方法學(xué)會的技能可以有效地提高機(jī)器人在各種沒有目標(biāo)的任務(wù)中的表現(xiàn)。
文章的主要貢獻(xiàn)在于提出了在多樣化的環(huán)境中學(xué)習(xí)技能的模型SLIDE,它通過自動生成一組不同的任務(wù)。通過最大化生成任務(wù)的多樣性,SLIDE方法能夠發(fā)現(xiàn)各種任務(wù)以啟用技能策略來激發(fā)機(jī)器人學(xué)習(xí)到各種各樣的行為。
通過訓(xùn)練分層結(jié)構(gòu),利用所學(xué)技能的強(qiáng)化學(xué)習(xí)算法作為低層策略,在兩個(gè)桌面操作區(qū)域,能夠有效地提高了隱性目標(biāo)任務(wù)的學(xué)習(xí)能力與學(xué)習(xí)效率。
在今后的工作中有幾個(gè)方面可以改進(jìn)。首先,提出的方法是專為學(xué)習(xí)一定數(shù)量的技能而設(shè)計(jì)的,一個(gè)有趣的研究方向是對任務(wù)進(jìn)行開放式技能發(fā)現(xiàn)和靈活的技能數(shù)量。
其次,文中暗示了在目標(biāo)任務(wù)中對目標(biāo)任務(wù)是有用的,并假設(shè)參數(shù)化獎(jiǎng)勵(lì)函數(shù)在任務(wù)中預(yù)定義,但未來的工作可以生成相應(yīng)任務(wù)任務(wù)基于內(nèi)在激勵(lì)的獎(jiǎng)勵(lì)函數(shù)。
最后,希望這項(xiàng)工作能鼓勵(lì)更多的人努力利用面向機(jī)器人學(xué)習(xí)和類似應(yīng)用的程序化內(nèi)容生成,可以為更廣泛的應(yīng)用范圍提出方法,比如視覺導(dǎo)航和仿人機(jī)器人。
文章的第一作者Kuan Fang是斯坦福大學(xué)Vision and Learning實(shí)驗(yàn)室的一名博士生,由Silvio Savarese教授和李飛飛教授共同指導(dǎo),主要研究方向是計(jì)算機(jī)視覺、機(jī)器人和機(jī)器學(xué)習(xí)。
他的本科在清華大學(xué),曾在Google Brain, Google X, 微軟亞洲研究院實(shí)習(xí)。
本文的第二作者Yuke Zhu是德克薩斯州大學(xué)奧斯汀分校計(jì)算機(jī)科學(xué)系的助理教授,也是機(jī)器人感知和學(xué)習(xí)實(shí)驗(yàn)室的主任,同時(shí)還是 NVIDIA 研究中心的高級研究科學(xué)家。
主要研究方向是為機(jī)器人和具身代理人構(gòu)建智能算法,這些機(jī)器人和具身代理人可以推理并與現(xiàn)實(shí)世界互動,這項(xiàng)研究是機(jī)器人學(xué)、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)的交叉。重點(diǎn)研究了感知和控制的方法和機(jī)制,以實(shí)現(xiàn)通用機(jī)器人的自主性。
這篇論文的導(dǎo)師是李飛飛,2020年當(dāng)選為美國國家工程院院士,美國國家醫(yī)學(xué)院院士,2021年當(dāng)選為美國藝術(shù)與科學(xué)院院士。她的工作包括括受認(rèn)知啟發(fā)的AI,機(jī)器學(xué)習(xí),深度學(xué)習(xí),計(jì)算機(jī)視覺和AI+醫(yī)療保健,尤其是用于醫(yī)療保健交付的環(huán)境智能系統(tǒng)。
她還從事認(rèn)知和計(jì)算神經(jīng)科學(xué)方面的工作。她發(fā)明了ImageNet和ImageNet Challenge,其中ImageNet Challenge是一項(xiàng)重要的大規(guī)模數(shù)據(jù)集和基準(zhǔn)測試工作