模仿學(xué)習(xí):無需編程,機(jī)器人也能聽懂自然語言了!
?用人類日常交流所說的自然語言指令去命令機(jī)械臂執(zhí)行任務(wù)是一個很大的挑戰(zhàn)。一個來自亞利桑那州立大學(xué)、英特爾人工智能實(shí)驗(yàn)室和俄勒岡州立大學(xué)的研究團(tuán)隊在操縱任務(wù)中將語言作為模仿學(xué)習(xí)(Imitation Learning)的靈活目標(biāo),為人類專家和機(jī)器人提供了溝通的橋梁。在訓(xùn)練過程中,模型學(xué)會了相互聯(lián)系和捕捉語言、視覺和運(yùn)動控制之間的相關(guān)性,從而產(chǎn)生以語言為條件的控制策略。然后這些策略為人類用戶提供了一個簡單直觀的,可以發(fā)出非結(jié)構(gòu)化命令的界面。
在未來,將非結(jié)構(gòu)化的自然語言融入到模仿學(xué)習(xí)中可以減少自主機(jī)器人對編程的需求,實(shí)現(xiàn)人與機(jī)器人之間的自然交互。這項(xiàng)創(chuàng)新可能會讓自動化機(jī)器人在醫(yī)療保健、零售、制造和食品等行業(yè)的使用更上一層樓。消除機(jī)器人對特定句子結(jié)構(gòu)、完美的語法或特定領(lǐng)域語言的需要后,人類就可以更容易地指導(dǎo)機(jī)器人執(zhí)行任務(wù),如從零售倉庫挑選和包裝貨物,或命令機(jī)器人手臂在餐館準(zhǔn)備飯菜。在醫(yī)療保健領(lǐng)域,人類還可以使用語音指令來驅(qū)動自動輪椅,藥店也可以使用機(jī)器人手臂來包裝藥物。
1 模仿學(xué)習(xí)與溝通渠道
該研究團(tuán)隊與亞利桑那州立大學(xué)的研究人員Simon Stepputtis、Joseph Campbell、Chitta Baral和Heni Ben Amor以及俄勒岡州立大學(xué)的研究人員Stefan Lee合作,在2020年NeurIPS大會的重點(diǎn)展示會上發(fā)表了論文《機(jī)器人操作任務(wù)中以語言為條件的模仿學(xué)習(xí)(Language-Conditioned Imitation Learning for Robot Manipulation Tasks)》。
圖注:論文《機(jī)器人操作任務(wù)中以語言為條件的模仿學(xué)習(xí)》
論文鏈接:https://arxiv.org/abs/2010.12083
模仿學(xué)習(xí)用一種簡單的方式向機(jī)器人傳授新技能。在不需要編程的情況下,人們只需要提供一組可以轉(zhuǎn)換為函數(shù)式或概率表示的演示就好。然而,這種方法的局限性在于必須仔細(xì)設(shè)計狀態(tài)表示來確保所有必要信息是可用的。神經(jīng)方法通過讓機(jī)器人學(xué)習(xí)特定于任務(wù)的特征表示,從而將模仿學(xué)習(xí)擴(kuò)展到高維空間。然而,這些方法缺乏一個通信通道,這種通信通道可以讓用戶在幾乎沒有額外成本的情況下提供有關(guān)預(yù)期任務(wù)的進(jìn)一步信息。因此,程序員和用戶都必須求助于數(shù)字方法來定義目標(biāo)。
為了克服這些挑戰(zhàn),該研究團(tuán)隊開發(fā)了一個端到端的、受語言限制的控制策略用來處理由高級語義模塊和低級控制器組成的操作任務(wù),將語言、視覺和控制集成在一個框架中。
策略的生成可以看作是一個從語言到視覺的翻譯過程。當(dāng)使用端到端方法時,這種方法在概念上被分為了兩部分:語義模型和控制模型。語義模型從語言和視覺角度創(chuàng)建了獨(dú)特的任務(wù)表示。控制模型在考慮機(jī)器人當(dāng)前狀態(tài)的同時,將任務(wù)表示轉(zhuǎn)換為特定于任務(wù)的控制策略。
2 評價:采摘和傾倒任務(wù)
該團(tuán)隊在一個桌面設(shè)置的模擬機(jī)器人任務(wù)中評估了這種新方法。在這項(xiàng)任務(wù)中,一名專家教一個七自由度機(jī)器人操作手如何執(zhí)行一系列采摘和傾倒的動作。在訓(xùn)練時,專家負(fù)責(zé)提供任務(wù)的動覺演示,以及語言描述如“倒一點(diǎn)到紅碗里”。桌上可能有幾個不同形狀、大小和顏色的對象,這常常導(dǎo)致自然語言描述產(chǎn)生歧義。機(jī)器人必須學(xué)會如何有效地從可用的原始數(shù)據(jù)源中提取關(guān)鍵信息,從而決定去做什么、如何做以及移動到哪里。
1
圖注:執(zhí)行傾倒任務(wù)的機(jī)械臂
為了生成訓(xùn)練和測試數(shù)據(jù),五位專家利用同義詞替換方法提供了200個口頭任務(wù)描述模板。模仿學(xué)習(xí)需要大量的演示,因此團(tuán)隊使用這種自動方法,通過為任務(wù)創(chuàng)建相同句子的各種變體來生成演示。該模型在40,000個綜合生成的場景上進(jìn)行訓(xùn)練。
3 語言限制操作任務(wù)的結(jié)果
這個模型的整體任務(wù)描述了杯子第一次被舉起,然后成功地倒入正確碗中的百分比。這一系列步驟在在84%的新環(huán)境中成功得到執(zhí)行。僅做采摘動作的成功率達(dá)98%,傾倒成功率達(dá)85%。這些結(jié)果表明,該模型成功地將訓(xùn)練的行為概括為物體位置、語言命令或知覺輸入的變化。該團(tuán)隊的成果為成功集成語言、視覺和控制設(shè)置了基準(zhǔn)。
該團(tuán)隊利用輔助損耗來補(bǔ)充產(chǎn)生的機(jī)器人控制信號。引導(dǎo)對象檢測注意和策略生成都提高了傾倒任務(wù)的性能。團(tuán)隊還讓5個新的參與人發(fā)出命令以此評估這個模型,并將其與合成語言進(jìn)行比較??偟膩碚f,這個模型對來自新參與者的新自然語言命令反應(yīng)良好。
由此看來,自然語言指令可以在未來為機(jī)器學(xué)習(xí)和機(jī)器人開辟新的應(yīng)用。?