自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

橫掃6個(gè)SOTA,谷歌行為克隆算法登CoRL頂會(huì),機(jī)器人干活10倍速

新聞 人工智能 算法
谷歌團(tuán)隊(duì)在CoRL 2021上提出了一種隱式行為克隆 (Implicit BC) 算法,該方法在7項(xiàng)測(cè)試任務(wù)中的6項(xiàng)上優(yōu)于此前最佳的離線強(qiáng)化學(xué)習(xí)方法(Conservative Q Learning)。

 [[440499]]

谷歌團(tuán)隊(duì)在CoRL 2021上提出了一種隱式行為克隆 (Implicit BC) 算法,該方法在7項(xiàng)測(cè)試任務(wù)中的6項(xiàng)上優(yōu)于此前最佳的離線強(qiáng)化學(xué)習(xí)方法(Conservative Q Learning)。Implicit BC在現(xiàn)實(shí)世界中表現(xiàn)也得特別好,比基線的顯式行為克隆(explicit BC)模型好10倍。

盡管過去幾年中,機(jī)器人學(xué)習(xí)取得了相當(dāng)大的進(jìn)步,但在模仿精確或復(fù)雜的行為時(shí),機(jī)器人代理的一些策略仍難以果斷地選擇動(dòng)作。

要讓機(jī)器人把桌子上的小滑塊精確地滑進(jìn)一個(gè)插槽里。解決這個(gè)任務(wù)有很多方法,每種方法都需要精確的移動(dòng)和修正。機(jī)器人只能采取這些策略選項(xiàng)中的一個(gè),還必須在每次滑塊滑得比預(yù)期的更遠(yuǎn)時(shí)及時(shí)改變策略。

人類可能認(rèn)為這樣的任務(wù)很容易,但對(duì)于機(jī)器人來說,情況往往并非如此,它們經(jīng)常會(huì)學(xué)習(xí)一些人類專家看來「優(yōu)柔寡斷」或「不精確」的行為。

機(jī)器人需要在桌子上滑動(dòng)滑塊,然后將其精確插入固定裝置,顯式行為克隆模型表現(xiàn)得很猶豫

為了讓機(jī)器人更加果斷,研究人員經(jīng)常利用離散化的動(dòng)作空間,迫使機(jī)器人進(jìn)行明確的「二選一」,而不是在選項(xiàng)之間搖擺不定。

比如,離散化是近年來很多游戲agent著名模型的固有特征,比如AlphaGo、AlphaStar 和 OpenAI 打Dota的AI agent。

[[440501]]

但離散化有其自身的局限性——對(duì)于在空間連續(xù)的現(xiàn)實(shí)世界中運(yùn)行的機(jī)器人來說,離散化至少有兩個(gè)缺點(diǎn):

  1. 精度有限。
  2. 因計(jì)算維度導(dǎo)致成本過高,許多離散化不同的維度會(huì)顯著增加內(nèi)存和計(jì)算需求。在 3D 計(jì)算機(jī)視覺任務(wù)中,近期的許多重要模型都是由連續(xù),而非離散表示來驅(qū)動(dòng)的。

為了學(xué)習(xí)沒有離散化特征缺陷的決定性策略,谷歌團(tuán)隊(duì)提出了一種隱式行為克隆 (Implicit BC) 的開源算法,這是一種新的、簡(jiǎn)單的模仿學(xué)習(xí)方法,已經(jīng)在 CoRL 2021 上展示。

該方法在模擬基準(zhǔn)任務(wù)和需要精確和果斷行為的現(xiàn)實(shí)世界機(jī)器人任務(wù)上都取得了很好的結(jié)果。在7項(xiàng)測(cè)試任務(wù)中,隱式 BC 的性能在其中6項(xiàng)上優(yōu)于此前最佳的離線強(qiáng)化學(xué)習(xí)方法(Conservative Q Learning)。

有趣的是,隱式 BC 在不需要任何獎(jiǎng)勵(lì)信息的情況下實(shí)現(xiàn)了這些結(jié)果,即可以使用相對(duì)簡(jiǎn)單的監(jiān)督學(xué)習(xí),而不是更復(fù)雜的強(qiáng)化學(xué)習(xí)。

隱式行為克?。↖mplicit BC)

這種方法是一種行為克隆,可以說是機(jī)器人從演示中學(xué)習(xí)新技能的最簡(jiǎn)單的方法。在行為克隆中,agent會(huì)學(xué)習(xí)如何通過標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)模仿專家的行為。傳統(tǒng)的行為克隆一般是訓(xùn)練一個(gè)顯式神經(jīng)網(wǎng)絡(luò)(如下圖左所示),接受觀察并輸出專家動(dòng)作。

而隱式行為克隆背后的關(guān)鍵思想是,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來接受觀察和動(dòng)作,并輸出一個(gè)數(shù)字,該數(shù)字對(duì)專家動(dòng)作來說很低,對(duì)非專家動(dòng)作來說很高,將行為克隆變成一個(gè)基于能量的建模問題。

橫掃6個(gè)SOTA,谷歌行為克隆算法登CoRL頂會(huì),機(jī)器人干活10倍速

顯式(左)和隱式(右)策略之間差異的描述。在隱式策略中,「argmin」表示與特定觀察配對(duì)時(shí)最小化能量函數(shù)值的動(dòng)作。

訓(xùn)練后,隱式行為克隆策略會(huì)查找對(duì)給定觀察具有最低能量函數(shù)值的動(dòng)作輸入,以此生成動(dòng)作。

為了訓(xùn)練隱式 BC 模型,研究人員使用InfoNCE損失,讓網(wǎng)絡(luò)為數(shù)據(jù)集中的專家動(dòng)作輸出低能量,為所有其他動(dòng)作輸出高能量。有趣的是,這種使用同時(shí)接受觀察和行動(dòng)的模型的思想在強(qiáng)化學(xué)習(xí)中很常見,但在有監(jiān)督的策略學(xué)習(xí)中則不然。

上圖所示為隱式模型如何適應(yīng)不連續(xù)性的動(dòng)畫——在這種情況下,訓(xùn)練隱式模型來適應(yīng)一個(gè)步長(zhǎng)(Heaviside)函數(shù)。左:擬合黑色訓(xùn)練點(diǎn)的2D圖,顏色代表能量值(藍(lán)色低,棕色高)。中間:訓(xùn)練期間能量模型的3D圖。右圖:訓(xùn)練損失曲線。

一旦經(jīng)過訓(xùn)練,Google AI發(fā)現(xiàn)隱式模型(implicit model)特別擅長(zhǎng)精確地建模先前顯式模型(explicit model)難以解決的不連續(xù)性問題,從而產(chǎn)生新的策略,能夠在不同行為之間果斷切換。

為什么傳統(tǒng)的顯式模型(explicit model)在這個(gè)問題上表現(xiàn)不佳呢?

現(xiàn)代神經(jīng)網(wǎng)絡(luò)幾乎總是使用連續(xù)激活函數(shù)——例如,Tensorflow、Jax和PyTorch都只提供連續(xù)激活函數(shù)。

在試圖擬合不連續(xù)數(shù)據(jù)時(shí),用這些激活函數(shù)構(gòu)建的顯式網(wǎng)絡(luò)無法準(zhǔn)確表示,因此必須在數(shù)據(jù)點(diǎn)之間繪制連續(xù)曲線。隱式模型(implicit model)的一個(gè)關(guān)鍵優(yōu)勢(shì)是,即使網(wǎng)絡(luò)本身僅由連續(xù)層組成,也能夠表示出尖銳的不連續(xù)性。

橫掃6個(gè)SOTA,谷歌行為克隆算法登CoRL頂會(huì),機(jī)器人干活10倍速

與顯式模型(底部)相比,隱式模型(頂部)擬合不連續(xù)函數(shù)的示例。紅色突出顯示的插圖顯示,隱式模型表示不連續(xù)性(a)和(b),而顯式模型必須在不連續(xù)性之間畫出連續(xù)的線(c)和(d)

Google AI在這個(gè)方面建立了理論基礎(chǔ),提出了一個(gè)普遍近似的概念,證明了隱式神經(jīng)網(wǎng)絡(luò)可以表示的函數(shù)類別,這將有助于證明和指導(dǎo)未來的研究。

Google AI最初嘗試這種方法時(shí)面臨的一個(gè)挑戰(zhàn)是「高動(dòng)作維度」,這意味著機(jī)器人必須決定如何同時(shí)協(xié)調(diào)多個(gè)電機(jī)。為了擴(kuò)展到高作用維度,Google AI使用自回歸模型或朗之萬動(dòng)力學(xué)。

全新SOTA

在實(shí)驗(yàn)中,Google AI發(fā)現(xiàn)Implicit BC在現(xiàn)實(shí)世界中表現(xiàn)得特別好,在毫米精度的滑塊滑動(dòng)及插槽任務(wù)上比基線的顯式行為克?。╡xplicit BC)模型好10倍。

在此任務(wù)中,隱式模型(implicit model)在將滑塊滑動(dòng)到位之前會(huì)進(jìn)行幾次連續(xù)的精確調(diào)整。

將滑塊精確地插入插槽的示例任務(wù)。這些是隱式策略的自主行為,僅使用圖像(來自所示的攝像機(jī))作為輸入

這項(xiàng)任務(wù)有多種決定性因素:由于塊的對(duì)稱性和推動(dòng)動(dòng)作的任意順序,有許多不同的可能解決方案。

機(jī)器人需要決定滑塊何時(shí)已經(jīng)被推動(dòng)足夠遠(yuǎn),然后需要切換到向不同方向滑動(dòng)。這一過程是不連續(xù)的,所以,連續(xù)控制型機(jī)器人在這一任務(wù)上會(huì)表現(xiàn)得十分優(yōu)柔寡斷。

完成這項(xiàng)任務(wù)的不同策略。這些是來自隱式策略的自主行為,僅使用圖像作為輸入

在另一個(gè)具有挑戰(zhàn)性的任務(wù)中,機(jī)器人需要按顏色對(duì)滑塊進(jìn)行篩選,由于挑選順序是很隨意的,這就產(chǎn)生了大量可能的解決方案。

頗具挑戰(zhàn)性的連續(xù)篩選任務(wù)中顯式BC模型的表現(xiàn)(4倍速度)

在這項(xiàng)任務(wù)中,顯式模型(explicit model)還是表現(xiàn)得很拿不準(zhǔn),而隱式模型(implicit model)表現(xiàn)得更好。

頗具挑戰(zhàn)性的連續(xù)篩選任務(wù)中隱式BC模型表現(xiàn)(4倍速度)

而且在Google AI的測(cè)試中,Implicit BC在面臨干擾時(shí),盡管模型從未見過人類的手,也依然可以表現(xiàn)出強(qiáng)大的適應(yīng)能力。

機(jī)器人受到干擾時(shí),隱式BC模型的穩(wěn)健行為

總的來說,Google AI發(fā)現(xiàn),與跨多個(gè)不同任務(wù)領(lǐng)域的最先進(jìn)的離線強(qiáng)化學(xué)習(xí)方法相比,Implicit BC策略可以獲得更好的結(jié)果。

Implicit BC可以完成很多具有挑戰(zhàn)性的任務(wù),比如演示次數(shù)少(少至19次),基于圖像的觀察具有高觀察維度,還有高達(dá)30維的高動(dòng)作維度,這就需要機(jī)器人充分利用自身具有的大量致動(dòng)器。

橫掃6個(gè)SOTA,谷歌行為克隆算法登CoRL頂會(huì),機(jī)器人干活10倍速

隱式策略學(xué)習(xí)結(jié)果與跨多個(gè)域的基線進(jìn)行了比較

盡管Implicit BC目前還有其局限性,但使用監(jiān)督學(xué)習(xí)的行為克隆仍然是機(jī)器人從人類行為例子中學(xué)習(xí)的最簡(jiǎn)單方法之一。

該工作表明,在進(jìn)行行為克隆時(shí),用隱式策略替換顯式策略可以讓機(jī)器人克服「猶猶豫豫」,使它們能夠模仿更加復(fù)雜和精確的行為。

雖然Implicit BC取得的實(shí)驗(yàn)結(jié)果來自機(jī)器人學(xué)習(xí)問題上,但是隱式函數(shù)對(duì)尖銳不連續(xù)性和多模態(tài)標(biāo)簽建模的能力可能在機(jī)器學(xué)習(xí)的其他領(lǐng)域也有更廣泛的應(yīng)用。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-12-19 14:39:29

機(jī)器人論文

2021-06-03 12:16:18

騰訊云機(jī)器人Robotics X

2020-05-20 12:44:53

編程軟件開發(fā)JavaScript

2010-02-05 10:31:46

谷歌機(jī)器人

2019-03-27 09:27:06

機(jī)器人人工智能系統(tǒng)

2024-07-16 13:15:23

2024-01-05 19:44:48

谷歌機(jī)器人憲法AI

2025-02-21 13:00:00

2021-09-30 18:03:37

AI

2017-03-15 19:03:22

人工智能人類半機(jī)器人

2021-12-26 23:04:34

機(jī)器人人工智能技術(shù)

2021-04-19 20:30:06

機(jī)器人AI人工智能

2019-10-11 12:47:54

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2021-04-21 13:56:32

人工智能機(jī)器學(xué)習(xí)

2024-01-05 09:16:22

谷歌機(jī)器人人工智能

2018-11-13 09:19:48

機(jī)器人人工智能系統(tǒng)

2021-08-05 06:54:04

回溯算法機(jī)器人

2020-10-15 15:42:00

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)