自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

新聞 人工智能
Google X的一位斯坦福華人博士最近在ICLR2021上發(fā)表了一篇文章,教你動(dòng)態(tài)模擬現(xiàn)實(shí)!

 [[407004]]

工科的同學(xué)想必離不開各種各樣的模擬器,模擬器使各種工程學(xué)科能夠用最少的人力快速制作原型。

在機(jī)器人技術(shù)領(lǐng)域,物理模擬為機(jī)器人提供了一個(gè)安全而廉價(jià)的虛擬操場,機(jī)器人可以利用深強(qiáng)化學(xué)習(xí)(DRL)等技術(shù)獲得物理技能。

然而,由于仿真中的手工衍生物理并不完全匹配真實(shí)世界,完全在仿真中訓(xùn)練的控制策略在真實(shí)硬件上測試時(shí)可能失敗ーー這是一個(gè)被稱為仿真到真實(shí)(sim-to-real)或域適應(yīng)的問題。

基于知覺的任務(wù)(如抓取)的模擬與真實(shí)的差距已經(jīng)用 RL-cycleGAN 和 RetinaGAN 解決了,但是由于機(jī)器人系統(tǒng)的動(dòng)態(tài)性仍然存在差距。

RL-cycleGAN和RetinaGAN在新智元之前的推送《Google X教你用模擬器訓(xùn)練機(jī)器人,準(zhǔn)確率超93%,ICRA2021已發(fā)表》中有介紹。

這讓我們不禁要問,我們能從一些真實(shí)的機(jī)器人軌跡中學(xué)到更精確的物理模擬器嗎?如果是這樣,這樣一個(gè)改進(jìn)的模擬器可以用標(biāo)準(zhǔn)的 DRL 訓(xùn)練來改進(jìn)機(jī)器人控制器,使其在現(xiàn)實(shí)世界中成功。

基于這個(gè)想法,Google 和 X 團(tuán)隊(duì)共同在ICRA2021上發(fā)表了一篇論文《SimGAN: 混合模擬器識別領(lǐng)域適應(yīng)通過對抗性的強(qiáng)化學(xué)習(xí)》,文中提出把物理模擬器作為一個(gè)可學(xué)的組件,由 DRL 訓(xùn)練具有特殊的獎(jiǎng)勵(lì)功能,懲罰在模擬中產(chǎn)生的軌跡(即,隨著時(shí)間的推移機(jī)器人的運(yùn)動(dòng)),少量軌跡之間的差異,收集真實(shí)的機(jī)器人運(yùn)動(dòng)軌跡。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

本文作者超半數(shù)為華人,第一作者Yifeng Jiang,是斯坦福大學(xué)計(jì)算機(jī)科學(xué)專業(yè)的二年級博士生,由C. Karen Liu博士指導(dǎo)。

他在佐治亞理工學(xué)院獲得了電子與計(jì)算機(jī)工程學(xué)士學(xué)位。在進(jìn)入研究生院之前,在上海交通大學(xué)獲得了學(xué)士學(xué)位,是密歇根大學(xué)上海交通大學(xué)聯(lián)合研究所的成員。他的研究興趣是機(jī)器人應(yīng)用的計(jì)算機(jī)動(dòng)畫和物理模擬,以及統(tǒng)計(jì)技術(shù)如何在這些領(lǐng)域中發(fā)揮作用,除此之外對數(shù)值優(yōu)化,人類認(rèn)知和運(yùn)動(dòng)學(xué)習(xí)也很感興趣。

[[407005]]

文中使用生成對抗性網(wǎng)絡(luò)(GANs)來提供這種獎(jiǎng)勵(lì),并制定了一個(gè)混合模擬器,它結(jié)合了可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)和分析物理方程,來平衡模型的表達(dá)性和物理正確性。在機(jī)器人運(yùn)動(dòng)任務(wù)上,該方法優(yōu)于多個(gè)強(qiáng)基線,包括領(lǐng)域隨機(jī)化。

一個(gè)可學(xué)習(xí)的混合模擬器傳統(tǒng)的物理模擬器是一個(gè)程序,用來解決微分方程,在虛擬世界中模擬運(yùn)動(dòng)或相互作用的物體。

對于這項(xiàng)工作,有必要建立不同的物理模型來代表不同的環(huán)境——如果一個(gè)機(jī)器人在床墊上行走,床墊的變形需要考慮在內(nèi)(例如,與有限元分析一起)。

然而,由于機(jī)器人在現(xiàn)實(shí)世界中可能遇到的場景的多樣性,這種特定環(huán)境的建模技術(shù)將是冗長的(甚至是不可能的) ,這就是為什么采用基于機(jī)器學(xué)習(xí)的方法是有用的。

雖然模擬器可以完全從數(shù)據(jù)中學(xué)習(xí),但如果訓(xùn)練數(shù)據(jù)不包括足夠廣泛的各種情況,那么學(xué)習(xí)的模擬器如果需要模擬未經(jīng)訓(xùn)練的情況,就可能違反物理定律(即偏離現(xiàn)實(shí)世界的動(dòng)力學(xué))。

因此,在如此有限的模擬器中訓(xùn)練的機(jī)器人在現(xiàn)實(shí)世界中更有可能失敗。

為了克服這一復(fù)雜性,文中構(gòu)造了一個(gè)混合模擬器,結(jié)合了可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)和物理方程。

具體地說,研究人員使用一個(gè)可學(xué)習(xí)的仿真參數(shù)函數(shù)來代替通常由人工定義的模擬器參數(shù)ーー接觸參數(shù)(如摩擦系數(shù)和恢復(fù)系數(shù))和電機(jī)參數(shù)(如電機(jī)增益) ,因?yàn)榻佑|的未建模細(xì)節(jié)和電機(jī)動(dòng)態(tài)是產(chǎn)生仿真間隙的主要原因。

與傳統(tǒng)的模擬器將這些參數(shù)視為常數(shù)不同,在混合模擬器中,這些參數(shù)是狀態(tài)相關(guān)的ーー它們可以根據(jù)機(jī)器人的狀態(tài)而改變。

例如,電機(jī)在較高的速度下會(huì)變得較弱。這些典型的未建模物理現(xiàn)象可以使用與狀態(tài)相關(guān)的模擬參數(shù)函數(shù)來捕獲。

此外,雖然接觸和電機(jī)參數(shù)通常難以識別和易于變化,由于磨損,我們的混合模擬器可以自動(dòng)學(xué)習(xí)他們從數(shù)據(jù)。例如,模擬器不再需要手動(dòng)指定機(jī)器人腳的參數(shù),而是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)這些參數(shù)。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

混合模擬器的另一部分由物理方程組成,確保模擬遵循物理學(xué)的基本定律,如能量守恒,使其更接近真實(shí)世界,從而減少模擬與真實(shí)世界的差距。

在之前的床墊例子中,可學(xué)習(xí)的混合模擬器能夠模擬床墊的接觸力。由于學(xué)習(xí)的接觸參數(shù)是狀態(tài)相關(guān)的,模擬器可以根據(jù)機(jī)器人腳相對于床墊的距離和速度來調(diào)節(jié)接觸力,模擬可變形表面的剛度和阻尼的影響。

因此,我們不需要為可變形的表面專門設(shè)計(jì)一個(gè)解析的模型。

使用GAN模擬器學(xué)習(xí)成功地學(xué)習(xí)上面討論的模擬參數(shù)函數(shù)將導(dǎo)致一個(gè)混合模擬器,可以產(chǎn)生類似真正的機(jī)器人的軌跡。

使這種學(xué)習(xí)成為可能的關(guān)鍵是為軌跡之間的相似性定義一個(gè)度量標(biāo)準(zhǔn)。

GAN最初設(shè)計(jì)用于生成具有相同分布或風(fēng)格(style)的合成圖像,只有少量真實(shí)圖像,可用于生成與真實(shí)圖像無法區(qū)分的合成軌跡。

GAN有兩個(gè)主要部分,一個(gè)是學(xué)習(xí)生成新實(shí)例的生成器,另一個(gè)是判別器,評估新實(shí)例與訓(xùn)練數(shù)據(jù)的相似程度。

在這種情況下,可學(xué)習(xí)的混合模擬器作為 GAN 生成器,而 GAN 鑒別器提供相似性評分。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

將模擬模型的參數(shù)與現(xiàn)實(shí)世界中收集到的數(shù)據(jù)進(jìn)行擬合,這一過程稱為系統(tǒng)辨識過程(SysID) ,已經(jīng)成為許多工程領(lǐng)域中的常見做法。

例如,可變形表面的剛度參數(shù)可以通過測量表面在不同壓力下的位移來確定。這個(gè)過程通常是手動(dòng)的和繁瑣的,但是使用 GANs 可以更有效率。例如,SysID 經(jīng)常需要一個(gè)手工制作的度量標(biāo)準(zhǔn)來衡量模擬軌跡和真實(shí)軌跡之間的差異。對于 GANs,這樣的度量是由鑒別器自動(dòng)學(xué)習(xí)的。此外,為了計(jì)算差異度量,傳統(tǒng)的 SysID 需要將每個(gè)模擬軌跡配對到使用相同控制策略生成的對應(yīng)實(shí)際軌跡。

由于 GAN 鑒別器只采用一個(gè)軌跡作為輸入,并計(jì)算在現(xiàn)實(shí)世界中chuxian的可能性,因此不需要這種一對一的配對。

使用強(qiáng)化學(xué)習(xí)學(xué)習(xí)模擬器和優(yōu)化策略把所有的東西融合到一起,我們將模擬學(xué)習(xí)形式化為一個(gè) RL 問題。神經(jīng)網(wǎng)絡(luò)從少量的現(xiàn)實(shí)軌跡中學(xué)習(xí)狀態(tài)相關(guān)的接觸和電機(jī)參數(shù)。對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,使模擬軌跡與實(shí)際軌跡之間的誤差最小。

需要注意的是,在一段較長的時(shí)間內(nèi)盡量減少這種錯(cuò)誤是很重要的ー一種能夠準(zhǔn)確預(yù)測更遠(yuǎn)的未來的模擬將導(dǎo)致更好的控制政策。RL 非常適合這一點(diǎn),因?yàn)樗S著時(shí)間的推移優(yōu)化了累積的獎(jiǎng)勵(lì),而不僅僅是優(yōu)化了單步獎(jiǎng)勵(lì)。

在學(xué)習(xí)了混合模擬器并且變得更加準(zhǔn)確之后,我們再次使用 RL 在模擬中改進(jìn)機(jī)器人的控制策略。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

結(jié)果表明,SimGan優(yōu)于多個(gè)sota模型基線,包括領(lǐng)域隨機(jī)化(DR)和直接細(xì)化目標(biāo)域(FT)。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

仿真與現(xiàn)實(shí)的差距是阻礙機(jī)器人利用強(qiáng)化學(xué)習(xí)能力的關(guān)鍵瓶頸之一。

通過學(xué)習(xí)一個(gè)模擬器來應(yīng)對這個(gè)挑戰(zhàn),這個(gè)模擬器可以更忠實(shí)地模擬真實(shí)世界的動(dòng)態(tài),同時(shí)只使用少量的真實(shí)世界數(shù)據(jù)??梢猿晒Φ夭渴鹪诖四M器中改進(jìn)的控制策略。為了達(dá)到這個(gè)目的,我們在經(jīng)典物理模擬器的基礎(chǔ)上增加了可學(xué)習(xí)的組件,并使用對抗性的強(qiáng)化學(xué)習(xí)語言來訓(xùn)練這個(gè)混合模擬器。

 

到目前為止,我們已經(jīng)測試了它在運(yùn)動(dòng)任務(wù)中的應(yīng)用,我們希望通過將它應(yīng)用于其他機(jī)器人學(xué)習(xí)任務(wù),如導(dǎo)航和操作,來構(gòu)建這個(gè)通用框架。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-04-18 19:24:38

2021-07-19 15:02:48

機(jī)器人人工智能算法

2021-03-18 19:19:35

機(jī)器人AI人工智能

2024-01-23 11:31:24

模型AI

2023-11-28 10:54:49

機(jī)器人人工智能

2013-11-07 09:31:22

2014-10-10 14:18:58

2021-09-13 17:27:49

對比學(xué)習(xí)深度學(xué)習(xí)人工智能

2020-10-15 15:42:00

人工智能

2017-03-28 17:18:20

2023-03-28 07:49:38

2024-12-25 11:30:43

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人

2020-09-17 13:07:16

阿里物流機(jī)器人

2014-11-03 14:21:50

AndroidGoogle機(jī)器人Andy Rubin

2015-07-27 10:38:14

微軟android模擬器

2022-07-26 12:43:53

機(jī)器人

2020-10-19 17:41:59

華為云AI機(jī)器人

2009-04-05 09:33:50

Chrome瀏覽器Google
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號