自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

新聞 人工智能
「PlasticineLab」的提出,或?yàn)檐涹w動(dòng)力學(xué)領(lǐng)域的眾多研究提供了新思路。

 [[406628]]

虛擬環(huán)境(ALE、MuJoCo、OpenAI Gym)極大地促進(jìn)了在智能體控制和規(guī)劃方面學(xué)習(xí)算法的發(fā)展和評(píng)估,然而現(xiàn)有的虛擬環(huán)境通常只涉及剛體動(dòng)力學(xué)。盡管軟體動(dòng)力學(xué)在多個(gè)研究領(lǐng)域有著廣泛的應(yīng)用(例如,醫(yī)療護(hù)理中模擬虛擬手術(shù)、計(jì)算機(jī)圖形學(xué)中模擬人形角色、機(jī)器人技術(shù)中開發(fā)仿生制動(dòng)器、材料科學(xué)中分析斷裂和撕裂),關(guān)于構(gòu)建標(biāo)準(zhǔn)軟體環(huán)境和基準(zhǔn)的研究卻很少。

與剛體動(dòng)力學(xué)相比,軟體動(dòng)力學(xué)的模擬、控制和分析更加錯(cuò)綜復(fù)雜。最大的挑戰(zhàn)之一來自其無限的自由度(DoFs)和對(duì)應(yīng)的高維控制方程。軟體動(dòng)力學(xué)的內(nèi)在復(fù)雜性使許多為剛體設(shè)計(jì)的機(jī)器人算法無法直接應(yīng)用,并抑制了用于評(píng)估軟體任務(wù)算法的模擬基準(zhǔn)的發(fā)展。

在一項(xiàng)近期研究中,MIT 沃森人工智能實(shí)驗(yàn)室首席科學(xué)家淦創(chuàng)團(tuán)隊(duì)與來自MIT, USCD等機(jī)構(gòu)的研究者共同提出了一個(gè)支持梯度可導(dǎo)的機(jī)器人軟體操作平臺(tái)(PlasticineLab) 來解決這個(gè)問題。這篇論文內(nèi)容在 ICLR 2021 大會(huì)上被選為spotlight。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

論文地址:
https://arxiv.org/pdf/2104.03311.pdf

項(xiàng)目鏈接:
http://plasticinelab.csail.mit.edu/

Code 下載:
https://github.com/hzaskywalker/PlasticineLab

該基準(zhǔn)可用于運(yùn)行和評(píng)估總共 10 種軟體操作任務(wù),這些任務(wù)包含 50 種配置,必須通過復(fù)雜的操作來執(zhí)行,包括捏、滾、切、成型和雕刻。其特點(diǎn)在于模擬環(huán)境采用可微物理,并且首次為軟體分析提供梯度信息,從而可以通過基于梯度的優(yōu)化進(jìn)行監(jiān)督學(xué)習(xí)。在軟體模型方面,我們選擇了研究橡皮泥(圖 1 左),這是一種用于雕刻的多功能彈塑性材料,在小變形下表現(xiàn)為彈性形變,在大變形下表現(xiàn)為塑性形變。與常規(guī)彈性軟體相比,橡皮泥具有更加多樣和真實(shí)的行為,并帶來了先前研究中未探索的挑戰(zhàn),使其成為測試軟體操作算法的代表性媒介(圖 1 右)。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 1 左:一個(gè)孩子用搟面杖將一塊橡皮泥變形成薄餅。右:PlasticineLab 中具有挑戰(zhàn)性的 RollingPin 場景。智能體需要通過來回滾動(dòng)搟面杖,使橡皮泥變形為目標(biāo)形狀。

我們通過 Taichi 實(shí)現(xiàn) PlasticineLab 的梯度支持和彈塑性材料模型,其 CUDA 后端采用 GPU 大規(guī)模并行來實(shí)時(shí)模擬各種 3D 軟體。隨后通過移動(dòng)最小二乘材料點(diǎn)法和 von Mises 屈服準(zhǔn)則對(duì)彈塑性材料進(jìn)行建模,并利用 Taichi 的雙尺度反向模式微分系統(tǒng)來自動(dòng)計(jì)算梯度,包括塑性材料模型帶來的具有數(shù)值挑戰(zhàn)性的 SVD 梯度。具備完整的梯度后,我們?cè)?PlasticineLab 中所有軟體操作任務(wù)上評(píng)估了基于梯度的規(guī)劃算法,并將其效率與基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行了比較。

實(shí)驗(yàn)表明,基于梯度的規(guī)劃算法可以利用物理模型的額外知識(shí)在數(shù)十次迭代中找到更有價(jià)值的解決方案,而基于強(qiáng)化學(xué)習(xí)的方法即使在 1 萬次迭代之后仍可能會(huì)失敗。但是基于梯度的方法缺乏足夠的動(dòng)力來解決長期規(guī)劃問題,尤其是在多階段任務(wù)上。

這些發(fā)現(xiàn)加深了對(duì)基于強(qiáng)化學(xué)習(xí)和基于梯度的規(guī)劃算法的理解。此外,它還提供了一個(gè)可能的研究方向,即融合這兩種方法的優(yōu)點(diǎn)來推進(jìn)軟體動(dòng)力學(xué)復(fù)雜規(guī)劃任務(wù)的發(fā)展。這項(xiàng)工作主要有以下幾點(diǎn)貢獻(xiàn):

提出了首個(gè)涉及彈性和塑性軟體的技能學(xué)習(xí)基準(zhǔn)。

開發(fā)了一個(gè)功能齊全的可微物理引擎,它支持彈性和塑性變形、軟剛性材料相互作用,以及可微的定制接觸模型。

基準(zhǔn)中廣泛的任務(wù)覆蓋范圍能夠?qū)Υ硇曰趶?qiáng)化學(xué)習(xí)和基于梯度的規(guī)劃算法進(jìn)行系統(tǒng)的評(píng)估和分析。我們希望該基準(zhǔn)可以激發(fā)未來的研究,將可微物理和強(qiáng)化學(xué)習(xí)相結(jié)合。

我們還計(jì)劃通過更多的關(guān)節(jié)系統(tǒng)來擴(kuò)展基準(zhǔn)測試,例如虛擬影子手。作為一種起源于計(jì)算物理界的原理性模擬方法,MPM 在細(xì)化下可收斂,并且具有自身的精度優(yōu)勢。建模錯(cuò)誤在虛擬環(huán)境中不可避免,不過,模擬梯度信息除了作為規(guī)劃的強(qiáng)大監(jiān)督信號(hào)外,還可以指導(dǎo)系統(tǒng)識(shí)別。這可能使機(jī)器人學(xué)研究人員能夠自己「優(yōu)化」任務(wù),與控制器優(yōu)化同時(shí)進(jìn)行,從而自動(dòng)最小化模擬與真實(shí)之間的差距。PlasticineLab 可以顯著降低未來軟體操縱技能學(xué)習(xí)研究的障礙,并為機(jī)器學(xué)習(xí)社區(qū)做出獨(dú)特貢獻(xiàn)。

PLASTICINELAB 學(xué)習(xí)環(huán)境

PlasticineLab 包含由可微物理模擬器支持的具有挑戰(zhàn)性的軟體操作任務(wù),其中的所有任務(wù)都需要智能體使用剛體操縱器將一塊或多塊 3D 橡皮泥變形。底層模擬器允許用戶對(duì)軟體執(zhí)行復(fù)雜的操作,包括捏、滾、切、成型和雕刻。

任務(wù)描述

PlasticineLab 具有 10 種側(cè)重于軟體操作的任務(wù)。每個(gè)任務(wù)都包含一個(gè)或多個(gè)軟體和一個(gè)操縱器,最終目標(biāo)是通過規(guī)劃操縱器的運(yùn)動(dòng)將軟體變形為目標(biāo)形狀。智能體的設(shè)計(jì)遵循標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架,通過馬爾可夫決策過程進(jìn)行建模。每個(gè)任務(wù)的設(shè)計(jì)由其狀態(tài)和觀察、動(dòng)作表征、目標(biāo)定義以及獎(jiǎng)勵(lì)函數(shù)來定義。

馬爾可夫決策過程

一般來說,馬爾可夫決策過程包含狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)換函數(shù)。在 PlasticineLab 中,物理模擬器決定了狀態(tài)之間的轉(zhuǎn)換。智能體的目標(biāo)是找到一個(gè)隨機(jī)策略,根據(jù)給定狀態(tài)對(duì)動(dòng)作進(jìn)行采樣,從而最大化預(yù)期累積未來回報(bào),其中為折扣因子。

狀態(tài)

任務(wù)的狀態(tài)包括軟體的正確表征和操縱器的末端執(zhí)行器。我們遵循先前工作中廣泛使用的基于粒子的模擬方法,將軟體物體表示為一個(gè)粒子系統(tǒng),其狀態(tài)包括粒子的位置、速度以及應(yīng)變和應(yīng)力信息。具體來說,粒子狀態(tài)被編碼為大小為的矩陣,其中是粒子的數(shù)量。矩陣中的每一行都包含來自單個(gè)粒子的信息:兩個(gè)表示位置和速度的 3D 向量,兩個(gè)表示形變梯度和仿射速度場的 3D 矩陣,所有信息堆疊并壓平為一個(gè)維向量。

作為運(yùn)動(dòng)學(xué)剛體,操縱器的末端執(zhí)行器由 7D 向量表示,由 3D 位置和 4D 四元數(shù)方向組成,盡管在某些場景中可能會(huì)禁用某些自由度。對(duì)于每個(gè)任務(wù),該表征會(huì)產(chǎn)生一個(gè)矩陣來編碼操縱器的完整狀態(tài),其中為任務(wù)中所需的操縱器數(shù)量,為3或7,取決于操縱器是否需要旋轉(zhuǎn)。關(guān)于軟體和操縱器之間的交互,我們實(shí)現(xiàn)了剛體和軟體之間的單向耦合,并固定了所有其他物理參數(shù),例如粒子質(zhì)量和操縱器摩擦力。

觀察

雖然粒子狀態(tài)完全表征了軟體動(dòng)力學(xué),但其高自由度對(duì)于任何直接使用的規(guī)劃和控制算法都難以處理。因此,我們下采樣個(gè)粒子作為標(biāo)識(shí),并將它們的位置和速度(每個(gè)標(biāo)識(shí)為 6D)疊加到大小為的矩陣中,用作粒子系統(tǒng)的觀察。值得注意的是,同一任務(wù)中的標(biāo)識(shí)在橡皮泥的初始配置中具有固定的相對(duì)位置,從而在任務(wù)的不同配置中實(shí)現(xiàn)一致的粒子觀察。結(jié)合粒子觀察和操縱器狀態(tài),我們最終得到的觀察向量具有個(gè)元素。

動(dòng)作

在每個(gè)時(shí)間步長,智能體以運(yùn)動(dòng)學(xué)的方式更新操縱器的線速度(必要時(shí)也包括角速度),得到大小為的動(dòng)作,其中為3或6,取決于操縱器是否能否旋轉(zhuǎn)。對(duì)于每個(gè)任務(wù),我們提供全局,動(dòng)作的下限和上限以穩(wěn)定物理模擬。

目標(biāo)和獎(jiǎng)勵(lì)

每個(gè)任務(wù)都具備一個(gè)由質(zhì)量張量表示的目標(biāo)形狀,它本質(zhì)上是將其密度場離散為大小為的規(guī)則網(wǎng)格。在每個(gè)時(shí)間步長t,我們計(jì)算當(dāng)前軟體的質(zhì)量張量。將目標(biāo)和當(dāng)前形狀離散為網(wǎng)格表示,便于我們通過比較相同位置的密度來定義它們的相似性,避免匹配粒子系統(tǒng)或點(diǎn)云的挑戰(zhàn)性問題。獎(jiǎng)勵(lì)函數(shù)的完整定義包括一個(gè)相似性度量以及兩個(gè)關(guān)于操縱器高層次運(yùn)動(dòng)的正則化器:

其中,為兩個(gè)形狀的質(zhì)量張量之間的距離,為兩個(gè)形狀質(zhì)量張量的帶符號(hào)距離場的點(diǎn)積,鼓勵(lì)操縱器靠近軟體。對(duì)于所有任務(wù),正權(quán)重都是常數(shù)。偏差確保每個(gè)環(huán)境最初的獎(jiǎng)勵(lì)為非負(fù)值。

評(píng)估組件

PlasticineLab 共包含 10 種不同的任務(wù)(圖 2)。我們?cè)谶@里描述了 4 個(gè)具有代表性的任務(wù),其余 6 個(gè)任務(wù)在附錄 B 中有詳細(xì)說明。

這些任務(wù)及其不同配置下的變體形成了一套評(píng)估組件,用于對(duì)軟體操作算法的性能進(jìn)行基準(zhǔn)測試。每個(gè)任務(wù)有 5 種變體(總共 50 種配置),通過擾動(dòng)初始和目標(biāo)形狀以及操縱器的初始位置生成。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 2 PlasticineLab 的任務(wù)和參考解決方案,其中某些任務(wù)需要多階段規(guī)劃。

Rope 智能體需要通過兩個(gè)球形操縱器將一根長繩狀橡皮泥纏繞在一根剛性柱子上。支柱的位置在不同的配置中有所不同。

Writer 智能體需要操縱一支「筆」(通過一個(gè)垂直膠囊表示),在立方橡皮泥上繪制目標(biāo)涂鴉。對(duì)于每種配置,我們通過在橡皮泥表面上繪制隨機(jī) 2D 線條來生成涂鴉。筆尖通過三維動(dòng)作進(jìn)行控制。

Chopsticks 智能體需要使用一雙筷子(通過兩個(gè)平行膠囊表示),拿起地上的長繩狀橡皮泥并將其旋轉(zhuǎn)到目標(biāo)位置。操縱器具有 7 個(gè)自由度:6 個(gè)自由度用于移動(dòng)和旋轉(zhuǎn)筷子,1 個(gè)自由度用于控制每根筷子之間的距離。

RollingPin 智能體需要學(xué)習(xí)用剛性搟面杖壓平「比薩面團(tuán)」(通過立方橡皮泥表示)。我們通過具有 3 個(gè)自由度的膠囊模擬搟面杖:1)搟面杖可以垂直下降以按壓面團(tuán);2)搟面杖可沿垂直軸旋轉(zhuǎn)以改變其方向;3)智能體也可以將搟面杖在橡皮泥上滾動(dòng)以將其壓平。

可微彈塑性模擬

該模擬器通過 Taichi 實(shí)現(xiàn)并在 CUDA 上運(yùn)行。連續(xù)介質(zhì)力學(xué)通過移動(dòng)最小二乘材料點(diǎn)法進(jìn)行離散化,這是一種計(jì)算機(jī)圖形學(xué)中相比 B 樣條材料點(diǎn)法更簡單、更有效的變體。模擬器中同時(shí)使用了拉格朗日粒子和歐拉背景網(wǎng)格。材料的屬性包括位置、速度、質(zhì)量、密度和形變梯度。這些屬性存儲(chǔ)在與材料一起移動(dòng)的拉格朗日粒子上,而粒子與剛體的相互作用和碰撞在背景歐拉網(wǎng)格上處理。

在這里我們專注于材料模型的(可微分)可塑性擴(kuò)展,作為橡皮泥的一個(gè)定義特征,利用 Taichi 的反向模式自動(dòng)微分系統(tǒng)進(jìn)行大多數(shù)梯度評(píng)估。

von Mises 屈服準(zhǔn)則

遵循 Gao 等人的工作,我們使用簡單的 von Mises 屈服準(zhǔn)則來模擬塑性。根據(jù) von Mises 屈服準(zhǔn)則,橡皮泥粒子在其偏應(yīng)力第二個(gè)不變量超過某個(gè)閾值時(shí)屈服(即塑性變形),并且由于材料「忘記「了其靜止?fàn)顟B(tài),因此需要對(duì)形變梯度進(jìn)行投影。此過程在 MPM 文獻(xiàn)中通常稱為返回映射。

返回映射及其梯度

遵循 Klar 等人和 Gao 等人的工作,我們將返回映射實(shí)現(xiàn)為每個(gè)粒子形變梯度奇異值的 3D 投影過程。這意味著我們需要對(duì)粒子的形變梯度進(jìn)行奇異值分解(SVD)過程,研究者在附錄 A 中提供了該過程的偽代碼。對(duì)于反向傳播,需要評(píng)估 SVD 的梯度。Taichi 內(nèi)部的 SVD 算法具有迭代性,當(dāng)用蠻力的方式自動(dòng)微分時(shí),它的數(shù)值并不穩(wěn)定。我們使用 Townsend 等人提出的方法來區(qū)分 SVD。對(duì)于奇異值不明顯時(shí)分母為零的問題,遵循 Jiang 等人的方法促使分母的絕對(duì)值大于。

可微接觸模型及其軟體版本

遵循標(biāo)準(zhǔn)的 MPM 實(shí)現(xiàn),使用庫侖摩擦基于網(wǎng)格的接觸處理來解決軟體與地板和剛體障礙物 / 操縱者的碰撞。剛體表示為隨時(shí)間變化的 SDFs。在經(jīng)典的 MPM 中,接觸處理會(huì)導(dǎo)致沿剛軟邊界的速度發(fā)生劇烈的非平滑變化。為了提高獎(jiǎng)勵(lì)平滑度和梯度質(zhì)量,我們?cè)诜聪騻鞑ミ^程中使用了軟化接觸模型。對(duì)于任何網(wǎng)格點(diǎn),模擬器計(jì)算其到剛體的有符號(hào)距離。然后我們計(jì)算一個(gè)平滑碰撞強(qiáng)度因子,當(dāng)逐步衰減到 0 時(shí),該因子呈指數(shù)增加。直觀來說,當(dāng)剛體靠近網(wǎng)格點(diǎn)時(shí),碰撞效果會(huì)變得更強(qiáng)。正參數(shù)決定了軟化接觸模型的銳度。我們使用因子線性混合碰撞投影前后的網(wǎng)格點(diǎn)速度,帶來邊界周圍的平滑過渡區(qū)以及更好的接觸梯度。

實(shí)驗(yàn)

評(píng)估指標(biāo)

首先為每個(gè)任務(wù)生成 5 個(gè)配置,從而生成 50 個(gè)不同的強(qiáng)化學(xué)習(xí)配置。我們計(jì)算歸一化增量 IoU 分?jǐn)?shù)來衡量狀態(tài)是否達(dá)到目標(biāo),并使用軟 IoU 來評(píng)估當(dāng)前狀態(tài)和目標(biāo)之間的距離。首先提取網(wǎng)格質(zhì)量張量,即所有網(wǎng)格的質(zhì)量。每個(gè)非負(fù)值表示存儲(chǔ)于網(wǎng)格點(diǎn)中的材料數(shù)量。令兩個(gè)狀態(tài)的 3D 質(zhì)量張量分別為和。我們首先將每個(gè)張量除以它們的最大幅度以將其值歸一化為:

然后,兩種狀態(tài)的軟化 IoU 通過

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

進(jìn)行計(jì)算。歸一化增量 IoU 分?jǐn)?shù)用于衡量在結(jié)束時(shí) IoU 比初始狀態(tài)時(shí)增加了多少。對(duì)于初始狀態(tài),結(jié)束時(shí)最后狀態(tài)以及目標(biāo)狀態(tài),歸一化增量 IoU 分?jǐn)?shù)定義為。對(duì)于每項(xiàng)任務(wù),我們?cè)?5 種配置上評(píng)估算法并計(jì)算代數(shù)平均分?jǐn)?shù)。

評(píng)估強(qiáng)化學(xué)習(xí)

隨后是在本文提出的任務(wù)上評(píng)估現(xiàn)有強(qiáng)化學(xué)習(xí)算法的性能。我們使用三種 SOTA 無模型強(qiáng)化學(xué)習(xí)算法:Soft Actor-Critic(SAC),Twin Delayed DDPG(TD3)和 Policy Proximal Optimization(PPO)。在每個(gè)配置上訓(xùn)練每個(gè)算法 10000 輪,每輪包含 50 個(gè)環(huán)境步驟。

圖 3 展示了在每個(gè)場景上各種強(qiáng)化學(xué)習(xí)算法的歸一化增量 IoU 分?jǐn)?shù)。大多數(shù)強(qiáng)化學(xué)習(xí)算法可以在 Move 任務(wù)上學(xué)習(xí)到合理的策略。然而強(qiáng)化學(xué)習(xí)算法很難準(zhǔn)確匹配目標(biāo)形狀,這會(huì)導(dǎo)致最終形狀匹配中的一個(gè)小缺陷。我們注意到智能體在探索過程中經(jīng)常釋放物體,使得橡皮泥在重力作用下自由落體。然后智能體重新抓取橡皮泥變得具有挑戰(zhàn)性,導(dǎo)致訓(xùn)練不穩(wěn)定和令人不滿意的結(jié)果。在 Rope 任務(wù)中,智能體可以將繩子推向柱子并獲得部分獎(jiǎng)勵(lì),但最終無法將繩子成功繞在柱子上。TripleMove 任務(wù)增加了操縱器和立體橡皮泥的數(shù)量,對(duì)強(qiáng)化學(xué)習(xí)算法帶來了更大的困難,揭示了算法在擴(kuò)展到高維任務(wù)方面的不足。在 Torus 任務(wù)中,算法性能似乎取決于初始策略。它們有時(shí)可以找到一個(gè)合適的方向按壓操縱器,但有時(shí)因?yàn)椴倏v器從不接觸橡皮泥而失敗,從而導(dǎo)致顯著的最終得分差異。PPO 的性能優(yōu)于其他兩個(gè),在 RollingPin 任務(wù)中,SAC 和 PPO 智能體都能找到來回壓平面團(tuán)的策略,但 PPO 生成了更準(zhǔn)確的形狀,從而具有更高的歸一化增量 IoU 分?jǐn)?shù)。我們猜測此處的環(huán)境更傾向于 PPO 算法,而不依賴于 MLP 評(píng)價(jià)網(wǎng)絡(luò)。這可能是因?yàn)?PPO 受益于 on-policy 樣本,而 MPL 評(píng)價(jià)網(wǎng)絡(luò)可能無法很好地捕捉詳細(xì)的形狀變化。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 3 強(qiáng)化學(xué)習(xí)方法在 104 個(gè) epoch 內(nèi)獲得的最終歸一化增量 IoU 分?jǐn)?shù),低于 0 的分?jǐn)?shù)被限制。橙色虛線表示理論上限。

在一些更難的任務(wù)中,例如需要智能體仔細(xì)處理 3D 旋轉(zhuǎn)的 Chopsticks 任務(wù),以及需要智能體規(guī)劃復(fù)雜軌跡以繪制痕跡的 Writer 任務(wù),被測試的算法很少能夠在有限的時(shí)間內(nèi)找到合理的解決方案。在 Assembly 任務(wù)中,所有智能體很容易陷入局部最小值。它們通常將球形橡皮泥移動(dòng)到目的地附近,但未能將其抬起以得到理想的 IoU。我們期望精心設(shè)計(jì)的獎(jiǎng)勵(lì)塑造,更好的網(wǎng)絡(luò)架構(gòu)和細(xì)粒度的參數(shù)調(diào)整可能對(duì)環(huán)境有益。總而言之,可塑性以及軟體的高自由度對(duì)強(qiáng)化學(xué)習(xí)算法提出了新的挑戰(zhàn)。

評(píng)估軌跡優(yōu)化

由于 PlasticineLab 內(nèi)置可微物理引擎,我們可以使用基于梯度的優(yōu)化為任務(wù)規(guī)劃開環(huán)動(dòng)作序列。在基于梯度的優(yōu)化中,對(duì)于從狀態(tài)開始的某個(gè)配置,初始化一個(gè)隨機(jī)動(dòng)作序列。模擬器將模擬整個(gè)軌跡,在每個(gè)時(shí)間步長累積獎(jiǎng)勵(lì),并進(jìn)行反向傳播以計(jì)算所有動(dòng)作的梯度。然后我們使用基于梯度的優(yōu)化方法來最大化獎(jiǎng)勵(lì)總和。假設(shè)環(huán)境的所有信息已知。這種方法的目標(biāo)不是找到可以在現(xiàn)實(shí)世界中執(zhí)行的控制器。相反,我們希望可微物理可以有助于有效找到解決方案,并為其他控制或強(qiáng)化 / 模仿學(xué)習(xí)算法鋪墊基礎(chǔ)。

在圖 4 中,我們通過繪制獎(jiǎng)勵(lì)曲線來證明可微物理的優(yōu)化效率,并比較不同梯度下降變體的性能。我們測試 Adam 優(yōu)化器(Adam)和帶動(dòng)量梯度下降(GD),使用軟接觸模型來計(jì)算梯度,將 Adam 優(yōu)化器與硬接觸模型(Adam-H)進(jìn)行比較。對(duì)于每個(gè)優(yōu)化器,我們適度為每個(gè)任務(wù)選擇 0.1 或 0.01 的學(xué)習(xí)率來處理不同任務(wù)的不同獎(jiǎng)勵(lì)程度。值得注意的是,此處僅使用軟接觸模型來計(jì)算梯度并搜索解決方案。

我們?cè)谟步佑|環(huán)境中評(píng)估所有解決方案。在圖 4 中,額外繪制了強(qiáng)化學(xué)習(xí)算法的訓(xùn)練曲線,以證明基于梯度的優(yōu)化的效率。結(jié)果表明,基于優(yōu)化的方法可以在數(shù)十次迭代內(nèi)找到具有挑戰(zhàn)性任務(wù)的解決方案。Adam 在大多數(shù)任務(wù)中都優(yōu)于 GD。這可能歸因于 Adam 的自適應(yīng)學(xué)習(xí)率縮放特性,它更適合高維物理過程的復(fù)雜損失面。在大多數(shù)任務(wù)中,硬接觸模型(Adam-H)的表現(xiàn)不如軟模型(Adam),這驗(yàn)證了軟模型通常更容易優(yōu)化的直覺。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 4 在每個(gè)任務(wù)中獎(jiǎng)勵(lì)及其方差隨訓(xùn)練 episode 數(shù)量的變化。將獎(jiǎng)勵(lì)限制為大于 0 以便更好的說明。

表 1 列出了所有方法的歸一化增量 IoU 分?jǐn)?shù)以及標(biāo)準(zhǔn)方差。模型的全部知識(shí)為可微物理提供了獲得更有價(jià)值結(jié)果的機(jī)會(huì)。用 Adam 梯度下降可以在 Rope 任務(wù)中找到移動(dòng)繩子并繞上柱子的方法,在 Assembly 任務(wù)中跳過次優(yōu)解,將球體放在盒子上方,并且在 Chopsticks 任務(wù)中能夠用筷子夾起繩子。即使對(duì)于 Move 任務(wù)也能夠更好地與目標(biāo)形狀對(duì)齊和更穩(wěn)定的優(yōu)化過程,獲得更好的性能。

對(duì)于基于梯度的方法,某些任務(wù)仍然具有挑戰(zhàn)性。在 TripleMove 任務(wù)中,優(yōu)化器將粒子與最近目標(biāo)形狀的距離最小化,這通常會(huì)導(dǎo)致兩個(gè)或三個(gè)橡皮泥聚集到同一個(gè)目標(biāo)位置。對(duì)于沒有探索能力的基于梯度的方法來說,跳出這種局部最小值并不容易。優(yōu)化器在需要多階段策略的任務(wù)上也會(huì)失敗,例如 Pinch 和 Writer 任務(wù)。在 Pinch 任務(wù)中操縱器需要按下物體,松開它們,然后再次按下。然而在操縱器和橡皮泥第一次接觸后,球形操縱器任何局部擾動(dòng)都不會(huì)立即增加獎(jiǎng)勵(lì),優(yōu)化器最終停滯。我們還注意到基于梯度的方法對(duì)初始化非常敏感。實(shí)驗(yàn)將動(dòng)作序列初始化為 0 左右,這在大多數(shù)環(huán)境中都具有良好的性能。

教機(jī)器人捏橡皮泥?MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

表 1 每種方法的平均歸一化增量 IoU 分?jǐn)?shù)和標(biāo)準(zhǔn)方差。Adam-H 表示使用 Adam 優(yōu)化器對(duì)硬接觸模型進(jìn)行優(yōu)化?;趶?qiáng)化學(xué)習(xí)的方法使用 10000 個(gè) episode 進(jìn)行訓(xùn)練,基于梯度的方法使用 200 個(gè) episode 進(jìn)行優(yōu)化。

潛在研究問題

該環(huán)境為基于學(xué)習(xí)的軟體操作提供了豐富的研究機(jī)遇。實(shí)驗(yàn)表明,微分物理學(xué)能夠使基于梯度的軌跡優(yōu)化算法以極快的速度解決簡單的規(guī)劃任務(wù),因?yàn)樘荻葹楦倪M(jìn)策略提供了強(qiáng)大而清晰的指導(dǎo)。但是,如果任務(wù)涉及操縱器和橡皮泥之間的分離和重新連接,則梯度會(huì)消失。當(dāng)無法使用基于局部擾動(dòng)分析的基于梯度的優(yōu)化時(shí),我們可能會(huì)考慮那些允許多步探索并累積獎(jiǎng)勵(lì)的方法,例如隨機(jī)搜索和強(qiáng)化學(xué)習(xí)。

因此,如何將可微物理與基于采樣的方法相結(jié)合來解決軟體操作規(guī)劃問題,會(huì)非常有趣。除了規(guī)劃問題之外,研究如何在這種環(huán)境中設(shè)計(jì)和學(xué)習(xí)有效的軟體操縱控制器也非常有趣。實(shí)驗(yàn)結(jié)果表明控制器設(shè)計(jì)和優(yōu)化仍有足夠的改進(jìn)空間,可能的方向包括為強(qiáng)化學(xué)習(xí)設(shè)計(jì)更好的獎(jiǎng)勵(lì)函數(shù)和研究合適的 3D 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以捕獲軟體動(dòng)力學(xué)。

第三個(gè)有趣的方向是將 PlasticineLab 中訓(xùn)練有素的策略轉(zhuǎn)移到現(xiàn)實(shí)世界中。雖然這個(gè)問題在很大程度上未被探索,但我們相信我們的模擬器可以在各種方面提供幫助:

1. 如 Gaume 等人所示,MPM 仿真結(jié)果可以準(zhǔn)確匹配現(xiàn)實(shí)世界。在未來的工作中,我們可能會(huì)使用模擬器為復(fù)雜任務(wù)規(guī)劃一個(gè)高級(jí)軌跡,然后結(jié)合低級(jí)控制器來執(zhí)行規(guī)劃;

2. 該微分模擬器可以計(jì)算物理參數(shù)的梯度并優(yōu)化參數(shù)以擬合數(shù)據(jù),這可能有助于縮小 sim2real 差距;

3.PlasticineLab 還可以結(jié)合域隨機(jī)化和其他 sim2real 方法??梢栽谠撃M器中自定義物理參數(shù)和圖像渲染器以實(shí)現(xiàn)域隨機(jī)化。我們希望該模擬器可以作為一個(gè)很好的工具來研究現(xiàn)實(shí)世界的軟體操作問題。

最后,泛化性是一個(gè)重要的探索方向。該研究的平臺(tái)支持過程生成,可以生成和模擬不同物體的各種配置,評(píng)估不同算法的通用性。PlasticineLab 也為設(shè)計(jì)豐富的目標(biāo)條件任務(wù)提供了良好的平臺(tái)。

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2021-03-25 09:25:55

機(jī)器人人工智能系統(tǒng)

2023-08-05 12:50:18

AI技術(shù)

2024-07-08 09:05:00

2021-03-13 08:00:59

機(jī)器人AI人工智能

2019-08-27 11:15:20

機(jī)器人人工智能編程

2022-10-21 17:30:26

機(jī)器人

2017-05-25 12:05:03

機(jī)器人軟體機(jī)器人大蜘蛛

2019-08-02 09:25:57

機(jī)器人人工智能系統(tǒng)

2024-11-13 15:40:00

2016-05-11 10:09:49

數(shù)據(jù)層代碼FastQuery

2017-03-07 16:10:36

腦控機(jī)器人糾錯(cuò)

2018-09-29 16:16:43

微軟機(jī)器人Windows

2011-07-01 13:42:24

QT 數(shù)據(jù)庫

2009-12-28 16:57:40

ADO .NET 類

2021-01-09 23:00:48

機(jī)器人工程師醫(yī)學(xué)

2023-07-01 19:49:04

機(jī)器人

2009-09-15 09:50:07

Linq操作數(shù)據(jù)庫

2023-07-10 10:38:58

聯(lián)合國機(jī)器人

2022-02-10 19:32:10

機(jī)器人

2020-11-16 08:56:02

Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)