自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

作者：MIT CSAIL 2021-06-21 15:24:56

新聞人工智能

「PlasticineLab」的提出，或?yàn)檐涹w動(dòng)力學(xué)領(lǐng)域的眾多研究提供了新思路。

虛擬環(huán)境（ALE、MuJoCo、OpenAI Gym）極大地促進(jìn)了在智能體控制和規(guī)劃方面學(xué)習(xí)算法的發(fā)展和評(píng)估，然而現(xiàn)有的虛擬環(huán)境通常只涉及剛體動(dòng)力學(xué)。盡管軟體動(dòng)力學(xué)在多個(gè)研究領(lǐng)域有著廣泛的應(yīng)用（例如，醫(yī)療護(hù)理中模擬虛擬手術(shù)、計(jì)算機(jī)圖形學(xué)中模擬人形角色、機(jī)器人技術(shù)中開發(fā)仿生制動(dòng)器、材料科學(xué)中分析斷裂和撕裂），關(guān)于構(gòu)建標(biāo)準(zhǔn)軟體環(huán)境和基準(zhǔn)的研究卻很少。

與剛體動(dòng)力學(xué)相比，軟體動(dòng)力學(xué)的模擬、控制和分析更加錯(cuò)綜復(fù)雜。最大的挑戰(zhàn)之一來自其無限的自由度（DoFs）和對(duì)應(yīng)的高維控制方程。軟體動(dòng)力學(xué)的內(nèi)在復(fù)雜性使許多為剛體設(shè)計(jì)的機(jī)器人算法無法直接應(yīng)用，并抑制了用于評(píng)估軟體任務(wù)算法的模擬基準(zhǔn)的發(fā)展。

在一項(xiàng)近期研究中，MIT 沃森人工智能實(shí)驗(yàn)室首席科學(xué)家淦創(chuàng)團(tuán)隊(duì)與來自MIT, USCD等機(jī)構(gòu)的研究者共同提出了一個(gè)支持梯度可導(dǎo)的機(jī)器人軟體操作平臺(tái)（PlasticineLab) 來解決這個(gè)問題。這篇論文內(nèi)容在 ICLR 2021 大會(huì)上被選為spotlight。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

論文地址：
https://arxiv.org/pdf/2104.03311.pdf

項(xiàng)目鏈接：
http://plasticinelab.csail.mit.edu/

Code 下載：
https://github.com/hzaskywalker/PlasticineLab

該基準(zhǔn)可用于運(yùn)行和評(píng)估總共 10 種軟體操作任務(wù)，這些任務(wù)包含 50 種配置，必須通過復(fù)雜的操作來執(zhí)行，包括捏、滾、切、成型和雕刻。其特點(diǎn)在于模擬環(huán)境采用可微物理，并且首次為軟體分析提供梯度信息，從而可以通過基于梯度的優(yōu)化進(jìn)行監(jiān)督學(xué)習(xí)。在軟體模型方面，我們選擇了研究橡皮泥（圖 1 左），這是一種用于雕刻的多功能彈塑性材料，在小變形下表現(xiàn)為彈性形變，在大變形下表現(xiàn)為塑性形變。與常規(guī)彈性軟體相比，橡皮泥具有更加多樣和真實(shí)的行為，并帶來了先前研究中未探索的挑戰(zhàn)，使其成為測試軟體操作算法的代表性媒介（圖 1 右）。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 1 左：一個(gè)孩子用搟面杖將一塊橡皮泥變形成薄餅。右：PlasticineLab 中具有挑戰(zhàn)性的 RollingPin 場景。智能體需要通過來回滾動(dòng)搟面杖，使橡皮泥變形為目標(biāo)形狀。

我們通過 Taichi 實(shí)現(xiàn) PlasticineLab 的梯度支持和彈塑性材料模型，其 CUDA 后端采用 GPU 大規(guī)模并行來實(shí)時(shí)模擬各種 3D 軟體。隨后通過移動(dòng)最小二乘材料點(diǎn)法和 von Mises 屈服準(zhǔn)則對(duì)彈塑性材料進(jìn)行建模，并利用 Taichi 的雙尺度反向模式微分系統(tǒng)來自動(dòng)計(jì)算梯度，包括塑性材料模型帶來的具有數(shù)值挑戰(zhàn)性的 SVD 梯度。具備完整的梯度后，我們?cè)?PlasticineLab 中所有軟體操作任務(wù)上評(píng)估了基于梯度的規(guī)劃算法，并將其效率與基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行了比較。

實(shí)驗(yàn)表明，基于梯度的規(guī)劃算法可以利用物理模型的額外知識(shí)在數(shù)十次迭代中找到更有價(jià)值的解決方案，而基于強(qiáng)化學(xué)習(xí)的方法即使在 1 萬次迭代之后仍可能會(huì)失敗。但是基于梯度的方法缺乏足夠的動(dòng)力來解決長期規(guī)劃問題，尤其是在多階段任務(wù)上。

這些發(fā)現(xiàn)加深了對(duì)基于強(qiáng)化學(xué)習(xí)和基于梯度的規(guī)劃算法的理解。此外，它還提供了一個(gè)可能的研究方向，即融合這兩種方法的優(yōu)點(diǎn)來推進(jìn)軟體動(dòng)力學(xué)復(fù)雜規(guī)劃任務(wù)的發(fā)展。這項(xiàng)工作主要有以下幾點(diǎn)貢獻(xiàn)：

提出了首個(gè)涉及彈性和塑性軟體的技能學(xué)習(xí)基準(zhǔn)。

開發(fā)了一個(gè)功能齊全的可微物理引擎，它支持彈性和塑性變形、軟剛性材料相互作用，以及可微的定制接觸模型。

基準(zhǔn)中廣泛的任務(wù)覆蓋范圍能夠?qū)Υ硇曰趶?qiáng)化學(xué)習(xí)和基于梯度的規(guī)劃算法進(jìn)行系統(tǒng)的評(píng)估和分析。我們希望該基準(zhǔn)可以激發(fā)未來的研究，將可微物理和強(qiáng)化學(xué)習(xí)相結(jié)合。

我們還計(jì)劃通過更多的關(guān)節(jié)系統(tǒng)來擴(kuò)展基準(zhǔn)測試，例如虛擬影子手。作為一種起源于計(jì)算物理界的原理性模擬方法，MPM 在細(xì)化下可收斂，并且具有自身的精度優(yōu)勢。建模錯(cuò)誤在虛擬環(huán)境中不可避免，不過，模擬梯度信息除了作為規(guī)劃的強(qiáng)大監(jiān)督信號(hào)外，還可以指導(dǎo)系統(tǒng)識(shí)別。這可能使機(jī)器人學(xué)研究人員能夠自己「優(yōu)化」任務(wù)，與控制器優(yōu)化同時(shí)進(jìn)行，從而自動(dòng)最小化模擬與真實(shí)之間的差距。PlasticineLab 可以顯著降低未來軟體操縱技能學(xué)習(xí)研究的障礙，并為機(jī)器學(xué)習(xí)社區(qū)做出獨(dú)特貢獻(xiàn)。

PLASTICINELAB 學(xué)習(xí)環(huán)境

PlasticineLab 包含由可微物理模擬器支持的具有挑戰(zhàn)性的軟體操作任務(wù)，其中的所有任務(wù)都需要智能體使用剛體操縱器將一塊或多塊 3D 橡皮泥變形。底層模擬器允許用戶對(duì)軟體執(zhí)行復(fù)雜的操作，包括捏、滾、切、成型和雕刻。

任務(wù)描述

PlasticineLab 具有 10 種側(cè)重于軟體操作的任務(wù)。每個(gè)任務(wù)都包含一個(gè)或多個(gè)軟體和一個(gè)操縱器，最終目標(biāo)是通過規(guī)劃操縱器的運(yùn)動(dòng)將軟體變形為目標(biāo)形狀。智能體的設(shè)計(jì)遵循標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架，通過馬爾可夫決策過程進(jìn)行建模。每個(gè)任務(wù)的設(shè)計(jì)由其狀態(tài)和觀察、動(dòng)作表征、目標(biāo)定義以及獎(jiǎng)勵(lì)函數(shù)來定義。

馬爾可夫決策過程

一般來說，馬爾可夫決策過程包含狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)換函數(shù)。在 PlasticineLab 中，物理模擬器決定了狀態(tài)之間的轉(zhuǎn)換。智能體的目標(biāo)是找到一個(gè)隨機(jī)策略，根據(jù)給定狀態(tài)對(duì)動(dòng)作進(jìn)行采樣，從而最大化預(yù)期累積未來回報(bào)，其中為折扣因子。

狀態(tài)

任務(wù)的狀態(tài)包括軟體的正確表征和操縱器的末端執(zhí)行器。我們遵循先前工作中廣泛使用的基于粒子的模擬方法，將軟體物體表示為一個(gè)粒子系統(tǒng)，其狀態(tài)包括粒子的位置、速度以及應(yīng)變和應(yīng)力信息。具體來說，粒子狀態(tài)被編碼為大小為的矩陣，其中是粒子的數(shù)量。矩陣中的每一行都包含來自單個(gè)粒子的信息：兩個(gè)表示位置和速度的 3D 向量，兩個(gè)表示形變梯度和仿射速度場的 3D 矩陣，所有信息堆疊并壓平為一個(gè)維向量。

作為運(yùn)動(dòng)學(xué)剛體，操縱器的末端執(zhí)行器由 7D 向量表示，由 3D 位置和 4D 四元數(shù)方向組成，盡管在某些場景中可能會(huì)禁用某些自由度。對(duì)于每個(gè)任務(wù)，該表征會(huì)產(chǎn)生一個(gè)矩陣來編碼操縱器的完整狀態(tài)，其中為任務(wù)中所需的操縱器數(shù)量，為3或7，取決于操縱器是否需要旋轉(zhuǎn)。關(guān)于軟體和操縱器之間的交互，我們實(shí)現(xiàn)了剛體和軟體之間的單向耦合，并固定了所有其他物理參數(shù)，例如粒子質(zhì)量和操縱器摩擦力。

觀察

雖然粒子狀態(tài)完全表征了軟體動(dòng)力學(xué)，但其高自由度對(duì)于任何直接使用的規(guī)劃和控制算法都難以處理。因此，我們下采樣個(gè)粒子作為標(biāo)識(shí)，并將它們的位置和速度（每個(gè)標(biāo)識(shí)為 6D）疊加到大小為的矩陣中，用作粒子系統(tǒng)的觀察。值得注意的是，同一任務(wù)中的標(biāo)識(shí)在橡皮泥的初始配置中具有固定的相對(duì)位置，從而在任務(wù)的不同配置中實(shí)現(xiàn)一致的粒子觀察。結(jié)合粒子觀察和操縱器狀態(tài)，我們最終得到的觀察向量具有個(gè)元素。

動(dòng)作

在每個(gè)時(shí)間步長，智能體以運(yùn)動(dòng)學(xué)的方式更新操縱器的線速度（必要時(shí)也包括角速度），得到大小為的動(dòng)作，其中為3或6，取決于操縱器是否能否旋轉(zhuǎn)。對(duì)于每個(gè)任務(wù)，我們提供全局，動(dòng)作的下限和上限以穩(wěn)定物理模擬。

目標(biāo)和獎(jiǎng)勵(lì)

每個(gè)任務(wù)都具備一個(gè)由質(zhì)量張量表示的目標(biāo)形狀，它本質(zhì)上是將其密度場離散為大小為的規(guī)則網(wǎng)格。在每個(gè)時(shí)間步長t，我們計(jì)算當(dāng)前軟體的質(zhì)量張量。將目標(biāo)和當(dāng)前形狀離散為網(wǎng)格表示，便于我們通過比較相同位置的密度來定義它們的相似性，避免匹配粒子系統(tǒng)或點(diǎn)云的挑戰(zhàn)性問題。獎(jiǎng)勵(lì)函數(shù)的完整定義包括一個(gè)相似性度量以及兩個(gè)關(guān)于操縱器高層次運(yùn)動(dòng)的正則化器：

其中，為兩個(gè)形狀的質(zhì)量張量之間的距離，為兩個(gè)形狀質(zhì)量張量的帶符號(hào)距離場的點(diǎn)積，鼓勵(lì)操縱器靠近軟體。對(duì)于所有任務(wù)，正權(quán)重都是常數(shù)。偏差確保每個(gè)環(huán)境最初的獎(jiǎng)勵(lì)為非負(fù)值。

評(píng)估組件

PlasticineLab 共包含 10 種不同的任務(wù)（圖 2）。我們?cè)谶@里描述了 4 個(gè)具有代表性的任務(wù)，其余 6 個(gè)任務(wù)在附錄 B 中有詳細(xì)說明。

這些任務(wù)及其不同配置下的變體形成了一套評(píng)估組件，用于對(duì)軟體操作算法的性能進(jìn)行基準(zhǔn)測試。每個(gè)任務(wù)有 5 種變體（總共 50 種配置），通過擾動(dòng)初始和目標(biāo)形狀以及操縱器的初始位置生成。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 2 PlasticineLab 的任務(wù)和參考解決方案，其中某些任務(wù)需要多階段規(guī)劃。

Rope 智能體需要通過兩個(gè)球形操縱器將一根長繩狀橡皮泥纏繞在一根剛性柱子上。支柱的位置在不同的配置中有所不同。

Writer 智能體需要操縱一支「筆」（通過一個(gè)垂直膠囊表示），在立方橡皮泥上繪制目標(biāo)涂鴉。對(duì)于每種配置，我們通過在橡皮泥表面上繪制隨機(jī) 2D 線條來生成涂鴉。筆尖通過三維動(dòng)作進(jìn)行控制。

Chopsticks 智能體需要使用一雙筷子（通過兩個(gè)平行膠囊表示），拿起地上的長繩狀橡皮泥并將其旋轉(zhuǎn)到目標(biāo)位置。操縱器具有 7 個(gè)自由度：6 個(gè)自由度用于移動(dòng)和旋轉(zhuǎn)筷子，1 個(gè)自由度用于控制每根筷子之間的距離。

RollingPin 智能體需要學(xué)習(xí)用剛性搟面杖壓平「比薩面團(tuán)」（通過立方橡皮泥表示）。我們通過具有 3 個(gè)自由度的膠囊模擬搟面杖：1）搟面杖可以垂直下降以按壓面團(tuán)；2）搟面杖可沿垂直軸旋轉(zhuǎn)以改變其方向；3）智能體也可以將搟面杖在橡皮泥上滾動(dòng)以將其壓平。

可微彈塑性模擬

該模擬器通過 Taichi 實(shí)現(xiàn)并在 CUDA 上運(yùn)行。連續(xù)介質(zhì)力學(xué)通過移動(dòng)最小二乘材料點(diǎn)法進(jìn)行離散化，這是一種計(jì)算機(jī)圖形學(xué)中相比 B 樣條材料點(diǎn)法更簡單、更有效的變體。模擬器中同時(shí)使用了拉格朗日粒子和歐拉背景網(wǎng)格。材料的屬性包括位置、速度、質(zhì)量、密度和形變梯度。這些屬性存儲(chǔ)在與材料一起移動(dòng)的拉格朗日粒子上，而粒子與剛體的相互作用和碰撞在背景歐拉網(wǎng)格上處理。

在這里我們專注于材料模型的（可微分）可塑性擴(kuò)展，作為橡皮泥的一個(gè)定義特征，利用 Taichi 的反向模式自動(dòng)微分系統(tǒng)進(jìn)行大多數(shù)梯度評(píng)估。

von Mises 屈服準(zhǔn)則

遵循 Gao 等人的工作，我們使用簡單的 von Mises 屈服準(zhǔn)則來模擬塑性。根據(jù) von Mises 屈服準(zhǔn)則，橡皮泥粒子在其偏應(yīng)力第二個(gè)不變量超過某個(gè)閾值時(shí)屈服（即塑性變形），并且由于材料「忘記「了其靜止?fàn)顟B(tài)，因此需要對(duì)形變梯度進(jìn)行投影。此過程在 MPM 文獻(xiàn)中通常稱為返回映射。

返回映射及其梯度

遵循 Klar 等人和 Gao 等人的工作，我們將返回映射實(shí)現(xiàn)為每個(gè)粒子形變梯度奇異值的 3D 投影過程。這意味著我們需要對(duì)粒子的形變梯度進(jìn)行奇異值分解（SVD）過程，研究者在附錄 A 中提供了該過程的偽代碼。對(duì)于反向傳播，需要評(píng)估 SVD 的梯度。Taichi 內(nèi)部的 SVD 算法具有迭代性，當(dāng)用蠻力的方式自動(dòng)微分時(shí)，它的數(shù)值并不穩(wěn)定。我們使用 Townsend 等人提出的方法來區(qū)分 SVD。對(duì)于奇異值不明顯時(shí)分母為零的問題，遵循 Jiang 等人的方法促使分母的絕對(duì)值大于。

可微接觸模型及其軟體版本

遵循標(biāo)準(zhǔn)的 MPM 實(shí)現(xiàn)，使用庫侖摩擦基于網(wǎng)格的接觸處理來解決軟體與地板和剛體障礙物 / 操縱者的碰撞。剛體表示為隨時(shí)間變化的 SDFs。在經(jīng)典的 MPM 中，接觸處理會(huì)導(dǎo)致沿剛軟邊界的速度發(fā)生劇烈的非平滑變化。為了提高獎(jiǎng)勵(lì)平滑度和梯度質(zhì)量，我們?cè)诜聪騻鞑ミ^程中使用了軟化接觸模型。對(duì)于任何網(wǎng)格點(diǎn)，模擬器計(jì)算其到剛體的有符號(hào)距離。然后我們計(jì)算一個(gè)平滑碰撞強(qiáng)度因子，當(dāng)逐步衰減到 0 時(shí)，該因子呈指數(shù)增加。直觀來說，當(dāng)剛體靠近網(wǎng)格點(diǎn)時(shí)，碰撞效果會(huì)變得更強(qiáng)。正參數(shù)決定了軟化接觸模型的銳度。我們使用因子線性混合碰撞投影前后的網(wǎng)格點(diǎn)速度，帶來邊界周圍的平滑過渡區(qū)以及更好的接觸梯度。

實(shí)驗(yàn)

評(píng)估指標(biāo)

首先為每個(gè)任務(wù)生成 5 個(gè)配置，從而生成 50 個(gè)不同的強(qiáng)化學(xué)習(xí)配置。我們計(jì)算歸一化增量 IoU 分?jǐn)?shù)來衡量狀態(tài)是否達(dá)到目標(biāo)，并使用軟 IoU 來評(píng)估當(dāng)前狀態(tài)和目標(biāo)之間的距離。首先提取網(wǎng)格質(zhì)量張量，即所有網(wǎng)格的質(zhì)量。每個(gè)非負(fù)值表示存儲(chǔ)于網(wǎng)格點(diǎn)中的材料數(shù)量。令兩個(gè)狀態(tài)的 3D 質(zhì)量張量分別為和。我們首先將每個(gè)張量除以它們的最大幅度以將其值歸一化為：

然后，兩種狀態(tài)的軟化 IoU 通過

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

進(jìn)行計(jì)算。歸一化增量 IoU 分?jǐn)?shù)用于衡量在結(jié)束時(shí) IoU 比初始狀態(tài)時(shí)增加了多少。對(duì)于初始狀態(tài)，結(jié)束時(shí)最后狀態(tài)以及目標(biāo)狀態(tài)，歸一化增量 IoU 分?jǐn)?shù)定義為。對(duì)于每項(xiàng)任務(wù)，我們?cè)?5 種配置上評(píng)估算法并計(jì)算代數(shù)平均分?jǐn)?shù)。

評(píng)估強(qiáng)化學(xué)習(xí)

隨后是在本文提出的任務(wù)上評(píng)估現(xiàn)有強(qiáng)化學(xué)習(xí)算法的性能。我們使用三種 SOTA 無模型強(qiáng)化學(xué)習(xí)算法：Soft Actor-Critic（SAC），Twin Delayed DDPG（TD3）和 Policy Proximal Optimization（PPO）。在每個(gè)配置上訓(xùn)練每個(gè)算法 10000 輪，每輪包含 50 個(gè)環(huán)境步驟。

圖 3 展示了在每個(gè)場景上各種強(qiáng)化學(xué)習(xí)算法的歸一化增量 IoU 分?jǐn)?shù)。大多數(shù)強(qiáng)化學(xué)習(xí)算法可以在 Move 任務(wù)上學(xué)習(xí)到合理的策略。然而強(qiáng)化學(xué)習(xí)算法很難準(zhǔn)確匹配目標(biāo)形狀，這會(huì)導(dǎo)致最終形狀匹配中的一個(gè)小缺陷。我們注意到智能體在探索過程中經(jīng)常釋放物體，使得橡皮泥在重力作用下自由落體。然后智能體重新抓取橡皮泥變得具有挑戰(zhàn)性，導(dǎo)致訓(xùn)練不穩(wěn)定和令人不滿意的結(jié)果。在 Rope 任務(wù)中，智能體可以將繩子推向柱子并獲得部分獎(jiǎng)勵(lì)，但最終無法將繩子成功繞在柱子上。TripleMove 任務(wù)增加了操縱器和立體橡皮泥的數(shù)量，對(duì)強(qiáng)化學(xué)習(xí)算法帶來了更大的困難，揭示了算法在擴(kuò)展到高維任務(wù)方面的不足。在 Torus 任務(wù)中，算法性能似乎取決于初始策略。它們有時(shí)可以找到一個(gè)合適的方向按壓操縱器，但有時(shí)因?yàn)椴倏v器從不接觸橡皮泥而失敗，從而導(dǎo)致顯著的最終得分差異。PPO 的性能優(yōu)于其他兩個(gè)，在 RollingPin 任務(wù)中，SAC 和 PPO 智能體都能找到來回壓平面團(tuán)的策略，但 PPO 生成了更準(zhǔn)確的形狀，從而具有更高的歸一化增量 IoU 分?jǐn)?shù)。我們猜測此處的環(huán)境更傾向于 PPO 算法，而不依賴于 MLP 評(píng)價(jià)網(wǎng)絡(luò)。這可能是因?yàn)?PPO 受益于 on-policy 樣本，而 MPL 評(píng)價(jià)網(wǎng)絡(luò)可能無法很好地捕捉詳細(xì)的形狀變化。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 3 強(qiáng)化學(xué)習(xí)方法在 104 個(gè) epoch 內(nèi)獲得的最終歸一化增量 IoU 分?jǐn)?shù)，低于 0 的分?jǐn)?shù)被限制。橙色虛線表示理論上限。

在一些更難的任務(wù)中，例如需要智能體仔細(xì)處理 3D 旋轉(zhuǎn)的 Chopsticks 任務(wù)，以及需要智能體規(guī)劃復(fù)雜軌跡以繪制痕跡的 Writer 任務(wù)，被測試的算法很少能夠在有限的時(shí)間內(nèi)找到合理的解決方案。在 Assembly 任務(wù)中，所有智能體很容易陷入局部最小值。它們通常將球形橡皮泥移動(dòng)到目的地附近，但未能將其抬起以得到理想的 IoU。我們期望精心設(shè)計(jì)的獎(jiǎng)勵(lì)塑造，更好的網(wǎng)絡(luò)架構(gòu)和細(xì)粒度的參數(shù)調(diào)整可能對(duì)環(huán)境有益。總而言之，可塑性以及軟體的高自由度對(duì)強(qiáng)化學(xué)習(xí)算法提出了新的挑戰(zhàn)。

評(píng)估軌跡優(yōu)化

由于 PlasticineLab 內(nèi)置可微物理引擎，我們可以使用基于梯度的優(yōu)化為任務(wù)規(guī)劃開環(huán)動(dòng)作序列。在基于梯度的優(yōu)化中，對(duì)于從狀態(tài)開始的某個(gè)配置，初始化一個(gè)隨機(jī)動(dòng)作序列。模擬器將模擬整個(gè)軌跡，在每個(gè)時(shí)間步長累積獎(jiǎng)勵(lì)，并進(jìn)行反向傳播以計(jì)算所有動(dòng)作的梯度。然后我們使用基于梯度的優(yōu)化方法來最大化獎(jiǎng)勵(lì)總和。假設(shè)環(huán)境的所有信息已知。這種方法的目標(biāo)不是找到可以在現(xiàn)實(shí)世界中執(zhí)行的控制器。相反，我們希望可微物理可以有助于有效找到解決方案，并為其他控制或強(qiáng)化 / 模仿學(xué)習(xí)算法鋪墊基礎(chǔ)。

在圖 4 中，我們通過繪制獎(jiǎng)勵(lì)曲線來證明可微物理的優(yōu)化效率，并比較不同梯度下降變體的性能。我們測試 Adam 優(yōu)化器（Adam）和帶動(dòng)量梯度下降（GD），使用軟接觸模型來計(jì)算梯度，將 Adam 優(yōu)化器與硬接觸模型（Adam-H）進(jìn)行比較。對(duì)于每個(gè)優(yōu)化器，我們適度為每個(gè)任務(wù)選擇 0.1 或 0.01 的學(xué)習(xí)率來處理不同任務(wù)的不同獎(jiǎng)勵(lì)程度。值得注意的是，此處僅使用軟接觸模型來計(jì)算梯度并搜索解決方案。

我們?cè)谟步佑|環(huán)境中評(píng)估所有解決方案。在圖 4 中，額外繪制了強(qiáng)化學(xué)習(xí)算法的訓(xùn)練曲線，以證明基于梯度的優(yōu)化的效率。結(jié)果表明，基于優(yōu)化的方法可以在數(shù)十次迭代內(nèi)找到具有挑戰(zhàn)性任務(wù)的解決方案。Adam 在大多數(shù)任務(wù)中都優(yōu)于 GD。這可能歸因于 Adam 的自適應(yīng)學(xué)習(xí)率縮放特性，它更適合高維物理過程的復(fù)雜損失面。在大多數(shù)任務(wù)中，硬接觸模型（Adam-H）的表現(xiàn)不如軟模型（Adam），這驗(yàn)證了軟模型通常更容易優(yōu)化的直覺。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

圖 4 在每個(gè)任務(wù)中獎(jiǎng)勵(lì)及其方差隨訓(xùn)練 episode 數(shù)量的變化。將獎(jiǎng)勵(lì)限制為大于 0 以便更好的說明。

表 1 列出了所有方法的歸一化增量 IoU 分?jǐn)?shù)以及標(biāo)準(zhǔn)方差。模型的全部知識(shí)為可微物理提供了獲得更有價(jià)值結(jié)果的機(jī)會(huì)。用 Adam 梯度下降可以在 Rope 任務(wù)中找到移動(dòng)繩子并繞上柱子的方法，在 Assembly 任務(wù)中跳過次優(yōu)解，將球體放在盒子上方，并且在 Chopsticks 任務(wù)中能夠用筷子夾起繩子。即使對(duì)于 Move 任務(wù)也能夠更好地與目標(biāo)形狀對(duì)齊和更穩(wěn)定的優(yōu)化過程，獲得更好的性能。

對(duì)于基于梯度的方法，某些任務(wù)仍然具有挑戰(zhàn)性。在 TripleMove 任務(wù)中，優(yōu)化器將粒子與最近目標(biāo)形狀的距離最小化，這通常會(huì)導(dǎo)致兩個(gè)或三個(gè)橡皮泥聚集到同一個(gè)目標(biāo)位置。對(duì)于沒有探索能力的基于梯度的方法來說，跳出這種局部最小值并不容易。優(yōu)化器在需要多階段策略的任務(wù)上也會(huì)失敗，例如 Pinch 和 Writer 任務(wù)。在 Pinch 任務(wù)中操縱器需要按下物體，松開它們，然后再次按下。然而在操縱器和橡皮泥第一次接觸后，球形操縱器任何局部擾動(dòng)都不會(huì)立即增加獎(jiǎng)勵(lì)，優(yōu)化器最終停滯。我們還注意到基于梯度的方法對(duì)初始化非常敏感。實(shí)驗(yàn)將動(dòng)作序列初始化為 0 左右，這在大多數(shù)環(huán)境中都具有良好的性能。

教機(jī)器人捏橡皮泥？MIT、IBM, UCSD等聯(lián)合發(fā)布軟體操作數(shù)據(jù)集

表 1 每種方法的平均歸一化增量 IoU 分?jǐn)?shù)和標(biāo)準(zhǔn)方差。Adam-H 表示使用 Adam 優(yōu)化器對(duì)硬接觸模型進(jìn)行優(yōu)化?；趶?qiáng)化學(xué)習(xí)的方法使用 10000 個(gè) episode 進(jìn)行訓(xùn)練，基于梯度的方法使用 200 個(gè) episode 進(jìn)行優(yōu)化。

潛在研究問題

該環(huán)境為基于學(xué)習(xí)的軟體操作提供了豐富的研究機(jī)遇。實(shí)驗(yàn)表明，微分物理學(xué)能夠使基于梯度的軌跡優(yōu)化算法以極快的速度解決簡單的規(guī)劃任務(wù)，因?yàn)樘荻葹楦倪M(jìn)策略提供了強(qiáng)大而清晰的指導(dǎo)。但是，如果任務(wù)涉及操縱器和橡皮泥之間的分離和重新連接，則梯度會(huì)消失。當(dāng)無法使用基于局部擾動(dòng)分析的基于梯度的優(yōu)化時(shí)，我們可能會(huì)考慮那些允許多步探索并累積獎(jiǎng)勵(lì)的方法，例如隨機(jī)搜索和強(qiáng)化學(xué)習(xí)。

因此，如何將可微物理與基于采樣的方法相結(jié)合來解決軟體操作規(guī)劃問題，會(huì)非常有趣。除了規(guī)劃問題之外，研究如何在這種環(huán)境中設(shè)計(jì)和學(xué)習(xí)有效的軟體操縱控制器也非常有趣。實(shí)驗(yàn)結(jié)果表明控制器設(shè)計(jì)和優(yōu)化仍有足夠的改進(jìn)空間，可能的方向包括為強(qiáng)化學(xué)習(xí)設(shè)計(jì)更好的獎(jiǎng)勵(lì)函數(shù)和研究合適的 3D 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以捕獲軟體動(dòng)力學(xué)。

第三個(gè)有趣的方向是將 PlasticineLab 中訓(xùn)練有素的策略轉(zhuǎn)移到現(xiàn)實(shí)世界中。雖然這個(gè)問題在很大程度上未被探索，但我們相信我們的模擬器可以在各種方面提供幫助：

1. 如 Gaume 等人所示，MPM 仿真結(jié)果可以準(zhǔn)確匹配現(xiàn)實(shí)世界。在未來的工作中，我們可能會(huì)使用模擬器為復(fù)雜任務(wù)規(guī)劃一個(gè)高級(jí)軌跡，然后結(jié)合低級(jí)控制器來執(zhí)行規(guī)劃；

2. 該微分模擬器可以計(jì)算物理參數(shù)的梯度并優(yōu)化參數(shù)以擬合數(shù)據(jù)，這可能有助于縮小 sim2real 差距；

3.PlasticineLab 還可以結(jié)合域隨機(jī)化和其他 sim2real 方法?？梢栽谠撃M器中自定義物理參數(shù)和圖像渲染器以實(shí)現(xiàn)域隨機(jī)化。我們希望該模擬器可以作為一個(gè)很好的工具來研究現(xiàn)實(shí)世界的軟體操作問題。

最后，泛化性是一個(gè)重要的探索方向。該研究的平臺(tái)支持過程生成，可以生成和模擬不同物體的各種配置，評(píng)估不同算法的通用性。PlasticineLab 也為設(shè)計(jì)豐富的目標(biāo)條件任務(wù)提供了良好的平臺(tái)。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

機(jī)器人人工智能算法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營