斯坦福學(xué)者提出sim2real解決方案TRANSIC: 通過(guò)在線糾正學(xué)習(xí)進(jìn)行模擬到真實(shí)政策轉(zhuǎn)移 原創(chuàng)
在模擬中學(xué)習(xí)并將學(xué)到的策略轉(zhuǎn)移到現(xiàn)實(shí)世界有潛力實(shí)現(xiàn)通用型機(jī)器人。這種方法的關(guān)鍵挑戰(zhàn)是解決模擬到現(xiàn)實(shí)(sim-to-real)之間的差距。先前的方法通常需要先驗(yàn)的領(lǐng)域特定知識(shí)。研究人員認(rèn)為獲得這種知識(shí)的一種簡(jiǎn)單方法是讓人類觀察并協(xié)助機(jī)器人在現(xiàn)實(shí)世界中執(zhí)行策略。然后機(jī)器人可以從人類那里學(xué)習(xí)以消除各種模擬到真實(shí)的差距。研究人員提出了TRANSIC,這是一種基于人機(jī)協(xié)作框架的數(shù)據(jù)驅(qū)動(dòng)方法,以實(shí)現(xiàn)成功的模擬到真實(shí)轉(zhuǎn)移。TRANSIC允許人類通過(guò)干預(yù)和在線糾正來(lái)增強(qiáng)模擬策略,以全面地克服各種未建模的模擬到真實(shí)差距。殘余策略可以從人類糾正中學(xué)習(xí),并與模擬策略集成以進(jìn)行自主執(zhí)行。研究人員展示了該方法可以在復(fù)雜且充滿接觸的操縱任務(wù)(如家具裝配)中實(shí)現(xiàn)成功的模擬到真實(shí)轉(zhuǎn)移。通過(guò)在模擬中學(xué)習(xí)的策略和從人類學(xué)習(xí)的策略的協(xié)同集成,TRANSIC作為一種全面的方法有效地解決了各種通常共存的模擬到真實(shí)差距。它顯示出隨著人力投入的擴(kuò)展而具有吸引力的屬性。
方法概述
在高層次上,在模擬中訓(xùn)練基本策略后,研究人員將其部署到真實(shí)機(jī)器人上,并由人類操作員監(jiān)控。當(dāng)必要時(shí),人類通過(guò)遠(yuǎn)程操作中斷自主執(zhí)行,并進(jìn)行在線糾正。收集此類干預(yù)和在線糾正數(shù)據(jù)以訓(xùn)練殘余策略,然后部署基本策略和殘余策略以完成接觸豐富的操縱任務(wù)。
殘余策略從人類糾正中學(xué)習(xí)以彌合模擬到真實(shí)差距
這里的關(guān)鍵洞察是,人機(jī)協(xié)作框架有望作為整體解決模擬到真實(shí)差距,其中人類直接在政策執(zhí)行期間通過(guò)提供在線糾正信號(hào)來(lái)協(xié)助物理機(jī)器人。關(guān)閉模擬到真實(shí)差距所需的知識(shí)可以從人類信號(hào)中學(xué)習(xí)。
在人類操作員監(jiān)控執(zhí)行的情況下部署模擬策略。當(dāng)必要時(shí),人類通過(guò)遠(yuǎn)程操作進(jìn)行干預(yù)和糾正。收集此類干預(yù)和糾正數(shù)據(jù)以學(xué)習(xí)殘余策略。最后,在測(cè)試時(shí)間將殘余策略和模擬策略集成以實(shí)現(xiàn)成功轉(zhuǎn)移。
大規(guī)模模擬訓(xùn)練以獲取基本策略
利用最先進(jìn)的模擬技術(shù),研究人員在模擬中以每秒數(shù)十萬(wàn)幀的速度訓(xùn)練基本策略,極大地減輕了數(shù)據(jù)收集的人力負(fù)擔(dān)。研究人員首先在大規(guī)模并行化環(huán)境中使用無(wú)模型強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練教師策略。然后將RL教師策略蒸餾為學(xué)生視覺(jué)動(dòng)作策略。
對(duì)于每種操縱技能,研究人員首先訓(xùn)練RL策略,然后將其蒸餾為視覺(jué)動(dòng)作策略。應(yīng)用領(lǐng)域隨機(jī)化,以使訓(xùn)練的模擬策略足夠健壯。研究人員做出了幾項(xiàng)重要的設(shè)計(jì)選擇,以促進(jìn)模擬到真實(shí)的轉(zhuǎn)移,例如采用點(diǎn)云輸入和采用關(guān)節(jié)位置動(dòng)作。
使用點(diǎn)云觀察和關(guān)節(jié)位置動(dòng)作的視覺(jué)動(dòng)作策略
研究人員使用點(diǎn)云作為主要視覺(jué)方式。訓(xùn)練視覺(jué)動(dòng)作策略時(shí)典型的RGB觀察存在幾個(gè)缺點(diǎn),這些缺點(diǎn)阻礙了成功的轉(zhuǎn)移。經(jīng)過(guò)良好校準(zhǔn)的點(diǎn)云觀察可以規(guī)避這些問(wèn)題。 研究人員首先使用OSC訓(xùn)練教師策略以便于學(xué)習(xí),然后將成功的軌跡蒸餾為具有關(guān)節(jié)位置控制的學(xué)生策略。我們將這種方法稱為動(dòng)作空間蒸餾,并發(fā)現(xiàn)它對(duì)于克服模擬到真實(shí)控制器差距至關(guān)重要。
使用點(diǎn)云作為主要視覺(jué)方式。模擬策略是在降低的合成點(diǎn)云觀察上訓(xùn)練的。它們能夠轉(zhuǎn)移到由標(biāo)準(zhǔn)深度相機(jī)捕獲的真實(shí)世界點(diǎn)云觀察。
實(shí)驗(yàn)
研究問(wèn)題:
- Q1:相比傳統(tǒng)的模擬到真實(shí)方法,TRANSIC是否能夠?qū)崿F(xiàn)更好的轉(zhuǎn)移性能?
- Q2:相較于現(xiàn)有的交互式模仿學(xué)習(xí)(IL)方法,TRANSIC是否能更好地將人類糾正集成到模擬中學(xué)到的策略中?
- Q3:與僅從真實(shí)機(jī)器人軌跡學(xué)習(xí)的算法相比,TRANSIC是否需要更少的真實(shí)世界數(shù)據(jù)來(lái)實(shí)現(xiàn)良好的性能?
- Q4:TRANSIC能夠有效地解決不同類型的模擬到真實(shí)差距嗎?
- Q5:TRANSIC如何隨著人力投入而擴(kuò)展?
- Q6:TRANSIC是否表現(xiàn)出引人注目的特性,如對(duì)未見(jiàn)過(guò)的對(duì)象的泛化、有效的門(mén)控、策略穩(wěn)健性、學(xué)到的視覺(jué)特征的一致性、解決長(zhǎng)期操縱任務(wù)的能力以及其他新發(fā)現(xiàn)的行為?
考慮需要高精度的復(fù)雜接觸豐富的家具操縱任務(wù)。具體來(lái)說(shuō),將正方形桌子的組裝分為四個(gè)獨(dú)立的任務(wù):穩(wěn)定、抓取、插入和螺絲。
TRANSIC在所有四項(xiàng)任務(wù)上表現(xiàn)優(yōu)于所有基線方法。
研究人員展示了在模擬到真實(shí)轉(zhuǎn)移中,從模擬中學(xué)習(xí)的良好基本策略可以與有限的真實(shí)世界數(shù)據(jù)相結(jié)合以取得成功(Q3)。然而,有效利用人類糾正數(shù)據(jù)來(lái)解決模擬到真實(shí)差距是具有挑戰(zhàn)性的(Q1),特別是當(dāng)我們想要防止基本策略的災(zāi)難性遺忘時(shí)(Q2)。
解決不同模擬到真實(shí)差距的有效性(Q4)
雖然TRANSIC是一種全面解決多個(gè)模擬到真實(shí)差距的方法,但本文著重介紹了它解決每個(gè)單獨(dú)差距的能力。為此,研究人員創(chuàng)建了五組不同的模擬-現(xiàn)實(shí)對(duì)。對(duì)于每一組,有意地在模擬和真實(shí)世界之間制造了較大的差距。這些差距應(yīng)用于真實(shí)世界設(shè)置中,包括感知誤差、欠驅(qū)動(dòng)控制器、實(shí)體不匹配、動(dòng)力學(xué)差異和對(duì)象資產(chǎn)不匹配。
對(duì)不同模擬到真實(shí)差距的穩(wěn)健性。數(shù)字是平均成功率(%)。極坐標(biāo)圖代表針對(duì)特定差距收集數(shù)據(jù)后的性能。虛線表示零次嘗試的性能。陰影圓顯示了五組之間的平均性能。
TRANSIC在五組不同的模擬-真實(shí)對(duì)中實(shí)現(xiàn)了77%的平均成功率,這表明了它關(guān)閉這些單獨(dú)差距的顯著能力。相比之下,最佳基線方法IWR僅實(shí)現(xiàn)了18%的平均成功率。研究人員將這種解決不同模擬到真實(shí)差距的效果歸因于殘余策略設(shè)計(jì)。
與人類努力的可擴(kuò)展性(Q5)
與人類努力的可擴(kuò)展性是人機(jī)協(xié)作機(jī)器人學(xué)習(xí)方法的期望屬性。研究人員展示了TRANSIC比最佳基線IWR具有更好的人類數(shù)據(jù)可擴(kuò)展性。如果將校正數(shù)據(jù)集的大小從完整數(shù)據(jù)集大小的25%增加到75%,TRANSIC的平均成功率相對(duì)提高了42%。相比之下,IWR僅實(shí)現(xiàn)了23%的相對(duì)改善。此外,隨著更多人類數(shù)據(jù)的可用,IWR的性能在早期階段就會(huì)達(dá)到平穩(wěn)狀態(tài),甚至開(kāi)始下降。研究人員假設(shè)IWR存在災(zāi)難性遺忘問(wèn)題,并且在正確模擬人類和經(jīng)過(guò)訓(xùn)練的機(jī)器人的行為模式方面存在困難。另一方面,TRANSIC通過(guò)僅從人類糾正中學(xué)習(xí)門(mén)控殘余策略來(lái)避免這些問(wèn)題。
人類糾正數(shù)據(jù)的可擴(kuò)展性。數(shù)字是在不同數(shù)量的人類糾正數(shù)據(jù)下平均成功率,涵蓋了四個(gè)任務(wù)。
引人注目的特性和新發(fā)現(xiàn)的行為(Q6)
研究人員進(jìn)一步研究了TRANSIC并討論了幾個(gè)新發(fā)現(xiàn)的能力。展示了:1)TRANSIC已經(jīng)學(xué)習(xí)了可重用的類別級(jí)對(duì)象泛化技能;2)一旦學(xué)會(huì)了門(mén)控機(jī)制,TRANSIC可以在完全自主的環(huán)境中可靠運(yùn)行;3)TRANSIC對(duì)部分點(diǎn)云觀察和次優(yōu)糾正數(shù)據(jù)具有穩(wěn)健性;4)TRANSIC學(xué)習(xí)了模擬和真實(shí)之間一致的視覺(jué)特征。
結(jié)論
在這項(xiàng)工作中,研究人員提出了TRANSIC,這是一種全面的人機(jī)協(xié)作方法,用于處理接觸豐富操縱任務(wù)的模擬到真實(shí)策略轉(zhuǎn)移。文中展示了在模擬到真實(shí)轉(zhuǎn)移中,從模擬中學(xué)習(xí)的良好基本策略可以與有限的真實(shí)世界數(shù)據(jù)相結(jié)合以取得成功。然而,有效地利用人類糾正數(shù)據(jù)來(lái)解決模擬到真實(shí)差距是具有挑戰(zhàn)性的,特別是當(dāng)想要防止基本策略的災(zāi)難性遺忘時(shí)。TRANSIC通過(guò)從人類糾正數(shù)據(jù)中學(xué)習(xí)門(mén)控殘余策略成功解決了這些挑戰(zhàn)。展示了當(dāng)同時(shí)出現(xiàn)不同類型的模擬到真實(shí)差距時(shí),TRANSIC作為一種全面方法有效;它也是解決性質(zhì)截然不同的個(gè)別差距的方法。它具有諸如隨著人類努力的增加而擴(kuò)展等吸引人的屬性。
本文轉(zhuǎn)載自公眾號(hào)AIGC最前線
