自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間

發(fā)布于 2025-2-27 11:18
瀏覽
0收藏

摘要

模仿學(xué)習(xí)(Imitation Learning, IL)作為一種通過模仿示范來教授智能體復(fù)雜行為的范式,已經(jīng)在機(jī)器人學(xué)習(xí)領(lǐng)域展現(xiàn)出巨大潛力。然而,隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,設(shè)計(jì)現(xiàn)代模仿學(xué)習(xí)策略需要在特征編碼、架構(gòu)、策略表示等方面做出眾多決策,這些選擇構(gòu)成了一個(gè)龐大且尚未被充分探索的設(shè)計(jì)空間。本文詳細(xì)分析了X-IL框架,這是一個(gè)開源的模塊化框架,旨在系統(tǒng)地探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間。通過對(duì)X-IL的架構(gòu)設(shè)計(jì)、核心組件以及在LIBERO和RoboCasa基準(zhǔn)測(cè)試上的實(shí)驗(yàn)結(jié)果進(jìn)行深入分析,本文揭示了不同設(shè)計(jì)選擇對(duì)模仿學(xué)習(xí)性能的影響,并為未來研究提供了有價(jià)值的見解。

1. 引言

模仿學(xué)習(xí)(IL)已經(jīng)成為一種強(qiáng)大的范式,可以通過模仿示范來教授智能體復(fù)雜行為,無需顯式的獎(jiǎng)勵(lì)工程設(shè)計(jì)(Argall等,2009)。然而,各個(gè)領(lǐng)域新型機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展使得評(píng)估這些技術(shù)對(duì)模仿學(xué)習(xí)的潛在影響變得具有挑戰(zhàn)性。為了解決這個(gè)問題,研究者們提出了X-IL,這是一個(gè)創(chuàng)新框架,旨在將最近開發(fā)的技術(shù)整合到模仿學(xué)習(xí)流程中并進(jìn)行探索。

X-IL框架將模仿學(xué)習(xí)過程分解為四個(gè)關(guān)鍵模塊:(1)觀察表示,(2)骨干網(wǎng)絡(luò),(3)架構(gòu),以及(4)策略表示。每個(gè)模塊都是可互換的,使得研究者能夠系統(tǒng)地探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間。這種模塊化設(shè)計(jì)促進(jìn)了快速原型設(shè)計(jì)、基準(zhǔn)測(cè)試和部署。

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

圖1:X-IL框架概述。 X-IL支持多模態(tài)輸入(語言、RGB和點(diǎn)云)以及兩種架構(gòu):僅解碼器和編碼器-解碼器。在每種架構(gòu)中,骨干網(wǎng)絡(luò)作為核心計(jì)算單元,支持Transformer、Mamba和xLSTM。對(duì)于策略表示,X-IL支持行為克?。˙C)、基于擴(kuò)散和基于流的策略,為模仿學(xué)習(xí)提供多樣化的學(xué)習(xí)范式。值得注意的是,每個(gè)組件——輸入模態(tài)、架構(gòu)、骨干網(wǎng)絡(luò)和策略——都可以輕松交換,以高效探索各種模型配置。

2. 相關(guān)工作

2.1 多模態(tài)模仿學(xué)習(xí)

早期的模仿學(xué)習(xí)方法主要依賴于狀態(tài)(Schaal,1996;Ho & Ermon,2016)或圖像(Pomerleau,1988;Lynch等,2020)來描述環(huán)境和定義目標(biāo)。然而,在現(xiàn)實(shí)場(chǎng)景中獲取準(zhǔn)確的狀態(tài)信息并不簡(jiǎn)單,基于狀態(tài)的表示難以捕捉非結(jié)構(gòu)化環(huán)境的復(fù)雜性。雖然圖像為行為學(xué)習(xí)提供了豐富的表示(Mandlekar等,2021),但在模仿學(xué)習(xí)中使用圖像作為目標(biāo)條件受到其在目標(biāo)表示上的模糊性和目標(biāo)指定困難的限制。

為了解決這些問題,研究者們探索了自然語言作為替代目標(biāo)表示,提供了更直觀和易于訪問的方式來指定任務(wù)。最近的研究(Shridhar等,2022;Reuss等,2024b)探討了語言目標(biāo)與圖像觀察的集成,使策略學(xué)習(xí)更加靈活。另一條研究路線通過微調(diào)視覺-語言模型(VLMs)來獲得視覺-語言動(dòng)作模型(VLAs)(Kim等,2024;Li等,2023,2024)。

然而,僅基于圖像的表示缺乏關(guān)鍵的三維結(jié)構(gòu)信息,這對(duì)于許多任務(wù)至關(guān)重要。因此,最近出現(xiàn)了將更豐富的三維場(chǎng)景表示(如點(diǎn)云)納入其中以增強(qiáng)策略性能的趨勢(shì)(Ke等,2024;Ze等,2024a)。

2.2 基于序列模型的模仿學(xué)習(xí)

近年來,序列模型被越來越多地應(yīng)用于學(xué)習(xí)人類行為,因?yàn)槿祟悰Q策本質(zhì)上是非馬爾可夫的,需要結(jié)合歷史觀察(Mandlekar等,2021)。早期工作利用基于RNN的結(jié)構(gòu),但這些模型在處理長觀察序列時(shí)存在梯度消失問題,并且由于順序處理的性質(zhì)而導(dǎo)致訓(xùn)練效率低下。

為了解決這些限制,基于Transformer的架構(gòu)被廣泛采用(Shafiullah等,2022a;Reuss等,2023),提供了更好的可擴(kuò)展性和序列建模能力。最近,狀態(tài)空間模型(SSM)(Gu & Dao,2024;Jia等,2024)作為Transformer的有前景的替代方案出現(xiàn),在小數(shù)據(jù)集上表現(xiàn)出顯著的效率和學(xué)習(xí)一致表示的能力。此外,改進(jìn)的基于RNN的架構(gòu),如xLSTM(Beck等,2024),在自然語言處理中顯示出與Transformer和SSM相媲美的潛力,但它們?cè)谀7聦W(xué)習(xí)中的應(yīng)用仍然很少被探索。

2.3 模塊化模仿學(xué)習(xí)庫

雖然許多開源庫提供了特定算法的模仿學(xué)習(xí)方法實(shí)現(xiàn)(Chi等,2023;Lee等,2024;Jia等,2024),但只有少數(shù)提供跨多種算法和架構(gòu)的模塊化設(shè)計(jì)。Robomimic(Mandlekar等,2021)實(shí)現(xiàn)了具有MLP、RNN和基于Transformer的策略的行為克?。˙C),而Imitation(Gleave等,2022)提供了幾種模仿學(xué)習(xí)和逆強(qiáng)化學(xué)習(xí)方法的模塊化實(shí)現(xiàn)。然而,這些庫不包括最近基于擴(kuò)散的模仿學(xué)習(xí)方法。

為了填補(bǔ)這一空白,最近的工作CleanDiffuser(Dong等,2024)引入了決策制定中擴(kuò)散模型的模塊化實(shí)現(xiàn),支持MLP、UNet、ResNet和Transformer等策略架構(gòu)。然而,其評(píng)估僅限于具有低維狀態(tài)輸入和2D圖像輸入的任務(wù)。相比之下,X-IL通過支持多模態(tài)輸入(包括2D圖像、點(diǎn)云和語言條件目標(biāo))擴(kuò)展了模塊化。此外,X-IL整合了最先進(jìn)的序列模型,如Mamba和xLSTM,擴(kuò)大了其在更復(fù)雜環(huán)境和多樣化IL架構(gòu)中的適用性。

3. X-IL框架

X-IL是一個(gè)基于以下設(shè)計(jì)原則的模塊化開源模仿學(xué)習(xí)框架:

模塊化:X-IL系統(tǒng)地將模仿學(xué)習(xí)流程分解為不同的模塊,這些模塊具有不同的可輕松互換的組件。這種模塊化設(shè)計(jì)使得不同方法的靈活集成和評(píng)估成為可能,促進(jìn)了對(duì)模仿學(xué)習(xí)策略設(shè)計(jì)空間的系統(tǒng)探索。

易用性原則:該框架易于使用,支持流行工具如Hydra(Yadan,2019)進(jìn)行配置管理和Weights & Biases(Wandb)(Biewald,2020)進(jìn)行日志記錄和可視化,簡(jiǎn)化了實(shí)驗(yàn)過程。

整合新技術(shù):X-IL整合了最新進(jìn)展,如用于序列建模的Mamba(Gu & Dao,2024)和xLSTM(Beck等,2024),以及用于策略學(xué)習(xí)的擴(kuò)散和流匹配,提高了模仿學(xué)習(xí)策略的效率和泛化能力。

為了實(shí)現(xiàn)靈活的實(shí)驗(yàn),X-IL將模仿學(xué)習(xí)流程分解為四個(gè)關(guān)鍵模塊:1)觀察表示,2)骨干網(wǎng)絡(luò),3)架構(gòu),以及4)策略表示。以下是對(duì)每個(gè)模塊及其組件的詳細(xì)描述:

3.1 觀察表示

X-IL框架考慮三種主要類型的表示:RGB輸入、點(diǎn)云和語言。

RGB輸入:視覺模仿學(xué)習(xí)在最近的研究中受到了廣泛關(guān)注(Chi等,2023)。從多個(gè)攝像機(jī)視角捕獲的RGB圖像為物體識(shí)別和場(chǎng)景理解提供了重要的紋理和語義信息。先前的工作表明,ResNet是操作任務(wù)的強(qiáng)大編碼器,使其成為廣泛采用的選擇(Shafiullah等,2022b;Wan等,2024)。為了有效利用RGB數(shù)據(jù),X-IL支持各種特征提取器,包括ResNet、FiLM-ResNet(Turkoglu等,2022)和CLIP(Radford等,2021),其模塊化代碼庫允許輕松集成額外的圖像編碼器。

點(diǎn)云:點(diǎn)云提供由RGB-D相機(jī)或LiDAR傳感器獲取的3D空間結(jié)構(gòu),為操作任務(wù)提供幾何信息。與RGB圖像不同,點(diǎn)云本身就編碼了物體位置和形狀,使其成為需要細(xì)粒度空間推理的任務(wù)的理想選擇。先前的工作強(qiáng)調(diào)了保留幾何特征對(duì)有效表示學(xué)習(xí)的重要性(Wan等,2024;Ze等,2024c)。在X-IL中,采用最遠(yuǎn)點(diǎn)采樣(FPS)(Qi等,2017)對(duì)點(diǎn)進(jìn)行下采樣,這有助于保留3D空間的幾何結(jié)構(gòu)。X-IL支持兩種編碼器:具有最大池化的輕量級(jí)MLP(Ze等,2024c)以提高計(jì)算效率,以及具有類別標(biāo)記的基于注意力的編碼器以增強(qiáng)特征提取。

語言:語言引導(dǎo)的模仿學(xué)習(xí)(Stepputtis等,2020;Lynch & Sermanet,2021)越來越受到關(guān)注,因?yàn)樗峁┝嗣枋鋈蝿?wù)、物體屬性和機(jī)器人動(dòng)作的高級(jí)抽象方式。與視覺和幾何輸入不同,語言提供了增強(qiáng)跨多樣化任務(wù)的泛化和適應(yīng)性的上下文。為了處理語言,X-IL集成了預(yù)訓(xùn)練的語言模型CLIP(Radford等,2021)將文本信息轉(zhuǎn)換為密集嵌入。然后,這些嵌入與視覺和點(diǎn)云特征融合,為策略學(xué)習(xí)提供更豐富的多模態(tài)表示。

3.2 骨干網(wǎng)絡(luò):X-Block

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

圖2:X-Block網(wǎng)絡(luò)細(xì)節(jié)。 X-Layer是核心部分,用于處理序列標(biāo)記;AdaLn條件用于注入上下文信息。

骨干架構(gòu)的選擇對(duì)于學(xué)習(xí)有效的模仿學(xué)習(xí)策略至關(guān)重要,因?yàn)樗鼪Q定了不同輸入模態(tài)如何被處理以及如何捕獲序列依賴關(guān)系。X-IL定義骨干網(wǎng)絡(luò)為負(fù)責(zé)建模序列信息的核心組件,并提供三種骨干選項(xiàng):

Transformer(Vaswani等,2017):一種廣泛使用的基于注意力的模型,由于其處理人類演示中非馬爾可夫行為的能力,在模仿學(xué)習(xí)中表現(xiàn)出強(qiáng)大的性能。大多數(shù)模仿學(xué)習(xí)模型,包括視覺-語言動(dòng)作模型(VLAs),都使用Transformer作為骨干網(wǎng)絡(luò)。

Mamba(Gu & Dao,2024):一種結(jié)構(gòu)化狀態(tài)空間模型(SSM),顯著提高了SSM的效率,同時(shí)在性能上與Transformer相媲美。與Transformer不同,Mamba保持線性計(jì)算復(fù)雜度。Mamba模仿學(xué)習(xí)(MaIL)(Jia等,2024)表明,基于Mamba的策略在小數(shù)據(jù)集上優(yōu)于基于Transformer的策略。

xLSTM(Beck等,2024):LSTM的一種變體,旨在增強(qiáng)長期依賴建模,同時(shí)保持計(jì)算效率。與標(biāo)準(zhǔn)LSTM不同,xLSTM結(jié)合了架構(gòu)改進(jìn),以減輕梯度消失問題。雖然遞歸模型通常缺乏自注意力的表達(dá)能力,但xLSTM在效率和性能之間提供了平衡,使其成為計(jì)算約束是關(guān)注點(diǎn)的模仿學(xué)習(xí)任務(wù)的潛在替代方案。

受DiT-Block(Peebles & Xie,2023)結(jié)構(gòu)的啟發(fā),X-IL框架引入了X-Block。X-Block的核心組件是X-Layer,負(fù)責(zé)處理時(shí)間信息。此外,AdaLN條件(Peebles & Xie,2023)被納入其中——不僅用于條件化擴(kuò)散模型中的時(shí)間嵌入,還用于集成表示特征。研究發(fā)現(xiàn),使用表示作為條件信號(hào)可以增強(qiáng)性能,進(jìn)一步提高策略學(xué)習(xí)的有效性。

3.3 架構(gòu)

X-IL支持兩種架構(gòu):僅解碼器和編碼器-解碼器。先前的工作如ACT(Zhao等,2023)和MDT(Reuss等,2024c)采用編碼器-解碼器設(shè)計(jì),而PearceTransformer(Pearce等,2023)和MoDE(Reuss等,2024a)則遵循僅解碼器方法。這些架構(gòu)在圖1中有所展示。

僅解碼器模型:在X-IL中,僅解碼器架構(gòu)通過堆疊多個(gè)X-Block實(shí)現(xiàn),其中觀察和動(dòng)作在解碼器內(nèi)聯(lián)合處理。模型僅輸出動(dòng)作標(biāo)記,然后用于訓(xùn)練策略表示。

編碼器-解碼器模型:X-IL中的編碼器-解碼器架構(gòu)遵循兩階段方法:編碼器首先將多模態(tài)輸入編碼為潛在表示,然后解碼器基于這種結(jié)構(gòu)化嵌入生成動(dòng)作。先前的工作主要利用交叉注意力將編碼器的輸出與解碼器的輸入連接起來。然而,Mamba和xLSTM缺乏以這種方式處理可變長度序列的內(nèi)置機(jī)制。相反,研究發(fā)現(xiàn)AdaLN條件提供了構(gòu)建編碼器-解碼器架構(gòu)的高效靈活替代方案,使編碼的表示能夠有效集成到解碼過程中。

3.4 策略表示

除了樸素的行為克隆方法外,X-IL框架還提供各種最先進(jìn)的策略表示,可以大致分為基于擴(kuò)散和基于流的模型。

行為克?。˙ehavior Cloning):行為克?。˙C)假設(shè)策略表示為高斯分布,并最大化給定真實(shí)分布中預(yù)測(cè)動(dòng)作的似然。

基于擴(kuò)散的策略:去噪擴(kuò)散概率模型(DDPM)(Ho等,2020)捕獲評(píng)分函數(shù)場(chǎng)并迭代優(yōu)化動(dòng)作。BESO(Reuss等,2023)基于連續(xù)時(shí)間擴(kuò)散框架,允許不同的擴(kuò)散步驟和多樣化的采樣技術(shù)。X-IL框架同時(shí)支持DDPM風(fēng)格和連續(xù)時(shí)間BESO風(fēng)格的策略。

基于流的策略:通過流匹配(Lipman等,2022)訓(xùn)練的連續(xù)時(shí)間標(biāo)準(zhǔn)化流最近受到了廣泛關(guān)注,也適合作為策略表示。這些方法通常被稱為整流流(RF)(Liu等,2022),在X-IL框架中得到了完全支持。

4. 實(shí)驗(yàn)

為了探索模仿學(xué)習(xí)的設(shè)計(jì)空間,研究者們?cè)趦蓚€(gè)機(jī)器人學(xué)習(xí)基準(zhǔn)測(cè)試上進(jìn)行了廣泛的實(shí)驗(yàn):LIBERO和RoboCasa。這項(xiàng)研究系統(tǒng)地檢驗(yàn)了各種骨干網(wǎng)絡(luò)、架構(gòu)和策略設(shè)計(jì),用于基于視覺和點(diǎn)云的模仿學(xué)習(xí)。

4.1 模擬基準(zhǔn)

LIBERO(Liu等,2023):研究者們使用RGB輸入在LIBERO基準(zhǔn)上評(píng)估了具有各種模型架構(gòu)和策略頭的模塊化框架。LIBERO包括四個(gè)不同的任務(wù)套件:LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long,這些任務(wù)套件專門設(shè)計(jì)用于評(píng)估機(jī)器人學(xué)習(xí)和操作能力的不同方面。

為了徹底比較每種架構(gòu)的性能,研究者們使用10個(gè)軌跡(可用示范的20%)和50個(gè)軌跡(完整數(shù)據(jù)集)進(jìn)行了評(píng)估。所有模型在LIBERO任務(wù)套件中訓(xùn)練了100個(gè)周期,并使用最后的檢查點(diǎn)進(jìn)行評(píng)估。按照官方LIBERO基準(zhǔn)設(shè)置,為每個(gè)子任務(wù)模擬了50次展開,每個(gè)任務(wù)套件總共500次模擬。研究者們報(bào)告了每個(gè)任務(wù)套件在3個(gè)種子上的平均成功率。

RoboCasa(Nasiriany等,2024):這是一個(gè)大規(guī)模模擬框架,提供各種日常場(chǎng)景任務(wù)。除了大量任務(wù)外,RoboCasa還提供了廣泛的任務(wù)內(nèi)變化。如圖3所示,這些變化包括場(chǎng)景、物體以及機(jī)器人和物體的初始位置,而LIBERO不提供這種多樣性。這種高水平的多樣性要求模型具有強(qiáng)大的泛化能力,使該基準(zhǔn)非常具有挑戰(zhàn)性。

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

圖3:LIBERO和RoboCasa示例。 雖然LIBERO在同一任務(wù)中表現(xiàn)出最小的變化,例如LIBERO-Spatial,但RoboCasa在不同方面提供了多樣性。圖中展示了CoffeeServeMug任務(wù)。

研究者們?cè)u(píng)估了RoboCasa中的5個(gè)任務(wù),每個(gè)任務(wù)有50個(gè)人類演示。這5個(gè)任務(wù)包含不同的行為:CloseSingleDoor、OpenDrawer、TurnOnStove、CoffeePressButton和CoffeeServeMug。對(duì)于訓(xùn)練,每個(gè)模型訓(xùn)練了200個(gè)周期,并為每個(gè)任務(wù)展開了50個(gè)回合。研究者們報(bào)告了3個(gè)種子上的成功率。

4.2 X-IL中的實(shí)驗(yàn)設(shè)置

為了確保公平比較,研究者們匹配了Transformer、Mamba和xLSTM的模型大小。對(duì)于擴(kuò)散策略和流匹配策略,在主要實(shí)驗(yàn)中將采樣步驟數(shù)設(shè)置為4。在LIBERO基準(zhǔn)中,所有模型都使用ResNet-18進(jìn)行圖像處理,而在RoboCasa基準(zhǔn)中,則使用FiLM-ResNet18進(jìn)行圖像編碼,使用基于注意力的編碼器進(jìn)行點(diǎn)云輸入。

4.3 基線

研究者們還報(bào)告了以下基線的性能:

  • BC-Transformer:在RoboCasa(Nasiriany等,2024)中使用。它使用CLIP模型和帶有FilM層的ResNet-18分別編碼目標(biāo)指令和基于圖像的觀察。
  • Diffusion Policy(Chi等,2023):一種視覺運(yùn)動(dòng)策略,使用條件去噪擴(kuò)散過程在學(xué)習(xí)的梯度場(chǎng)上迭代優(yōu)化動(dòng)作分布。
  • Octo(Octo Model Team等,2024):一個(gè)開源的視覺-語言-動(dòng)作(VLA)模型,在大規(guī)模數(shù)據(jù)集上訓(xùn)練。它使用基于transformer的擴(kuò)散策略,支持語言和目標(biāo)圖像作為任務(wù)輸入。
  • OpenVLA(Kim等,2024):一個(gè)基于更大模型Llama 2 7B的視覺-語言-動(dòng)作模型。
  • MDT(Reuss等,2024c):一個(gè)基于擴(kuò)散的框架,能夠從包括圖像和語言在內(nèi)的多模態(tài)目標(biāo)規(guī)范中學(xué)習(xí)多樣化行為。
  • MaIL(Jia等,2024):使用MAMBA替代模仿學(xué)習(xí)中基于transformer的骨干網(wǎng)絡(luò)。它表明,特別是在小數(shù)據(jù)集的情況下,基于Mamba的策略優(yōu)于基于transformer的策略。
  • ATM(Wen等,2024):任意點(diǎn)軌跡建模(ATM)是一個(gè)從視頻示范中學(xué)習(xí)的框架。ATM使用圖像和語言指令作為輸入,預(yù)測(cè)視頻幀中任意點(diǎn)的軌跡。
  • EnerVerse(Huang等,2025):一個(gè)為機(jī)器人操作任務(wù)設(shè)計(jì)的未來空間生成框架。
  • 3D Diffusion Policy(DP3)(Ze等,2024b):DP3從單視圖點(diǎn)云中提取點(diǎn)級(jí)特征。機(jī)器人動(dòng)作基于這些特征和當(dāng)前機(jī)器人狀態(tài)生成。

4.4 視覺輸入評(píng)估

LIBERO:主要結(jié)果如表1所示。為了評(píng)估框架在LIBERO上的性能,研究者們測(cè)試了使用僅解碼器架構(gòu)的BC、BESO和RF策略,跨Transformer、Mamba和xLSTM骨干網(wǎng)絡(luò)。結(jié)果表明,X-IL實(shí)現(xiàn)了最先進(jìn)的性能,超過了公開可用的模型。具體來說,xLSTM在20%和100%數(shù)據(jù)設(shè)置中都表現(xiàn)出巨大潛力,分別達(dá)到74.5%和92.3%的平均成功率。

RoboCasa:主要結(jié)果如表2所示。與LIBERO相比,RoboCasa由于其動(dòng)態(tài)變化的背景場(chǎng)景和跨示范和評(píng)估的物體變化,提供了更具挑戰(zhàn)性的基準(zhǔn)。研究者們?cè)赗oboCasa中測(cè)試了X-BESO在五個(gè)任務(wù)上的表現(xiàn),觀察到他們的方法優(yōu)于原始論文中報(bào)告的結(jié)果。具體來說,使用基于xLSTM的模型,他們實(shí)現(xiàn)了53.6%的更高平均成功率,相比BC-Transformer的40.0%,證明了該方法在處理復(fù)雜和動(dòng)態(tài)環(huán)境中的有效性。此外,他們觀察到Mamba和xLSTM優(yōu)于基于Transformer的骨干網(wǎng)絡(luò),這與他們從LIBERO得出的發(fā)現(xiàn)一致。這一結(jié)果進(jìn)一步突顯了在模仿學(xué)習(xí)中利用新序列模型的潛力,表明除Transformer之外的替代架構(gòu)可以在復(fù)雜機(jī)器人任務(wù)中提供改進(jìn)的效率和性能。

4.5 點(diǎn)云輸入評(píng)估

研究者們?cè)赗oboCasa上評(píng)估了使用點(diǎn)云輸入的X-BESO,并取得了優(yōu)于3D擴(kuò)散策略的結(jié)果。從結(jié)果中得出的一個(gè)有趣觀察是,基于點(diǎn)云的輸入不一定優(yōu)于基于RGB的輸入。

分析表明,這是由于RoboCasa場(chǎng)景的復(fù)雜性,其中點(diǎn)云從多樣化的來源捕獲,導(dǎo)致在采樣過程中顯著的信息損失——特別是在涉及小物體的任務(wù)中。在這種情況下,只有稀疏的點(diǎn)集保留下來,限制了點(diǎn)云表示的有效性。這突顯了以物體為中心的方法的潛在好處,這些方法專注于保留關(guān)鍵的任務(wù)相關(guān)細(xì)節(jié)。

此外,研究者們?cè)u(píng)估了結(jié)合點(diǎn)云和RGB輸入的性能。首先從點(diǎn)云中提取緊湊表示,然后與RGB特征連接。實(shí)驗(yàn)結(jié)果表明,結(jié)合兩種模態(tài)顯著提高了性能,特別是基于xLSTM的模型,達(dá)到了60.9%的成功率——相比僅使用RGB的53.6%和僅使用點(diǎn)云的32.8%。這突顯了探索更有效的多模態(tài)融合策略以充分利用每種模態(tài)優(yōu)勢(shì)的重要性。

4.6 不同架構(gòu)的比較

研究者們?cè)谒膫€(gè)任務(wù)上進(jìn)行了實(shí)驗(yàn)——來自LIBERO的Spatial(20%)和Long(20%),以及來自RoboCasa的TurnOnStove和CoffeeServeMug——以比較僅解碼器和編碼器-解碼器架構(gòu)的性能。圖4中呈現(xiàn)的結(jié)果表明,AdaLN條件的編碼器-解碼器架構(gòu)在大多數(shù)任務(wù)上實(shí)現(xiàn)了卓越的性能,突顯了其有效性。此外,通過分別處理觀察和動(dòng)作,這種設(shè)計(jì)為編碼器和解碼器選擇不同層提供了更多靈活性,使其更適合擴(kuò)展到更大的模型。

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

圖4:不同架構(gòu)的比較。 Dec指僅解碼器模型,而EncDec指編碼器-解碼器模型。

4.7 不同推理步驟下擴(kuò)散模型的比較

研究者們?cè)赗oboCasa的具有挑戰(zhàn)性的TurnOnStove任務(wù)上評(píng)估了具有DDPM、BESO和RF的僅解碼器xLSTM,比較了在1、4、8、12和16個(gè)推理步驟下的性能和推理速度(圖5)。DDPM在單步驟時(shí)表現(xiàn)不佳,而BESO和RF表現(xiàn)良好,并隨著步驟增加而改進(jìn)。它們的推理時(shí)間相似,由于動(dòng)作維度較低,流匹配的速度優(yōu)勢(shì)不太明顯。

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

圖5:DDPM、BESO和RF的不同推理步驟比較。 左:成功率;右:推理時(shí)間。

4.8 不同編碼器的比較

研究者們?cè)赗oboCasa數(shù)據(jù)集上使用Dec-xLSTM BESO評(píng)估了不同的圖像編碼器,比較了FiLM-ResNet18、FiLM-ResNet34和CLIP(凍結(jié))以評(píng)估它們對(duì)性能的影響。他們還比較了最大池化和基于注意力的點(diǎn)云編碼器。結(jié)果如圖6所示。

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

X-IL:系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計(jì)空間-AI.x社區(qū)

**圖6:不同圖像編碼器和點(diǎn)云編碼

對(duì)于圖像編碼器,F(xiàn)iLM-ResNet34的性能優(yōu)于FiLM-ResNet18,這表明更大的編碼器可以提取更豐富的特征。然而,凍結(jié)的CLIP編碼器表現(xiàn)不如微調(diào)的ResNet,這可能是由于CLIP在預(yù)訓(xùn)練期間沒有接觸到機(jī)器人操作場(chǎng)景,導(dǎo)致其特征提取能力在這種特定領(lǐng)域受限。

對(duì)于點(diǎn)云編碼器,基于注意力的編碼器在所有任務(wù)上都優(yōu)于最大池化編碼器,證明了注意力機(jī)制在捕獲點(diǎn)云中空間關(guān)系方面的有效性。這一結(jié)果強(qiáng)調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性,以最大化模型性能。

5. 討論與分析

5.1 新型序列模型在模仿學(xué)習(xí)中的潛力

實(shí)驗(yàn)結(jié)果清楚地表明,Mamba和xLSTM等新型序列模型在模仿學(xué)習(xí)任務(wù)中展現(xiàn)出巨大潛力。特別是,基于xLSTM的模型在LIBERO和RoboCasa基準(zhǔn)測(cè)試中均優(yōu)于基于Transformer的模型。這一發(fā)現(xiàn)具有重要意義,因?yàn)樗魬?zhàn)了Transformer在序列建模任務(wù)中的主導(dǎo)地位,并為模仿學(xué)習(xí)中的架構(gòu)選擇提供了新的視角。

xLSTM的成功可以歸因于其有效處理長期依賴關(guān)系的能力,同時(shí)保持計(jì)算效率。與標(biāo)準(zhǔn)LSTM不同,xLSTM通過架構(gòu)改進(jìn)減輕了梯度消失問題,使其能夠捕獲復(fù)雜的時(shí)間模式,這對(duì)于理解和復(fù)制人類演示中的行為至關(guān)重要。

同樣,Mamba在小數(shù)據(jù)集上表現(xiàn)出色,這與先前研究(Jia等,2024)的發(fā)現(xiàn)一致。Mamba的線性計(jì)算復(fù)雜度使其成為資源受限環(huán)境中的有吸引力的選擇,而不會(huì)顯著犧牲性能。

這些結(jié)果強(qiáng)調(diào)了探索Transformer之外的序列模型的價(jià)值,并表明模仿學(xué)習(xí)社區(qū)應(yīng)該考慮更廣泛的架構(gòu)選擇,以適應(yīng)不同的任務(wù)需求和計(jì)算約束。

5.2 多模態(tài)融合的重要性

研究結(jié)果強(qiáng)調(diào)了多模態(tài)融合在提高模仿學(xué)習(xí)性能方面的關(guān)鍵作用。通過結(jié)合RGB和點(diǎn)云輸入,研究者們觀察到顯著的性能提升,特別是在復(fù)雜的RoboCasa任務(wù)中。這種多模態(tài)方法允許模型利用每種模態(tài)的互補(bǔ)優(yōu)勢(shì)——RGB提供豐富的紋理和語義信息,而點(diǎn)云提供精確的3D幾何結(jié)構(gòu)。

然而,有效的多模態(tài)融合仍然是一個(gè)挑戰(zhàn)。簡(jiǎn)單的特征連接可能不足以充分利用不同模態(tài)之間的關(guān)系。未來的研究應(yīng)探索更復(fù)雜的融合策略,如交叉注意力機(jī)制或多模態(tài)Transformer,以更好地整合不同模態(tài)的信息。

此外,語言條件在提供任務(wù)上下文和目標(biāo)規(guī)范方面的作用不容忽視。結(jié)合語言、視覺和幾何信息的模型可能能夠更好地理解和執(zhí)行復(fù)雜任務(wù),特別是在需要精確物體操作的場(chǎng)景中。

5.3 編碼器-解碼器架構(gòu)的優(yōu)勢(shì)

實(shí)驗(yàn)表明,基于AdaLN條件的編碼器-解碼器架構(gòu)在多種任務(wù)上優(yōu)于僅解碼器架構(gòu)。這種設(shè)計(jì)通過分離觀察編碼和動(dòng)作生成過程,為每個(gè)階段提供了更大的靈活性和專業(yè)化。

編碼器-解碼器架構(gòu)的一個(gè)關(guān)鍵優(yōu)勢(shì)是其可擴(kuò)展性。通過允許編碼器和解碼器具有不同的層數(shù)和結(jié)構(gòu),這種設(shè)計(jì)可以更容易地適應(yīng)更大的模型和更復(fù)雜的任務(wù)。此外,編碼器可以專注于提取觀察中的關(guān)鍵特征,而解碼器可以專注于生成準(zhǔn)確的動(dòng)作序列。

然而,這種架構(gòu)的復(fù)雜性增加了計(jì)算開銷和訓(xùn)練難度。在資源受限的環(huán)境中,僅解碼器模型可能是更實(shí)用的選擇,特別是對(duì)于相對(duì)簡(jiǎn)單的任務(wù)。

5.4 策略表示的選擇

X-IL框架支持多種策略表示,包括行為克隆(BC)、基于擴(kuò)散的策略(DDPM和BESO)以及基于流的策略(RF)。實(shí)驗(yàn)結(jié)果表明,BESO和RF在單步推理中表現(xiàn)良好,并隨著推理步驟的增加而進(jìn)一步改善,而DDPM在單步推理中表現(xiàn)較差。

這一發(fā)現(xiàn)具有重要的實(shí)際意義,因?yàn)樵趯?shí)時(shí)機(jī)器人控制中,推理速度通常是一個(gè)關(guān)鍵考慮因素。能夠在較少步驟下有效執(zhí)行的策略(如BESO和RF)可能更適合實(shí)際部署,特別是在需要快速響應(yīng)的應(yīng)用中。

此外,不同策略表示的性能可能取決于任務(wù)的具體要求和約束。例如,需要高精度的任務(wù)可能受益于多步推理,而對(duì)速度敏感的應(yīng)用可能更適合優(yōu)化的單步方法。因此,X-IL框架的模塊化設(shè)計(jì)允許研究者根據(jù)具體需求選擇最合適的策略表示。

5.5 編碼器選擇的影響

實(shí)驗(yàn)結(jié)果表明,編碼器選擇對(duì)模型性能有顯著影響。對(duì)于圖像輸入,更大的骨干網(wǎng)絡(luò)(如ResNet34)通常提供更好的性能,但代價(jià)是增加了計(jì)算復(fù)雜性。預(yù)訓(xùn)練模型(如CLIP)雖然在通用視覺任務(wù)中表現(xiàn)出色,但在特定的機(jī)器人操作場(chǎng)景中可能需要微調(diào)才能達(dá)到最佳性能。

對(duì)于點(diǎn)云輸入,基于注意力的編碼器優(yōu)于簡(jiǎn)單的最大池化方法,這表明注意力機(jī)制在捕獲點(diǎn)云中的空間關(guān)系方面非常有效。這一發(fā)現(xiàn)強(qiáng)調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性。

未來的研究可能會(huì)探索更先進(jìn)的編碼器架構(gòu),如Swin Transformer(Liu等,2021)或ConvNeXt(Liu等,2022)用于圖像處理,以及PointNeXt(Qian等,2022)或Point Transformer(Zhao等,2021)用于點(diǎn)云處理,以進(jìn)一步提高特征提取能力。

6. 結(jié)論與未來展望

本文詳細(xì)分析了X-IL框架,這是一個(gè)用于系統(tǒng)探索模仿學(xué)習(xí)策略設(shè)計(jì)空間的開源模塊化框架。通過對(duì)X-IL的架構(gòu)設(shè)計(jì)、核心組件以及在LIBERO和RoboCasa基準(zhǔn)測(cè)試上的實(shí)驗(yàn)結(jié)果進(jìn)行深入分析,本文揭示了不同設(shè)計(jì)選擇對(duì)模仿學(xué)習(xí)性能的影響。

主要發(fā)現(xiàn)包括:

  • 新型序列模型的潛力:Mamba和xLSTM等新型序列模型在模仿學(xué)習(xí)任務(wù)中表現(xiàn)出色,在某些情況下甚至優(yōu)于傳統(tǒng)的Transformer架構(gòu)。這表明模仿學(xué)習(xí)社區(qū)應(yīng)該考慮更廣泛的架構(gòu)選擇。
  • 多模態(tài)融合的重要性:結(jié)合RGB和點(diǎn)云等多種輸入模態(tài)可以顯著提高模型性能,特別是在復(fù)雜的機(jī)器人操作任務(wù)中。
  • 編碼器-解碼器架構(gòu)的優(yōu)勢(shì):基于AdaLN條件的編碼器-解碼器架構(gòu)在多種任務(wù)上優(yōu)于僅解碼器架構(gòu),提供了更大的靈活性和可擴(kuò)展性。
  • 策略表示的選擇:BESO和RF等策略表示在單步推理中表現(xiàn)良好,并隨著推理步驟的增加而進(jìn)一步改善,這對(duì)實(shí)時(shí)機(jī)器人控制具有重要意義。
  • 編碼器選擇的影響:編碼器選擇對(duì)模型性能有顯著影響,強(qiáng)調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性。

這些發(fā)現(xiàn)為未來的模仿學(xué)習(xí)研究提供了有價(jià)值的見解和方向。X-IL框架的模塊化設(shè)計(jì)使研究者能夠系統(tǒng)地探索不同組件和配置,促進(jìn)了更有效和高性能的模仿學(xué)習(xí)策略的開發(fā)。

未來的研究方向可能包括:

  • 更復(fù)雜的多模態(tài)融合策略:探索超越簡(jiǎn)單特征連接的融合方法,如交叉注意力機(jī)制或多模態(tài)Transformer。
  • 更高效的點(diǎn)云處理技術(shù):開發(fā)能夠更好地保留小物體和細(xì)節(jié)的點(diǎn)云采樣和編碼方法。
  • 自適應(yīng)策略表示:設(shè)計(jì)能夠根據(jù)任務(wù)需求和計(jì)算約束自動(dòng)調(diào)整推理步驟的策略表示。
  • 更大規(guī)模的預(yù)訓(xùn)練和遷移學(xué)習(xí):探索在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練模型,然后遷移到特定的機(jī)器人操作任務(wù)。
  • 實(shí)時(shí)性能優(yōu)化:開發(fā)能夠在保持高性能的同時(shí)滿足實(shí)時(shí)控制要求的優(yōu)化技術(shù)。

X-IL框架為這些未來研究提供了堅(jiān)實(shí)的基礎(chǔ),促進(jìn)了模仿學(xué)習(xí)領(lǐng)域的進(jìn)一步發(fā)展和創(chuàng)新。

githhub:https://github.com/ALRhub/X_IL

paper: https://arxiv.org/abs/2502.12330

本文轉(zhuǎn)載自 ??頓數(shù)AI??,作者: 可可


收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦