何愷明新作出爐!異構(gòu)預(yù)訓(xùn)練Transformer顛覆本體視覺學(xué)習(xí)范式,AI性能暴漲超20%
通用機(jī)器人模型,目前最大的障礙便是「異構(gòu)性」。
也就是說,必須收集全方位——每個(gè)機(jī)器人、任務(wù)和環(huán)境的特定數(shù)據(jù),而且學(xué)習(xí)后的策略還不能泛化到這些特定設(shè)置之外。
由此,AI大神何愷明帶隊(duì)的MIT、Meta FAIR團(tuán)隊(duì),提出了異構(gòu)預(yù)訓(xùn)練Transformer(HPT)模型。
即預(yù)訓(xùn)練一個(gè)大型、可共享的神經(jīng)網(wǎng)絡(luò)主干,就能學(xué)習(xí)與任務(wù)和機(jī)器人形態(tài)無關(guān)的共享表示。
簡(jiǎn)單講,就是在你的策略模型中間放置一個(gè)可擴(kuò)展的Transformer,不用從頭開始訓(xùn)練!
圖片
論文地址:https://arxiv.org/pdf/2409.20537
研究人員將不同本體視覺輸入對(duì)齊到統(tǒng)一的token序列,再處理這些token以控制不同任務(wù)的機(jī)器人。
最后發(fā)現(xiàn),HPT優(yōu)于多個(gè)基準(zhǔn)模型,并在模擬器基準(zhǔn)和真實(shí)世界環(huán)境中,將未見任務(wù)微調(diào)策略性能,提升20%。
值得一提的是,這項(xiàng)研究被NeurIPS 2024接收為Spotlight。
在真實(shí)環(huán)境中,HPT加持下的機(jī)器人本體,能夠自主向柴犬投食。
圖片
而且, 即便是灑了一地狗糧,機(jī)器人也能用抹布,將其收到一起。
圖片
而在模擬環(huán)境中,HPT架構(gòu)讓機(jī)器人任務(wù)操作,更加精準(zhǔn)。
圖片
接下來,一起深度了解下異構(gòu)預(yù)訓(xùn)練Transformer(HPT)模型的核心要素吧。
搭建「異構(gòu)性」橋梁
如今,構(gòu)建特定的機(jī)器人策略很困難,其中最大的難題就是數(shù)據(jù)收集和缺少泛化性。
不同硬件的機(jī)器人在物理上具有不同的本體(embodiment),每種實(shí)例可以有不同的「本體感覺」(proprioception),包括不同的自由度、末端執(zhí)行器、運(yùn)動(dòng)控制器和為特定應(yīng)用構(gòu)建的工作空間配置。
此外,另一種常見的異構(gòu)性就是視覺異構(gòu)性。
不同機(jī)器人搭載了不同的視覺傳感器,而且通常配備在不同位置(比如手腕/第三視角);每個(gè)機(jī)器人的外觀也會(huì)因環(huán)境和任務(wù)而有很大差異。
正是由于這些難以跨越的異構(gòu)性障礙,因此通常需要收集每個(gè)機(jī)器人、任務(wù)和環(huán)境的特定數(shù)據(jù),并且學(xué)習(xí)到的策略不能泛化到這些特定設(shè)置之外。
雖然機(jī)器人領(lǐng)域已經(jīng)積累了海量的開源數(shù)據(jù),但異構(gòu)性讓數(shù)據(jù)集很難被共同利用。
從圖4中就可以看出,僅僅是按環(huán)境分類,機(jī)器人領(lǐng)域的數(shù)據(jù)就能被「瓜分」為遠(yuǎn)程遙控、模擬、野外、人類視頻等接近4等份。
機(jī)器人領(lǐng)域數(shù)據(jù)集的異質(zhì)性
近些年來NLP和CV領(lǐng)域的突飛猛進(jìn),讓我們看到了徹底改變機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)歷史教訓(xùn):對(duì)大規(guī)模、高質(zhì)量和多樣化數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以帶來通常優(yōu)于特定模型的通用模型。
話至此處,當(dāng)今機(jī)器人領(lǐng)域的一個(gè)中心問題浮出水面:如何利用異構(gòu)數(shù)據(jù)來預(yù)訓(xùn)練機(jī)器人基礎(chǔ)模型?
除了更多數(shù)據(jù)帶來的好處之外,不同任務(wù)的訓(xùn)練還可以增強(qiáng)表示(representation)的通用性。
這類基礎(chǔ)模型將會(huì)在各種任務(wù)上實(shí)現(xiàn)高成功率、對(duì)異常值更加穩(wěn)健,并且能夠靈活地適應(yīng)新任務(wù)。
那么,到底應(yīng)該如何充分利用異構(gòu)化的數(shù)據(jù)集?
如圖1所示,一個(gè)基本的思路是,將來自不同領(lǐng)域和任務(wù)的輸入信號(hào)映射到高維表示空間,并讓它們表現(xiàn)出一致的縮放行為。
之后,只需要最少的微調(diào),就可以將得到的高維表示遷移到特定的下游任務(wù),同時(shí)獲得良好的性能。
HPT概念示意圖
HPT所要做的,就是找到一種共享的策略「語言」,能夠?qū)R來自不同預(yù)訓(xùn)練的異質(zhì)的本體感覺和視覺信息,將自己的信號(hào)映射到共享的潛在空間。
HPT模型架構(gòu)
HPT全稱為Heterogeneous Pre-trained Transformers,是一個(gè)架構(gòu)系列,采用了模塊化的設(shè)計(jì)思路,從異構(gòu)本體的數(shù)據(jù)中進(jìn)行可擴(kuò)展學(xué)習(xí)。
受到多模態(tài)數(shù)據(jù)學(xué)習(xí)的啟發(fā),HPT使用了特定于本體的分詞器(stem)來對(duì)齊各種傳感器輸入,映射為固定數(shù)量的token,之后送入Transformer結(jié)構(gòu)的共享主干(trunk),將token映射為共享表示并進(jìn)行預(yù)訓(xùn)練。
在對(duì)每種本體的輸入進(jìn)行標(biāo)記化(tokenize)之后,HPT就運(yùn)行在一個(gè)包含潛在token短序列的共享空間上運(yùn)行。
論文提到,這種層次結(jié)構(gòu)的動(dòng)機(jī),也是來源于人類身體的脊髓神經(jīng)回路層面中,特定運(yùn)動(dòng)反應(yīng)和感知刺激之間的反饋循環(huán)。
預(yù)訓(xùn)練完成后,使用特定于任務(wù)的動(dòng)作解碼器(head)來產(chǎn)生下游動(dòng)作輸出,但所用的實(shí)例和任務(wù)在預(yù)訓(xùn)練期間都是未知的。
預(yù)訓(xùn)練包含了超過50個(gè)單獨(dú)的數(shù)據(jù)源,模型參數(shù)超過1B,模型的代碼和權(quán)重都已公開發(fā)布。
HPT架構(gòu)
stem結(jié)構(gòu)
從上面的描述來看,要解決異構(gòu)性問題,最直接和最關(guān)鍵的就是如何訓(xùn)練stem,將來自異構(gòu)的本體和模態(tài)的傳感器輸入對(duì)齊到共享表示空間中。
如圖3所示,stem包含兩個(gè)主要部分,即本體感受分詞器和視覺分詞器,將來自不同本體的異構(gòu)輸入映射為固定維度、固定數(shù)量的token,讓trunk能夠以相同的方式處理。
其中的關(guān)鍵思想,是利用cross-attention機(jī)制,讓固定數(shù)量的可學(xué)習(xí)token關(guān)注到各種特征。
雖然這篇論文主要處理本體感覺和視覺,但處理觸覺、3D和動(dòng)作輸入等其他類型的異構(gòu)傳感器信號(hào)也可以在stem中靈活擴(kuò)展。
HPT中的stem架構(gòu)
按照時(shí)間順序單獨(dú)處理每個(gè)模態(tài)后,將所有token拼接在一起并添加額外的模態(tài)嵌入和正弦位置嵌入,就得到了trunk的輸入序列。
為了避免過擬合,stem被設(shè)計(jì)為僅有少量參數(shù),只包含一個(gè)MLP和一個(gè)注意力層。
trunk結(jié)構(gòu)
作為預(yù)訓(xùn)練的核心組件,trunk是一個(gè)有潛在d維空間的Transormer結(jié)構(gòu),參數(shù)量固定,在不同的本體和任務(wù)之間共享,以捕獲復(fù)雜的輸入-輸出關(guān)系。
預(yù)訓(xùn)練
給定從不同分布中采樣的異構(gòu)本體的數(shù)據(jù)集??_1,…,??_k,…,??_K ,令??_k={τ^(i)}_{1≤i≤M_k} 表示??_k中一組軌跡M_k,τ^(i)={o_t^(i), a_t^(i)}_{1≤t≤T}表示第i個(gè)最大長(zhǎng)度為T的軌跡,每個(gè)元組包含observation變量和action變量。
訓(xùn)練目標(biāo)如公式(1)所示,需要最小化數(shù)據(jù)集中的以下?lián)p失:
其中?是行為克隆損失,計(jì)算為預(yù)測(cè)結(jié)果和真實(shí)標(biāo)簽之間的Huber 損失。
該訓(xùn)練過程有兩個(gè)數(shù)據(jù)縮放軸:?jiǎn)蝹€(gè)數(shù)據(jù)集D_k的體量M_k,以及數(shù)據(jù)集總數(shù)K。
在預(yù)訓(xùn)練階段,每次迭代時(shí)僅更新trunk部分參數(shù),并且基于訓(xùn)練批次采樣更新特定于每個(gè)異構(gòu)本體和任務(wù)的stem和head部分。
論文進(jìn)行了一系列預(yù)訓(xùn)練實(shí)驗(yàn),包括不同規(guī)模的網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)集大小,旨在回答一個(gè)問題:HPT預(yù)訓(xùn)練在跨域異構(gòu)數(shù)據(jù)中是否展現(xiàn)出了擴(kuò)展能力?
總體而言,某種程度上,HPT隨著數(shù)據(jù)集數(shù)量、數(shù)據(jù)多樣性、模型體量和訓(xùn)練計(jì)算量呈現(xiàn)出縮放行為。
HPT網(wǎng)絡(luò)詳細(xì)信息,寬度表述turnk transformer的潛在維度,深度表示block數(shù)量,默認(rèn)設(shè)置為HPT-Small型號(hào)
預(yù)訓(xùn)練數(shù)據(jù)集詳細(xì)信息,默認(rèn)使用來自RT-X的27個(gè)數(shù)據(jù)集的16k個(gè)軌跡進(jìn)行訓(xùn)練
數(shù)據(jù)縮放
數(shù)據(jù)方面,如圖5所示,即使在異構(gòu)程度逐漸增大的本體中也具有穩(wěn)定且可擴(kuò)展的驗(yàn)證損失。
此外,作者還發(fā)現(xiàn),計(jì)算量(相當(dāng)于每次訓(xùn)練運(yùn)行看到的樣本量)和數(shù)據(jù)量需要共同擴(kuò)展,才能在訓(xùn)練過程中更接近收斂。
epoch縮放
如圖6所示,增加批大?。ㄗ螅┫喈?dāng)于有效地?cái)U(kuò)展訓(xùn)練token數(shù)(右),通常可以提高模型性能,直至最后收斂。
另一個(gè)觀察結(jié)果是,使用分布式方法,在每個(gè)訓(xùn)練批中聚合盡可能更多的數(shù)據(jù)集,用更大的批大小來彌補(bǔ)異構(gòu)訓(xùn)練中的較大方差。
模型縮放
如圖7所示,固定數(shù)據(jù)集和軌跡數(shù)量,沿著模型大?。◤?M到1B)進(jìn)行縮放,并逐漸將批大小從256增加到 2048(模型大小每增加一倍),并使用具有170k軌跡的更大數(shù)據(jù)集。
可以觀察到,當(dāng)我們擴(kuò)展到具有更大計(jì)算量(紅線)的更大模型時(shí),預(yù)訓(xùn)練可以實(shí)現(xiàn)較低的驗(yàn)證損失,直到達(dá)到穩(wěn)定水平,但沒有發(fā)現(xiàn)縮放模型深度和模型寬度之間存在顯著差異。
圖8中的實(shí)驗(yàn)結(jié)果表明,HPT可以相當(dāng)有效地處理異構(gòu)數(shù)據(jù)。盡管與真實(shí)機(jī)器人存在很大的差距,但對(duì)其他本體的數(shù)據(jù)集(例如模擬環(huán)境和人類視頻數(shù)據(jù)集)進(jìn)行預(yù)訓(xùn)練是可能的。
遷移學(xué)習(xí)
如上,作者使用了最后一次迭代中驗(yàn)證集上的損失來評(píng)估預(yù)訓(xùn)練。
接下來,他們將通過實(shí)驗(yàn),去驗(yàn)證機(jī)器人在遷移學(xué)習(xí)中,任務(wù)成功率的問題:
預(yù)訓(xùn)練的HPT模型,是否可以遷移到模擬和現(xiàn)實(shí)世界中的全新本體、任務(wù)、以及環(huán)境中?
模擬環(huán)境
如下圖10(a)中,研究人員在閉環(huán)模擬中測(cè)試了下游任務(wù)的模型,并觀察到使用HPT-B到HPTXL預(yù)訓(xùn)練模型,提到的任務(wù)成功率。
在圖10(b)中,他們?cè)谧罱l(fā)布的Simpler基準(zhǔn)上運(yùn)行HPT,它允許在高保真模擬上與Octo、RT1-X、RT2-X進(jìn)行比較。
在Google EDR機(jī)器人中,研究人員重點(diǎn)關(guān)注三個(gè)不同的任務(wù)「關(guān)閉抽屜」、「選可樂罐」。
對(duì)于每個(gè)任務(wù),他們測(cè)試了幾種不同的初始化,所有任務(wù)總共有300+ episode。
現(xiàn)實(shí)世界
這里,作者采用了與前一節(jié)類似的遷移學(xué)習(xí)方法,并在真實(shí)世界的評(píng)估協(xié)議下,評(píng)估預(yù)訓(xùn)練的HPT表示。
他們以256批大小和訓(xùn)練率訓(xùn)練策略20000次迭代。
圖12顯示的定量結(jié)果,研究人員觀察到,預(yù)訓(xùn)練策略相比No-Trunk和From-Scratch基準(zhǔn)獲得了更好的成功率。
特別是在倒水的任務(wù)中,F(xiàn)rom-Scratch基準(zhǔn)使用了最先進(jìn)的擴(kuò)散策略架構(gòu),以展示預(yù)訓(xùn)練表示的靈活性。
圖11定性結(jié)果顯示,作者觀察到預(yù)訓(xùn)練的HPT在面對(duì)不同姿勢(shì)、物體數(shù)量、相機(jī)配置、光照條件時(shí),表現(xiàn)出更好的泛化能力和魯棒性。
在表3中,作者對(duì)Sweep Leftover任務(wù)進(jìn)行了消融研究。
盡管最近數(shù)據(jù)規(guī)模激增,但由于異構(gòu)性的存在,機(jī)器人學(xué)習(xí)的通用性仍然受到限制。
研究人員提出的HPT——一種模塊化架構(gòu)和框架,通過預(yù)訓(xùn)練來應(yīng)對(duì)這種異構(gòu)性。
他希望這一觀點(diǎn)能夠啟發(fā)未來的工作,以處理機(jī)器人數(shù)據(jù)的異構(gòu)性本質(zhì),從而為機(jī)器人基礎(chǔ)模型鋪平道路。
作者介紹
Lirui Wang
Lirui Wang是MIT CSAIL的博士生,導(dǎo)師是Russ Tedrake教授。
在此之前,他曾在華盛頓大學(xué)獲得學(xué)士和碩士學(xué)位,導(dǎo)師是Dieter Fox教授。
他的研究興趣在于機(jī)器學(xué)習(xí)和機(jī)器人學(xué)。尤其是,他對(duì)開發(fā)能夠在復(fù)雜和非結(jié)構(gòu)化的真實(shí)世界環(huán)境中,泛化的算法和系統(tǒng)感興趣。
為了實(shí)現(xiàn)這一點(diǎn),他一直致力于研究能夠隨著異類數(shù)據(jù)進(jìn)行擴(kuò)展的「艦隊(duì)學(xué)習(xí)」(fleet learning)。
Xinlei Chen
Xinlei Chen是舊金山Meta Fair實(shí)驗(yàn)室的研究科學(xué)家。目前的研究興趣是預(yù)訓(xùn)練,特別是自監(jiān)督、多模態(tài)視覺表征的預(yù)訓(xùn)練。
他曾在CMU語言技術(shù)研究所獲得博士學(xué)位,就讀期間也在機(jī)器人研究所工作。此前,他獲得了浙大的學(xué)士學(xué)位。
Jialiang Zhao
Jialiang Zhao目前是 MIT CSAIL感知科學(xué)小組的博士生,導(dǎo)師是Edward H. Adelson教授,并與Russ Tedrake 、何愷明合作。
Kaiming He
何愷明目前是麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)系副教授。
他提出的最為著名的研究是深度殘差網(wǎng)絡(luò)(ResNets),并被廣泛應(yīng)用到現(xiàn)代深度學(xué)習(xí)模型當(dāng)中,比如Transformer(GPT、ChatGPT)、AlphaGo Zero、AlphaFold、擴(kuò)散模型等。
在加入MIT之前,何愷明于2016年至2024年擔(dān)任Facebook AI Research的研究科學(xué)家,并于2011年-2016年擔(dān)任微軟亞洲研究院(MSRA)的研究員。
他曾在2011年在香港中文大學(xué)獲得博士學(xué)位,并于2007年在清華大學(xué)獲得學(xué)士學(xué)位。
參考資料: