自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器人策略學(xué)習(xí)的Game Changer?伯克利提出Body Transformer

人工智能 新聞
過(guò)去幾年間,Transformer 架構(gòu)已經(jīng)取得了巨大的成功,同時(shí)其也衍生出了大量變體,比如擅長(zhǎng)處理視覺任務(wù)的 Vision Transformer(ViT)。本文要介紹的 Body Transformer(BoT) 則是非常適合機(jī)器人策略學(xué)習(xí)的 Transformer 變體。

我們知道,物理智能體在執(zhí)行動(dòng)作的校正和穩(wěn)定時(shí),往往會(huì)根據(jù)其感受到的外部刺激的位置給出空間上的響應(yīng)。比如人類對(duì)這些刺激的響應(yīng)回路位于脊髓神經(jīng)回路層面,它們專門負(fù)責(zé)單個(gè)執(zhí)行器的響應(yīng)。起校正作用的局部執(zhí)行是高效運(yùn)動(dòng)的主要因素,這對(duì)機(jī)器人來(lái)說(shuō)也尤為重要。

但之前的學(xué)習(xí)架構(gòu)通常都沒有建立傳感器和執(zhí)行器之間的空間關(guān)聯(lián)。鑒于機(jī)器人策略使用的架構(gòu)基本是為自然語(yǔ)言和計(jì)算機(jī)視覺開發(fā)的架構(gòu),它們常常無(wú)法有效地利用機(jī)器人機(jī)體的結(jié)構(gòu)。

不過(guò),Transformer 在這方面還是頗具潛力的,已有研究表明,Transformer 可以有效地處理長(zhǎng)序列依賴關(guān)系,還能輕松地吸收大量數(shù)據(jù)。Transformer 架構(gòu)原本是為非結(jié)構(gòu)化自然語(yǔ)言處理(NLP)任務(wù)開發(fā)的。在這些任務(wù)中(比如語(yǔ)言翻譯),輸入序列通常會(huì)被映射到一個(gè)輸出序列。

基于這一觀察,加州大學(xué)伯克利分校 Pieter Abbeel 教授領(lǐng)導(dǎo)的團(tuán)隊(duì)提出了 Body Transformer(BoT),增加了對(duì)機(jī)器人機(jī)體上的傳感器和執(zhí)行器的空間位置的關(guān)注。

圖片


  • 論文標(biāo)題:Body Transformer: Leveraging Robot Embodiment for Policy Learning
  • 論文地址:https://arxiv.org/pdf/2408.06316v1
  • 項(xiàng)目網(wǎng)站:https://sferrazza.cc/bot_site
  • 代碼地址:https://github.com/carlosferrazza/BodyTransformer

具體來(lái)說(shuō),BoT 是將機(jī)器人機(jī)體建模成圖(graph),其中的節(jié)點(diǎn)即為其傳感器和執(zhí)行器。然后,其在注意力層上使用高度稀疏的掩碼,以防止每個(gè)節(jié)點(diǎn)關(guān)注其直接近鄰之外的部分。將多個(gè)結(jié)構(gòu)相同的 BoT 層連接起來(lái),就能匯集整個(gè)圖的信息,這樣便不會(huì)損害該架構(gòu)的表征能力。BoT 在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方面都表現(xiàn)不俗,甚至被一些人認(rèn)為是策略學(xué)習(xí)的「Game Changer」。

Body Transformer

如果機(jī)器人學(xué)習(xí)策略使用原始 Transformer 架構(gòu)為骨干,則通常會(huì)忽視機(jī)器人機(jī)體結(jié)構(gòu)所提供的有用信息。但實(shí)際上,這些結(jié)構(gòu)信息能為 Transformer 提供更強(qiáng)的歸納偏置。該團(tuán)隊(duì)在利用這些信息的同時(shí)還保留了原始架構(gòu)的表征能力。

Body Transformer(BoT)架構(gòu)基于掩碼式注意力。在這個(gè)架構(gòu)的每一層中,一個(gè)節(jié)點(diǎn)都只能看到其自身和其直接近鄰節(jié)點(diǎn)的信息。如此一來(lái),信息就會(huì)依照?qǐng)D的結(jié)構(gòu)而流動(dòng),其中上游層會(huì)根據(jù)局部信息執(zhí)行推理,下游層則能匯集更多來(lái)自更遠(yuǎn)節(jié)點(diǎn)的全局信息。

圖片

如圖 1 所示,BoT 架構(gòu)包含以下組件:

1.tokenizer:將傳感器輸入投射成對(duì)應(yīng)的節(jié)點(diǎn)嵌入;

2.Transformer 編碼器:處理輸入嵌入并生成同樣維度的輸出特征;

3.detokenizer:解除 token 化,即將特征解碼成動(dòng)作(或用于強(qiáng)化學(xué)習(xí)批評(píng)訓(xùn)練的價(jià)值)。

tokenizer

該團(tuán)隊(duì)選擇將觀察向量映射成局部觀察構(gòu)成的圖。

在實(shí)踐中,他們將全局量分配給機(jī)器人機(jī)體的根元素,將局部量分配給表示對(duì)應(yīng)肢體的節(jié)點(diǎn)。這種分配方式與之前的 GNN 方法類似。

然后,使用一個(gè)線性層將局部狀態(tài)向量投射成嵌入向量。每個(gè)節(jié)點(diǎn)的狀態(tài)都會(huì)被饋送給其節(jié)點(diǎn)特定的可學(xué)習(xí)的線性投射,從而得到一個(gè)包含 n 個(gè)嵌入的序列,其中 n 表示節(jié)點(diǎn)的數(shù)量(或序列長(zhǎng)度)。這不同于之前的研究成果,它們通常僅使用單個(gè)共享的可學(xué)習(xí)的線性投射來(lái)處理多任務(wù)強(qiáng)化學(xué)習(xí)中不同數(shù)量的節(jié)點(diǎn)。

BoT 編碼器

該團(tuán)隊(duì)使用的骨干網(wǎng)絡(luò)是一個(gè)標(biāo)準(zhǔn)的多層 Transformer 編碼器,并且該架構(gòu)有兩種變體版本:

  • BoT-Hard:使用一個(gè)反映該圖結(jié)構(gòu)的二元掩碼來(lái)掩蔽每一層。具體來(lái)說(shuō),他們構(gòu)建掩碼的方式是 M = I_n + A,其中 I_n 是 n 維單位矩陣,A 是對(duì)應(yīng)于該圖的鄰接矩陣。圖 2 展示了一個(gè)示例。這讓每個(gè)節(jié)點(diǎn)僅能看到其自身和其直接近鄰,并且能為該問(wèn)題引入相當(dāng)可觀的稀疏性 —— 從計(jì)算成本角度看,這特別有吸引力。

圖片

  • BoT-Mix:將帶有掩碼式注意力的層(如 BoT-Hard 一樣)與帶有無(wú)掩碼式注意力的層交織在一起。

detokenizer

Transformer 編碼器輸出的特征會(huì)被饋送給線性層,然后被投射成與該節(jié)點(diǎn)的肢體關(guān)聯(lián)的動(dòng)作;這些動(dòng)作是根據(jù)相應(yīng)執(zhí)行器與肢體的接近程度來(lái)分配的。同樣,每個(gè)節(jié)點(diǎn)的這些可學(xué)習(xí)的線性投射層是分開的。如果將 BoT 用作強(qiáng)化學(xué)習(xí)設(shè)置中的批評(píng)架構(gòu),則 detokenizer 輸出的就不再是動(dòng)作,而是價(jià)值,然后在機(jī)體部位上取平均值。

實(shí)驗(yàn)

團(tuán)隊(duì)在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)設(shè)置中評(píng)估了 BoT 的性能。他們維持了與圖 1 相同的結(jié)構(gòu),只用各種基線架構(gòu)替換 BoT 編碼器,以確定編碼器的效果。

這些實(shí)驗(yàn)的目標(biāo)是解答以下問(wèn)題:

  • 掩碼式注意力是否能提升模仿學(xué)習(xí)的性能和泛化能力?
  • 相比于原始的 Transformer 架構(gòu),BoT 是否能表現(xiàn)出正面的規(guī)模擴(kuò)展趨勢(shì)?
  • BoT 是否與強(qiáng)化學(xué)習(xí)框架兼容,有哪些合理設(shè)計(jì)選擇可以盡可能地提升性能?
  • BoT 策略是否可以應(yīng)用于真實(shí)世界機(jī)器人任務(wù)?
  • 掩碼式注意力在計(jì)算方面有哪些優(yōu)勢(shì)?

模仿學(xué)習(xí)實(shí)驗(yàn)

團(tuán)隊(duì)在機(jī)體跟蹤任務(wù)上評(píng)估了 BoT 架構(gòu)的模仿學(xué)習(xí)性能,該任務(wù)是通過(guò) MoCapAct 數(shù)據(jù)集定義的。

結(jié)果如圖 3a 所示,可以看到 BoT 的表現(xiàn)總是優(yōu)于 MLP 和 Transformer 基線。值得注意的是,在未曾見過(guò)的驗(yàn)證視頻片段上,BoT 相對(duì)于這些架構(gòu)的優(yōu)勢(shì)還會(huì)進(jìn)一步增大,這證明機(jī)體感知型歸納偏置能帶來(lái)泛化能力的提升。

圖片

而圖 3b 則表明 BoT-Hard 的規(guī)模擴(kuò)展性很不錯(cuò),相較于 Transformer 基線,其在訓(xùn)練和驗(yàn)證視頻片段上的性能都會(huì)隨著可訓(xùn)練參數(shù)量的增長(zhǎng)而增長(zhǎng)這進(jìn)一步表明 BoT-Hard 傾向于不過(guò)擬合訓(xùn)練數(shù)據(jù),而這種過(guò)擬合是由具身偏置引起的。下面展示了更多實(shí)驗(yàn)示例,詳見原論文。

圖片


圖片

強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)

該團(tuán)隊(duì)在 Isaac Gym 中的 4 個(gè)機(jī)器人控制任務(wù)上評(píng)估了 BoT 與使用 PPO 的基線的強(qiáng)化學(xué)習(xí)性能。這 4 個(gè)任務(wù)分別是:Humanoid-Mod、Humanoid-Board、Humanoid-Hill 和 A1-Walk。

圖 5 展示了 MLP、Transformer 和 BoT(Hard 和 Mix)在訓(xùn)練期間的評(píng)估 rollout 的平均情節(jié)回報(bào)。其中,實(shí)線對(duì)應(yīng)于平均值,陰影區(qū)域?qū)?yīng)于五個(gè)種子的標(biāo)準(zhǔn)誤差。

圖片

圖片

結(jié)果表明,BoT-Mix 的性能在樣本效率和漸近性能方面始終優(yōu)于 MLP 和原始 Transformer 基線。這說(shuō)明將來(lái)自機(jī)器人機(jī)體的偏置整合進(jìn)策略網(wǎng)絡(luò)架構(gòu)是有用的。

同時(shí),BoT-Hard 在較簡(jiǎn)單的任務(wù)(A1-Walk 和 Humanoid-Mod)上的表現(xiàn)優(yōu)于原始 Transformer,但在更困難的探索任務(wù)(Humanoid-Board 和 Humanoid-Hill)上表現(xiàn)卻更差。考慮到掩碼式注意力會(huì)妨礙來(lái)自遠(yuǎn)處機(jī)體部分的信息傳播,BoT-Hard 在信息通信方面的強(qiáng)大限制可能會(huì)妨礙強(qiáng)化學(xué)習(xí)探索的效率。

真實(shí)世界實(shí)驗(yàn)

Isaac Gym 模擬的運(yùn)動(dòng)環(huán)境常被用于將強(qiáng)化學(xué)習(xí)策略從虛擬遷移到真實(shí)環(huán)境,并且還不需要在真實(shí)世界中進(jìn)行調(diào)整。為了驗(yàn)證新提出的架構(gòu)是否適用于真實(shí)世界應(yīng)用,該團(tuán)隊(duì)將上述訓(xùn)練得到的一個(gè) BoT 策略部署到了一臺(tái) Unitree A1 機(jī)器人中。從如下視頻可以看出,新架構(gòu)可以可靠地用于真實(shí)世界部署。

圖片

計(jì)算分析

該團(tuán)隊(duì)也分析了新架構(gòu)的計(jì)算成本,如圖 6 所示。這里給出了新提出的掩碼式注意力與常規(guī)注意力在不同序列長(zhǎng)度(節(jié)點(diǎn)數(shù)量)上的規(guī)模擴(kuò)展結(jié)果。

圖片

可以看到,當(dāng)有 128 個(gè)節(jié)點(diǎn)時(shí)(相當(dāng)于擁有靈巧雙臂的類人機(jī)器人),新注意力能將速度提升 206%。

總體而言,這表明 BoT 架構(gòu)中的源自機(jī)體的偏置不僅能提高物理智能體的整體性能,而且還可受益于架構(gòu)那自然稀疏的掩碼。該方法可通過(guò)充分的并行化來(lái)大幅減少學(xué)習(xí)算法的訓(xùn)練時(shí)間。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-26 15:43:00

訓(xùn)練數(shù)據(jù)機(jī)器人

2021-01-04 09:18:36

機(jī)器人人工智能系統(tǒng)

2024-10-29 15:20:00

強(qiáng)化學(xué)習(xí)模型

2022-03-23 10:52:07

機(jī)器人神經(jīng)網(wǎng)絡(luò)系統(tǒng)

2024-01-31 13:51:00

模型數(shù)據(jù)

2021-07-12 13:02:50

機(jī)器人人工智能算法

2018-10-09 14:00:41

SQL深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2025-01-22 15:21:00

2022-06-30 17:53:56

機(jī)器狗智能

2019-01-15 13:14:03

機(jī)器人算法SAC

2025-04-23 09:10:00

AI系統(tǒng)模型

2024-02-21 12:20:00

AI訓(xùn)練

2017-11-03 21:22:06

郭濤

2022-01-26 10:31:25

自動(dòng)駕駛軟件架構(gòu)

2024-11-04 14:35:00

AI機(jī)器人

2022-10-28 13:16:07

四足機(jī)器人機(jī)器人人工智能

2022-06-09 15:35:48

深度學(xué)習(xí)AI

2023-10-04 11:57:20

訓(xùn)練模型

2022-03-28 13:25:42

AI扶貧機(jī)器之心

2018-12-20 11:12:44

機(jī)器人算法伯克利
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)