自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從未見過現(xiàn)實(shí)世界數(shù)據(jù),MIT在虛擬環(huán)境中訓(xùn)練出機(jī)器狗,照樣能跑酷

人工智能 新聞
近日, MIT CSAIL 的研究者開發(fā)出了一套解決方案,他們將生成模型作為機(jī)器人學(xué)習(xí)的新數(shù)據(jù)源,并使用視覺跑酷(visual parkout)作為試驗(yàn)場(chǎng)景,讓配備單色相機(jī)的機(jī)器狗快速攀爬障礙物。

如今,機(jī)器人學(xué)習(xí)最大的瓶頸是缺乏數(shù)據(jù)。與圖片和文字相比,機(jī)器人的學(xué)習(xí)數(shù)據(jù)非常稀少。目前機(jī)器人學(xué)科的主流方向是通過擴(kuò)大真實(shí)世界中的數(shù)據(jù)收集來嘗試實(shí)現(xiàn)通用具身智能,但是和其他的基礎(chǔ)模型,比如初版的 StableDiffusion 相比,即使是 pi 的數(shù)據(jù)都會(huì)少七八個(gè)數(shù)量級(jí)。MIT 的這個(gè)團(tuán)隊(duì)希望用生成模型來作為機(jī)器人學(xué)習(xí)的新數(shù)據(jù)源,用工程手段來取代傳統(tǒng)的數(shù)據(jù)收集,實(shí)現(xiàn)一條通過由生成模型加持的物理仿真來訓(xùn)練機(jī)器人視覺的技術(shù)路線。

隨著機(jī)器人在訓(xùn)練過程中持續(xù)進(jìn)化,進(jìn)一步提升技能所需的數(shù)據(jù)也在增長(zhǎng)。因此獲取足夠的數(shù)據(jù)對(duì)于提升機(jī)器人的性能至關(guān)重要,但在當(dāng)前實(shí)踐中,針對(duì)新場(chǎng)景和新任務(wù)獲取數(shù)據(jù)是一個(gè)從頭開始不斷重復(fù)的手動(dòng)過程。

另一種替代方法則是在模擬環(huán)境中訓(xùn)練,從中可以對(duì)更多樣化的環(huán)境條件進(jìn)行采樣,并且機(jī)器人可以安全地探索故障案例并直接從它們自己的行為中學(xué)習(xí)。盡管業(yè)界已經(jīng)在模擬物理和渲染方面投入了大量資金,但目前為實(shí)現(xiàn)真實(shí)性所做的最佳實(shí)踐仍與現(xiàn)實(shí)存在差距。

一方面渲染真實(shí)的圖像意味著要制作細(xì)致、逼真的場(chǎng)景內(nèi)容,但大規(guī)模手動(dòng)制作此類內(nèi)容以獲得機(jī)器人 sim-to-real(模擬到現(xiàn)實(shí))遷移所需要的多樣性,成本過高。另一方面,如果缺少多樣化和高質(zhì)量的場(chǎng)景內(nèi)容,在模擬環(huán)境中訓(xùn)練的機(jī)器人在遷移到真實(shí)世界時(shí)表現(xiàn)得太脆弱。

因此,如何在無限的虛擬環(huán)境中匹配現(xiàn)實(shí)世界,并將色彩感知融入到 sim-to-real 學(xué)習(xí)中,這是一個(gè)關(guān)鍵挑戰(zhàn)。

近日, MIT CSAIL 的研究者開發(fā)出了一套解決方案,他們將生成模型作為機(jī)器人學(xué)習(xí)的新數(shù)據(jù)源,并使用視覺跑酷(visual parkout)作為試驗(yàn)場(chǎng)景,讓配備單色相機(jī)的機(jī)器狗快速攀爬障礙物。

研究者的愿景是完全在生成的虛擬世界中訓(xùn)練機(jī)器人,而核心在于找到精確控制語(yǔ)義組成和場(chǎng)景外觀的方法,以對(duì)齊模擬物理世界,同時(shí)保持對(duì)于實(shí)現(xiàn) sim-to-real 泛化至關(guān)重要的隨機(jī)性。

圖片

  • arXiv 地址:https://arxiv.org/pdf/2411.00083
  • 項(xiàng)目主頁(yè):https://lucidsim.github.io/
  • 論文標(biāo)題:Learning Visual Parkour from Generated Images

下圖 2 為本文 LucidSim 方法概覽:采用了流行的物理引擎 MuJoCo,并在每一幀上渲染了深度圖像和語(yǔ)義掩碼,這些一起被用作深度條件 ControlNet 的輸入。然后從已知的場(chǎng)景幾何和相機(jī)姿態(tài)變化中計(jì)算真值密集光流,并在接下來的六個(gè)時(shí)間步中扭曲原始生成幀以生成時(shí)間一致的視頻序列。

在學(xué)習(xí)方面,研究者訓(xùn)練的視覺策略分為兩個(gè)階段完成:首先優(yōu)化策略以模擬從特權(quán)教師收集的 rollout 中獲得的專家行為。在經(jīng)過這一預(yù)訓(xùn)練步驟后,策略表現(xiàn)不佳。因此,后訓(xùn)練步驟包括從視覺策略本身收集 on-policy 數(shù)據(jù),并與當(dāng)前收集的所有數(shù)據(jù)的學(xué)習(xí)交錯(cuò)進(jìn)行。重復(fù)這一步驟三次使得該視覺策略顯著提升了自身性能。

研究者表示,該策略足夠穩(wěn)健,在他們的測(cè)試場(chǎng)景中可以將零樣本轉(zhuǎn)換為真實(shí)世界的色彩觀察。

圖片

下面我們來看一段視頻展示:

LucidSim:利用物理引導(dǎo)生成多樣化視覺數(shù)據(jù)

研究者考慮了這樣一種 sim-to-real 設(shè)置,機(jī)器人在模擬環(huán)境中接受訓(xùn)練,并無需進(jìn)一步調(diào)整就能遷移到現(xiàn)實(shí)世界。他們對(duì)自己打算部署機(jī)器人的環(huán)境已經(jīng)有部分了解,可能是粗略的描述或者參考圖像。

由于信息不完整,研究者依賴生成模型內(nèi)部的先驗(yàn)知識(shí)來填補(bǔ)空白。他們將這一引導(dǎo)過程稱為先驗(yàn)輔助域生成(Prior -Assisted Domain Generation,PADG),并首先采用對(duì)合成不同域至關(guān)重要的自動(dòng)提示技術(shù)。

LLM 成為多樣化、結(jié)構(gòu)化的提示來源。研究者很早就觀察到,從同一提示中重復(fù)采樣往往會(huì)重現(xiàn)類似的圖像。因此,為了獲得多樣化的圖像,他們首先使用了包含標(biāo)題塊、查詢?cè)斍榈摹冈固崾?,以提?ChatGPT 生成批量結(jié)構(gòu)化的圖像塊,最后以一個(gè)要求 JSON 結(jié)構(gòu)化輸出的問題結(jié)束。具體如下圖 4 所示。

圖片

研究者的要求包括特定天氣、一天中的時(shí)間、光照條件和文化遺址。手動(dòng)編輯生成的圖像提示是不切實(shí)際的,因而他們通過生成少量圖像來調(diào)整元提示,并進(jìn)行迭代直到它們始終可以生成合理的圖像。下圖 5 下面一行顯示了相同元提示、不同圖像提示的多樣化樣本示例。

圖片

在幾何和物理引導(dǎo)下生成圖像。研究者增強(qiáng)了一個(gè)原始文本到圖像模型,在增加額外語(yǔ)義和幾何控制的同時(shí),使它與模擬物理保持一致。他們首先將圖像的文本提示替換為提示和語(yǔ)義掩碼對(duì),其中每個(gè)對(duì)應(yīng)一種資產(chǎn)類型。比如在爬樓梯場(chǎng)景中,研究者通過文本指定了粗略輪廓內(nèi)臺(tái)階的材質(zhì)和紋理。

為了使圖像在幾何上保持一致,研究者采用了現(xiàn)成的 ControlNet,該模型使用來自 MiDAS 的單目深度估計(jì)進(jìn)行訓(xùn)練。條件深度圖像則通過反轉(zhuǎn) z 緩沖區(qū)并在每一張圖像內(nèi)進(jìn)行歸一化處理來計(jì)算。此外,調(diào)整控制強(qiáng)度以避免丟失圖像細(xì)節(jié)非常重要。他們采用的場(chǎng)景幾何是以往工作中出現(xiàn)的簡(jiǎn)單地形,包括可選的側(cè)墻。同時(shí)避免隨機(jī)化幾何地形以專注視覺多樣性分析。

為了制作短視頻,研究者開發(fā)了 Dreams In Motion(DIM)技術(shù),它根據(jù)場(chǎng)景幾何計(jì)算出的真值光流以及兩幀之間機(jī)器人相機(jī)視角的變化,將生成圖像扭曲成后續(xù)幀。生成的圖像堆棧包含對(duì)跑酷至關(guān)重要的計(jì)時(shí)信息。生成速度也很重要,DIM 顯著提高了渲染速度,這得益于計(jì)算流和應(yīng)用扭曲要比生成圖像快得多。具體如下圖 6 所示。

圖片

通過 on-policy 閉環(huán)訓(xùn)練來學(xué)習(xí)穩(wěn)健的真實(shí)世界視覺策略

訓(xùn)練過程分為兩個(gè)階段:一是預(yù)訓(xùn)練階段,通過模擬有權(quán)直接訪問高度圖的特權(quán)專家來引導(dǎo)視覺策略,其中高度圖通過 RL 進(jìn)行訓(xùn)練。研究者從專家及其不完美的早期檢查點(diǎn)收集 rollout,并向?qū)<也樵儎?dòng)作標(biāo)簽以監(jiān)督視覺策略。該視覺策略在預(yù)訓(xùn)練后表現(xiàn)不佳,但在第二階段即后訓(xùn)練階段做出了足夠合理的決策來收集 on-policy 數(shù)據(jù)。具體如下圖 7 所示。

研究者遵循 DAgger,將 on-policy rollout 與上一步中的教師 rollout 相結(jié)合。他們從專家教師那里收集了動(dòng)作標(biāo)簽,并用余弦學(xué)習(xí)率計(jì)劃下使用 Adam 優(yōu)化器運(yùn)行 70 個(gè)梯度下降 epoch。研究者在實(shí)驗(yàn)中僅需重復(fù)迭代 DAgger 三次就可以實(shí)現(xiàn)接近專家表現(xiàn)程度的視覺控制器。實(shí)際上第二階段中的閉環(huán)訓(xùn)練過程是機(jī)器人出色表現(xiàn)的主要原因。

圖片

一個(gè)簡(jiǎn)單的 transformer 控制模型架構(gòu)。研究者提出了一個(gè)簡(jiǎn)單的 transformer 架構(gòu),與之前 extreme parkour, 使用 transformer 大大減少了處理多模態(tài)輸入時(shí)控制模型架構(gòu)的復(fù)雜度,如下圖 8 所示。以往四足跑酷的相關(guān)工作使用復(fù)合架構(gòu),首先使用 ConvNet 將深度圖處理成緊湊的潛在向量,然后使用循環(huán)骨干網(wǎng)絡(luò)。

研究者使用了帶有多查詢注意力的五層 transformer 骨干網(wǎng)絡(luò),輸入的相機(jī)視頻被切成小塊,并由一個(gè)卷積層并行處理。然后,他們將這些 token 與同一時(shí)間步的本體感受觀察的線性嵌入堆疊在一起。研究者對(duì)所有時(shí)間步重復(fù)此操作,并在 token 級(jí)添加了可學(xué)習(xí)的嵌入。他們發(fā)現(xiàn),對(duì)于 RGB 圖像,在卷積之前包含批歸一化層也有幫助。

最后,研究者通過堆疊在輸入序列末尾的額外類 token 來計(jì)算動(dòng)作輸出,然后是 ReLU 潛在層和線性映射。

圖片

實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)環(huán)節(jié),研究者考慮了以下任務(wù):

  • 追蹤足球(chase-soccer);
  • 追蹤橙色交通錐(chase-cone);
  • 攀爬各種材質(zhì)的樓梯(stairs)。

他們分別在現(xiàn)實(shí)世界和一小部分使用 3D 高斯?jié)姙R來模擬創(chuàng)建的真實(shí)世界場(chǎng)景中評(píng)估學(xué)習(xí)到的控制器性能。這些基準(zhǔn)環(huán)境的示例如下圖 9 所示。

圖片

此外,研究者進(jìn)行了以下基線比較:

  • 需要特權(quán)地形數(shù)據(jù)(障礙)的專家策略;
  • 使用相同 pipeline 訓(xùn)練的深度學(xué)生策略;
  • 使用紋理上經(jīng)典域隨機(jī)化訓(xùn)練的 RGB 學(xué)生策略;
  • 以及本文基于 DIM 生成的幀堆棧進(jìn)行訓(xùn)練的 LucidSim。

從生成圖像中學(xué)習(xí)要優(yōu)于域隨機(jī)化

在模擬評(píng)估中,研究者觀察到 LucidSim 在幾乎所有評(píng)估中都優(yōu)于經(jīng)典域隨機(jī)化方法,如下表 1 和表 6 所示。其中,域隨機(jī)化基線方法能夠在模擬中非常高效地爬樓梯,但在跨越障礙任務(wù)中表現(xiàn)不佳。這是因?yàn)樯疃葘W(xué)生網(wǎng)絡(luò)在 3D 場(chǎng)景中遭遇了微妙且常見的 sim-to-real 差距。

比如由于受到欄桿的影響,Oracle 策略在其中一個(gè)爬樓梯場(chǎng)景(Marble)中表現(xiàn)不佳,因?yàn)樗谟?xùn)練環(huán)境中從未見過欄桿。相反,LucidSim 受到的影響較小。

圖片

圖片

從零樣本遷移到現(xiàn)實(shí)世界

研究者在配備廉價(jià) RGB 網(wǎng)絡(luò)攝像頭的 Unitree Go1 上部署了 LucidSim,在 Jetson AGX Orin 上運(yùn)行了推理。每個(gè)任務(wù)都在多種場(chǎng)景中進(jìn)行評(píng)估,并記錄了機(jī)器人是否追到了目標(biāo)物(追逐)或成功跨越障礙物。

下圖 11 展示了 LucidSim 與域隨機(jī)化方法的比較結(jié)果,其中 LucidSim 不僅能夠識(shí)別經(jīng)典的黑白足球,而且由于之前看到了具有豐富多樣性的生成數(shù)據(jù),因而可以泛化到不同顏色的足球。

對(duì)于跨越障礙(hurdle)和爬樓梯(stair)場(chǎng)景,Domain Rand. 無法始終如一地識(shí)別前方障礙物,并經(jīng)常出現(xiàn)正面碰撞,而 LucidSim 能夠始終如一地預(yù)測(cè)前方的障礙物并成功跨越。

圖片

學(xué)習(xí) on-policy 要優(yōu)于原始的專家數(shù)據(jù) Scaling

研究者在下圖 12 中,將基于 on-policy 的學(xué)習(xí)與原始的專家數(shù)據(jù)收集方法進(jìn)行了比較。結(jié)果顯示,通過額外專家專用數(shù)據(jù)訓(xùn)練獲得的性能增益很快達(dá)到飽和。在跨越障礙和爬樓梯場(chǎng)景中,通過 DAgger 進(jìn)行 on-policy 學(xué)習(xí)對(duì)于制定足夠穩(wěn)健的策略很有必要。

圖片

下圖 10 展示了 LucidSim 和域隨機(jī)化基線方法下 DAgger 產(chǎn)生的益處,其中前者的整體性能更高。

圖片

僅深度的策略過擬合訓(xùn)練幾何

除了極限跑酷,研究者還考慮了兩種深度策略,它們都接受了與 LucidSim 相同的訓(xùn)練,但輸入深度不同。第一種(如上表 1 和表 6 第三行)接收遠(yuǎn)距剪切至五米的深度,并實(shí)現(xiàn) 120° FoV(視場(chǎng)角)。第二種(上表 1 和表 6 第四行)接收剪切至兩米的深度。

在模擬評(píng)估中,研究者觀察到,使用未剪切深度的策略會(huì)過擬合訓(xùn)練場(chǎng)景中的最小和簡(jiǎn)單幾何,并被評(píng)估場(chǎng)景背景中的干擾因素所干擾。而視覺有限的深度策略不太會(huì)受到測(cè)試場(chǎng)景中多樣性的影響,并且性能可以顯著地提高。

理解 DIM 的速度和性能

圖像生成是本文 pipeline 中的瓶頸。DIM 大大加速了每個(gè)策略的展開,同時(shí)通過權(quán)衡多樣性提供動(dòng)態(tài)一致的幀堆棧。研究者探究了獨(dú)立生成每一幀如何影響學(xué)生網(wǎng)絡(luò)的性能,他們認(rèn)為跨越障礙場(chǎng)景最具挑戰(zhàn)性。如下圖 13 所示,在性能類似的情況下,DIM 可以在短時(shí)間內(nèi)實(shí)現(xiàn)相同結(jié)果。

圖片

強(qiáng)大的條件降低多樣性和圖像細(xì)節(jié)

研究者需要權(quán)衡幾何準(zhǔn)確率與生成圖像細(xì)節(jié)豐富度。當(dāng)條件強(qiáng)度過低時(shí),圖像會(huì)偏離場(chǎng)景幾何(如下圖 14 左側(cè))。當(dāng)條件強(qiáng)度過高時(shí),圖像會(huì)失去多樣性和豐富細(xì)節(jié)(圖 14 右側(cè)),并且由于過約束而變得失真嚴(yán)重。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-09-05 09:33:41

DevOps轉(zhuǎn)型指標(biāo)

2021-03-02 10:11:13

MySQL死鎖數(shù)據(jù)庫(kù)

2019-05-13 09:25:07

大數(shù)據(jù)數(shù)據(jù)分析隱私

2025-03-27 00:04:33

AIChatGPT生成模型

2021-07-05 16:26:19

數(shù)據(jù)中心

2017-10-09 12:05:57

優(yōu)秀的代碼代碼量糟糕的代碼

2020-06-17 09:52:16

數(shù)據(jù)庫(kù)Redis技術(shù)

2021-07-30 20:25:04

pipxPython編程語(yǔ)言

2025-02-05 14:16:55

OpenAI人形機(jī)器人Figure

2009-10-30 09:49:55

2023-09-12 13:28:36

AI模型

2021-05-12 09:42:25

AI 數(shù)據(jù)人工智能

2023-07-21 15:05:04

人工智能智能汽車數(shù)字技術(shù)

2020-07-10 06:10:14

Python開發(fā)代碼

2020-07-26 18:34:46

Python開發(fā)工具

2019-07-24 15:12:47

圖像識(shí)別人工智能AI

2024-03-11 16:33:26

機(jī)器狗訓(xùn)練

2023-05-05 16:37:13

CPU 性能虛擬環(huán)境虛擬化

2021-05-19 05:45:19

漏洞服務(wù)器網(wǎng)絡(luò)安全

2023-09-06 15:27:00

混合現(xiàn)實(shí)架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)