自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛「數(shù)字表兄弟」破解機(jī)器人訓(xùn)練難題!零樣本sim2real成功率高達(dá)90%

人工智能 新聞
在用模擬環(huán)境訓(xùn)練機(jī)器人時,所用的數(shù)據(jù)與真實(shí)世界存在著巨大的差異。為此,李飛飛團(tuán)隊(duì)提出「數(shù)字表親」,這種虛擬資產(chǎn)既具備數(shù)字孿生的優(yōu)勢,還能補(bǔ)足泛化能力的不足,并大大降低了成本。

如何有效地將真實(shí)數(shù)據(jù)擴(kuò)展到模擬數(shù)據(jù),進(jìn)行機(jī)器人學(xué)習(xí)?

最近,李飛飛團(tuán)隊(duì)提出一種「數(shù)字表親」的新方法,可以同時降低真實(shí)到模擬生成的成本,同時提高學(xué)習(xí)的普遍性。

圖片

項(xiàng)目主頁:https://digital-cousins.github.io/

論文地址:https://arxiv.org/abs/2410.07408

目前,論文已被CORL2024接收。

你可能會問,什么是「數(shù)字表親」,有啥用呢?

讓我們把它跟數(shù)字孿生比較一下。

圖片

的確,數(shù)字孿生可以準(zhǔn)確地對場景進(jìn)行建模,然而它的生成成本實(shí)在太昂貴了,而且還無法提供泛化功能。

而另一方面,數(shù)字表親雖然沒有直接模擬現(xiàn)實(shí)世界的對應(yīng)物,卻仍然能夠捕獲相似的幾何和語義功能。

圖片

這樣,它就大大降低了生成類似虛擬環(huán)境的成本,同時通過提供類似訓(xùn)練場景的分布,提高了從模擬到真實(shí)域遷移的魯棒性。

共同一作Tianyuan Dai表示,既然有免費(fèi)的「數(shù)字表親」了,何必再去手工設(shè)計數(shù)字孿生?

亮眼的是,「數(shù)字表親」能同時實(shí)現(xiàn)——

  • 單幅圖像變成交互式場景
  • 全自動(無需注釋)
  • 機(jī)器人策略在原始場景中的零樣本部署

圖片

簡單拍一張照片,就能搞定了

模擬數(shù)據(jù)難題:與現(xiàn)實(shí)環(huán)境差異過大

在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人,存在策略不安全、成本高昂、難以擴(kuò)展等問題;相比之下,模擬數(shù)據(jù)是一種廉價且潛在無限的訓(xùn)練數(shù)據(jù)來源。

然而,模擬數(shù)據(jù)存在一個難以忽視的問題——與現(xiàn)實(shí)環(huán)境之間的語義和物理差異。

這些差異可以通過在數(shù)字孿生中進(jìn)行訓(xùn)練來最小化,但數(shù)字孿生作為真實(shí)場景的虛擬復(fù)制品,同樣成本高昂且無法跨域泛化。

正是為了解決這些限制,論文提出了「數(shù)字表親」(digital cousion)的概念。

「數(shù)字表親」是一種虛擬資產(chǎn)或場景,與數(shù)字孿生不同,它不明確模擬現(xiàn)實(shí)世界的對應(yīng)物,但仍然展現(xiàn)類似的幾何和語義功能。

因此,數(shù)字表親既具備了數(shù)字孿生的優(yōu)勢,能夠補(bǔ)足現(xiàn)實(shí)數(shù)據(jù)的不足,同時降低了生成類似虛擬環(huán)境的成本,并能更好地促進(jìn)跨域泛化。

具體而言,論文引入了一種自動創(chuàng)建數(shù)字表親(Automatic Creation of Digital Cousins,ACDC)的新方法,并提出了一個完全自動化的,從真實(shí)到模擬再到真實(shí)的流程,用于生成交互式場景和訓(xùn)練策略。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),ACDC生成的數(shù)字表親場景能夠保留幾何和語義功能,訓(xùn)練出的策略也優(yōu)于數(shù)字孿生(90% vs. 25%),而且可以通過零樣本學(xué)習(xí)直接部署在原始場景中。

方法概述

與數(shù)字孿生不同,數(shù)字表親并不苛求在所有微小細(xì)節(jié)上都要重建給定場景,而是專注于保留更高級別的細(xì)節(jié),例如空間關(guān)系和語義。

ACDC是一個完全自動化的端到端流程,從單個RGB圖像生成完全交互式的模擬場景,由三個連續(xù)步驟組成:

圖片

  1. 信息提?。菏紫?,從輸入的RGB圖像中提取對象信息。
  2. 數(shù)字表親匹配:利用第一步提取的信息,結(jié)合預(yù)先準(zhǔn)備的3D模型資產(chǎn)數(shù)據(jù)集,為檢測到的每個對象匹配相應(yīng)的數(shù)字表親。
  3. 場景生成:對選擇的數(shù)字表親進(jìn)行后處理并編譯在一起,生成一個物理上合理且完全交互式的模擬場景。

通過這三個步驟,ACDC能夠自動創(chuàng)建與輸入圖像語義相似但不完全相同的虛擬場景,為機(jī)器人策略訓(xùn)練提供多樣化的環(huán)境。

圖片

策略學(xué)習(xí)

構(gòu)建了一組數(shù)字表親后,就可以這些環(huán)境中訓(xùn)練機(jī)器人策略。

雖然這種方法適用于多種訓(xùn)練范式,例如強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí),但本文選擇聚焦于于腳本演示(scripted demonstrations)的模仿學(xué)習(xí),因?yàn)檫@種范式不需要人類演示,與完全自主化的ACDC流程更加適配。

為了能在模擬環(huán)境中自動實(shí)現(xiàn)演示的收集,作者首先實(shí)施了一組基于樣本的技能,包括Open(開)、 Close(關(guān))、 Pick(拿)和Place(放)四種。

雖然技能的種類數(shù)仍然有限,但已經(jīng)足夠收集各種日常任務(wù)的演示,例如對象重新排列和家具鉸接。

實(shí)驗(yàn)

通過實(shí)驗(yàn),團(tuán)隊(duì)回答了以下研究問題:

  • Q1:ACDC能否生成高質(zhì)量的數(shù)字表親場景?給定單張RGB圖像,ACDC能否捕捉原始場景中固有的高級語義和空間細(xì)節(jié)?
  • Q2:在原始的環(huán)境設(shè)置上評估時,在數(shù)字表親上訓(xùn)練的策略能否匹配數(shù)字孿生的性能?
  • Q3:在分布外設(shè)置上評估時,在數(shù)字表親上訓(xùn)練的策略是否表現(xiàn)出更強(qiáng)的穩(wěn)健性?
  • Q4:在數(shù)字表親上訓(xùn)練的策略能否實(shí)現(xiàn)零樣本的sim2real策略遷移?

通過ACDC進(jìn)行場景重建

首先團(tuán)隊(duì)需要論證的最重要的問題,就是ACDC能生成高質(zhì)量的數(shù)字表親場景嗎?

從表格中的數(shù)據(jù)來看,結(jié)果十分令人滿意。

以下是在sim-to-sim場景中對ABCD場景重建進(jìn)行的定量和定性評估。

圖片

在sim2sim場景中對ACDC進(jìn)行場景重建的定量和定性評估

評估指標(biāo)包括:

  • 「Scale」:輸入場景中兩個對象邊界框之間的最大距離。
  • 「Cat.」:正確分類對象占場景總對象總數(shù)的比例。
  • 「Mod.」:正確建模對象占場景中對象總數(shù)的比例。
  • 「L2 Dist.」:輸入和重建場景中邊界框中心間歐幾里得距離的均值和標(biāo)準(zhǔn)差。
  • 「Ori. Diff.」:每個中心對稱對象方向幅度差異的均值和標(biāo)準(zhǔn)差。
  • 「Bbox IoU」:資產(chǎn)3D邊界框的交并比(IoU)。

以下是ACDC實(shí)景到模擬場景的重建結(jié)果。

在給定場景中,會顯示多個數(shù)字表親。

圖片

ACDC真實(shí)到模擬場景重建結(jié)果的定性評估,展示了為給定場景生成的多個數(shù)字表親

基于這些結(jié)果,研究者可以肯定地回答Q1了——

ACDC確實(shí)能夠保留輸入場景的語義和空間細(xì)節(jié),從單張RGB圖像生成真實(shí)世界對象的數(shù)字表親,并能準(zhǔn)確定位和縮放以匹配原始場景。

sim2sim的策略學(xué)習(xí)

這部分的實(shí)驗(yàn)主要是為了回答上述研究中的Q2和Q3,在3個任務(wù)上分析ACDC訓(xùn)練策略的能力,包括「開門」、「打開抽屜」和「收起碗」,每項(xiàng)任務(wù)都與數(shù)字孿生設(shè)置進(jìn)行了對比。

圖片

不同設(shè)置中的總體成功率如下圖所示。

可以發(fā)現(xiàn),在數(shù)字表親上訓(xùn)練的策略通??梢云ヅ?,甚至優(yōu)于數(shù)字孿生的設(shè)置。

作者假設(shè),由于數(shù)字表親的策略是在不同環(huán)境設(shè)置的數(shù)據(jù)上進(jìn)行訓(xùn)練的,因此可以覆蓋廣泛的狀態(tài)空間,從而很好地推廣到原始數(shù)字孿生設(shè)置。

圖片

然而,在另一個極端,針對所有可行資產(chǎn)(All Assets)進(jìn)行訓(xùn)練場的策略要比數(shù)字孿生差得多,這表明樸素的領(lǐng)域隨機(jī)化并不總是有用的。

此外,隨著DINO嵌入距離的增加,即評估設(shè)置與原始設(shè)置的差異逐漸增大,數(shù)字孿生的策略性能通常會出現(xiàn)成比例的顯著下降,但數(shù)字孿生策略整體表現(xiàn)更加穩(wěn)定,證明了在分布外設(shè)置上的魯棒性。

sim2real的策略學(xué)習(xí)

隨后,研究者對數(shù)字孿生和數(shù)字表親策略進(jìn)行了零樣本現(xiàn)實(shí)世界評估。

任務(wù)是給宜家柜子上開門。

圖片

評估指標(biāo)就是成功率。

結(jié)果顯示,模擬結(jié)果平均超過50次試驗(yàn),真實(shí)結(jié)果平均超過20次試驗(yàn)。

圖片

real2sim2real的場景生成和策略學(xué)習(xí)

無論是數(shù)字孿生還是數(shù)字表親,最終的落腳點(diǎn)還是要在真實(shí)環(huán)境中對比性能。

因此實(shí)驗(yàn)的最后,團(tuán)隊(duì)在完全真實(shí)(in-the-wild)的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學(xué)習(xí)框架。

在經(jīng)過數(shù)字表親的專門模擬訓(xùn)練后,機(jī)器人可以成功打開廚房櫥柜,證明了ACDC方法遷移到真實(shí)環(huán)境中的有效性。

以下Demo展示了完全自動化的數(shù)字表親生成過程。

圖片

圖片

圖片

圖片

圖片

左右滑動查看

圖片

零樣本的sim2real策略遷移實(shí)驗(yàn)表明,僅從上述生成的四個數(shù)字表親訓(xùn)練的模擬策略,可以直接遷移到相應(yīng)的真實(shí)廚房場景。

圖片

基于這些結(jié)果,研究者可以肯定地回答Q2、Q3和Q4了——

使用數(shù)字表親訓(xùn)練的策略,表現(xiàn)出了與在數(shù)字孿生上訓(xùn)練策略相當(dāng)?shù)姆植純?nèi)性能,以及更強(qiáng)的分布外魯棒性,并且可以實(shí)現(xiàn)零樣本從模擬到現(xiàn)實(shí)的策略遷移。

失敗案例

即使ACDC方法表現(xiàn)出了整體上的優(yōu)越性能,研究團(tuán)隊(duì)也在實(shí)驗(yàn)中觀察到了幾個失敗案例,例如:在打開柜子的任務(wù)中,機(jī)器人未能完全移動到把手所在位置——

圖片

或者移動時錯過把手——

圖片

即使正確找到了把手所在位置,也有可能手滑——

圖片

可以觀察到,ACDC經(jīng)常在以下幾種情況下陷入困境:

a. 高頻深度信息

b. 遮擋

c .語義類別差異

d. 缺乏相應(yīng)類別的資產(chǎn)

e. 除「位于頂部」之外的對象關(guān)系

前三個限制,與ACDC的參數(shù)化方式直接相關(guān)。

比如對于(a),由于ACDC依賴于相對準(zhǔn)確的深度估計,來計算預(yù)測的對象3D邊界框,因此不準(zhǔn)確的深度圖可能會導(dǎo)致ACDC對物體模型的估計相應(yīng)較差。

原生深度傳感器在物體邊界附近可能難以產(chǎn)生準(zhǔn)確的讀數(shù),這是因?yàn)樯疃葓D在這些區(qū)域可能出現(xiàn)不連續(xù)性。當(dāng)物體具有許多精細(xì)邊界時(例如植物和柵欄),這個問題會變得更加復(fù)雜。

此外,由于研究者依賴現(xiàn)成的基礎(chǔ)模型(DepthAnything-v2)來預(yù)測合成深度圖,因此也承襲了模型自身的一系列限制,例如對特殊物體或在不利的視覺條件下的預(yù)測較差。

結(jié)論

最終,研究者得出了以下結(jié)論。

ACDC是一個全自動化管線,能夠快速生成與單張真實(shí)世界RGB圖像相對應(yīng)的完全交互式數(shù)字表親場景。

研究發(fā)現(xiàn):

1. 魯棒性

在這些數(shù)字表親設(shè)置上訓(xùn)練的策略,比在數(shù)字孿生上訓(xùn)練的策略表現(xiàn)出更強(qiáng)的魯棒性。

圖片

為了進(jìn)一步檢查數(shù)字表親對樸素域隨機(jī)化的相對影響,研究者根據(jù)其他基線在 DoorOpening任務(wù)上重新運(yùn)行了sim2sim實(shí)驗(yàn)

2. 性能對比

  • 領(lǐng)域內(nèi)性能:數(shù)字表親訓(xùn)練的策略與數(shù)字孿生訓(xùn)練的策略相當(dāng)。
  • 領(lǐng)域外泛化:數(shù)字表親訓(xùn)練的策略展現(xiàn)出優(yōu)越的領(lǐng)域外泛化能力。

3. 零樣本學(xué)習(xí)

數(shù)字表親訓(xùn)練的策略能夠?qū)崿F(xiàn)零樣本從模擬到現(xiàn)實(shí)的策略遷移。

作者介紹

Tianyuan Dai

Tianyuan Dai本科畢業(yè)于香港科技大學(xué),獲得了計算機(jī)科學(xué)和數(shù)學(xué)學(xué)士學(xué)位,目前在斯坦福攻讀碩士學(xué)位,隸屬于斯坦福SVL實(shí)驗(yàn)室(Vision and Learning Lab)和PAIR研究小組(People, AI & Robots Group),由李飛飛指導(dǎo)。

圖片


他的長期愿景是將人類對現(xiàn)實(shí)世界環(huán)境的理解融入到機(jī)器人算法中,使用數(shù)據(jù)驅(qū)動的方法幫助人們完成日常任務(wù);最近研究的重點(diǎn)是開發(fā)real2sim2real范式,以實(shí)現(xiàn)穩(wěn)健的操控策略學(xué)習(xí)(manipulation policy learning)。

Josiah Wong

圖片

Josiah Wong目前在斯坦福大學(xué)攻讀機(jī)械工程博士學(xué)位,導(dǎo)師是李飛飛,同樣在SVL和PAIR組工作。

此前,他在斯坦福大學(xué)獲得碩士學(xué)位,在加利福尼亞大學(xué)圣迭戈分校獲得學(xué)士學(xué)位。

圖片

他致力于利用仿真技術(shù)來拓展機(jī)器人操作能力,目標(biāo)是推動日常通用機(jī)器人的發(fā)展,從而改善我們的日常生活。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-10-12 12:32:39

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2021-10-15 10:07:04

機(jī)器人人工智能算法

2023-09-02 11:22:50

模型訓(xùn)練

2024-11-01 10:30:00

機(jī)器人模型

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2020-02-27 15:37:03

手機(jī)App竊聽移動應(yīng)用

2023-11-10 15:36:10

2023-08-23 12:33:51

機(jī)器人

2025-04-15 09:15:00

AI機(jī)器人訓(xùn)練

2023-11-10 12:58:00

模型數(shù)據(jù)

2025-02-06 08:45:22

2025-02-06 11:25:50

2024-06-25 09:35:04

模型訓(xùn)練

2021-07-26 17:09:42

AI 數(shù)據(jù)機(jī)器人

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2020-06-09 14:44:18

AI 數(shù)據(jù)人工智能

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2023-12-13 15:15:10

機(jī)器人人工智能GPT-4

2022-12-16 15:46:09

機(jī)器人模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號