自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛「數(shù)字表兄弟」破解機(jī)器人訓(xùn)練難題！零樣本sim2real成功率高達(dá)90%

作者：機(jī)器之心 2024-10-14 14:30:00

人工智能新聞

在用模擬環(huán)境訓(xùn)練機(jī)器人時，所用的數(shù)據(jù)與真實(shí)世界存在著巨大的差異。為此，李飛飛團(tuán)隊(duì)提出「數(shù)字表親」，這種虛擬資產(chǎn)既具備數(shù)字孿生的優(yōu)勢，還能補(bǔ)足泛化能力的不足，并大大降低了成本。

如何有效地將真實(shí)數(shù)據(jù)擴(kuò)展到模擬數(shù)據(jù)，進(jìn)行機(jī)器人學(xué)習(xí)？

最近，李飛飛團(tuán)隊(duì)提出一種「數(shù)字表親」的新方法，可以同時降低真實(shí)到模擬生成的成本，同時提高學(xué)習(xí)的普遍性。

項(xiàng)目主頁：https://digital-cousins.github.io/

論文地址：https://arxiv.org/abs/2410.07408

目前，論文已被CORL2024接收。

你可能會問，什么是「數(shù)字表親」，有啥用呢？

讓我們把它跟數(shù)字孿生比較一下。

的確，數(shù)字孿生可以準(zhǔn)確地對場景進(jìn)行建模，然而它的生成成本實(shí)在太昂貴了，而且還無法提供泛化功能。

而另一方面，數(shù)字表親雖然沒有直接模擬現(xiàn)實(shí)世界的對應(yīng)物，卻仍然能夠捕獲相似的幾何和語義功能。

這樣，它就大大降低了生成類似虛擬環(huán)境的成本，同時通過提供類似訓(xùn)練場景的分布，提高了從模擬到真實(shí)域遷移的魯棒性。

共同一作Tianyuan Dai表示，既然有免費(fèi)的「數(shù)字表親」了，何必再去手工設(shè)計數(shù)字孿生？

亮眼的是，「數(shù)字表親」能同時實(shí)現(xiàn)——

單幅圖像變成交互式場景
全自動（無需注釋）
機(jī)器人策略在原始場景中的零樣本部署

簡單拍一張照片，就能搞定了

模擬數(shù)據(jù)難題：與現(xiàn)實(shí)環(huán)境差異過大

在現(xiàn)實(shí)世界中訓(xùn)練機(jī)器人，存在策略不安全、成本高昂、難以擴(kuò)展等問題；相比之下，模擬數(shù)據(jù)是一種廉價且潛在無限的訓(xùn)練數(shù)據(jù)來源。

然而，模擬數(shù)據(jù)存在一個難以忽視的問題——與現(xiàn)實(shí)環(huán)境之間的語義和物理差異。

這些差異可以通過在數(shù)字孿生中進(jìn)行訓(xùn)練來最小化，但數(shù)字孿生作為真實(shí)場景的虛擬復(fù)制品，同樣成本高昂且無法跨域泛化。

正是為了解決這些限制，論文提出了「數(shù)字表親」（digital cousion）的概念。

「數(shù)字表親」是一種虛擬資產(chǎn)或場景，與數(shù)字孿生不同，它不明確模擬現(xiàn)實(shí)世界的對應(yīng)物，但仍然展現(xiàn)類似的幾何和語義功能。

因此，數(shù)字表親既具備了數(shù)字孿生的優(yōu)勢，能夠補(bǔ)足現(xiàn)實(shí)數(shù)據(jù)的不足，同時降低了生成類似虛擬環(huán)境的成本，并能更好地促進(jìn)跨域泛化。

具體而言，論文引入了一種自動創(chuàng)建數(shù)字表親（Automatic Creation of Digital Cousins，ACDC）的新方法，并提出了一個完全自動化的，從真實(shí)到模擬再到真實(shí)的流程，用于生成交互式場景和訓(xùn)練策略。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，ACDC生成的數(shù)字表親場景能夠保留幾何和語義功能，訓(xùn)練出的策略也優(yōu)于數(shù)字孿生（90% vs. 25%），而且可以通過零樣本學(xué)習(xí)直接部署在原始場景中。

方法概述

與數(shù)字孿生不同，數(shù)字表親并不苛求在所有微小細(xì)節(jié)上都要重建給定場景，而是專注于保留更高級別的細(xì)節(jié)，例如空間關(guān)系和語義。

ACDC是一個完全自動化的端到端流程，從單個RGB圖像生成完全交互式的模擬場景，由三個連續(xù)步驟組成：

信息提?。菏紫?，從輸入的RGB圖像中提取對象信息。
數(shù)字表親匹配：利用第一步提取的信息，結(jié)合預(yù)先準(zhǔn)備的3D模型資產(chǎn)數(shù)據(jù)集，為檢測到的每個對象匹配相應(yīng)的數(shù)字表親。
場景生成：對選擇的數(shù)字表親進(jìn)行后處理并編譯在一起，生成一個物理上合理且完全交互式的模擬場景。

通過這三個步驟，ACDC能夠自動創(chuàng)建與輸入圖像語義相似但不完全相同的虛擬場景，為機(jī)器人策略訓(xùn)練提供多樣化的環(huán)境。

策略學(xué)習(xí)

構(gòu)建了一組數(shù)字表親后，就可以這些環(huán)境中訓(xùn)練機(jī)器人策略。

雖然這種方法適用于多種訓(xùn)練范式，例如強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)，但本文選擇聚焦于于腳本演示（scripted demonstrations）的模仿學(xué)習(xí)，因?yàn)檫@種范式不需要人類演示，與完全自主化的ACDC流程更加適配。

為了能在模擬環(huán)境中自動實(shí)現(xiàn)演示的收集，作者首先實(shí)施了一組基于樣本的技能，包括Open（開）、 Close（關(guān)）、 Pick（拿）和Place（放）四種。

雖然技能的種類數(shù)仍然有限，但已經(jīng)足夠收集各種日常任務(wù)的演示，例如對象重新排列和家具鉸接。

實(shí)驗(yàn)

通過實(shí)驗(yàn)，團(tuán)隊(duì)回答了以下研究問題：

Q1：ACDC能否生成高質(zhì)量的數(shù)字表親場景？給定單張RGB圖像，ACDC能否捕捉原始場景中固有的高級語義和空間細(xì)節(jié)？
Q2：在原始的環(huán)境設(shè)置上評估時，在數(shù)字表親上訓(xùn)練的策略能否匹配數(shù)字孿生的性能？
Q3：在分布外設(shè)置上評估時，在數(shù)字表親上訓(xùn)練的策略是否表現(xiàn)出更強(qiáng)的穩(wěn)健性？
Q4：在數(shù)字表親上訓(xùn)練的策略能否實(shí)現(xiàn)零樣本的sim2real策略遷移？

通過ACDC進(jìn)行場景重建

首先團(tuán)隊(duì)需要論證的最重要的問題，就是ACDC能生成高質(zhì)量的數(shù)字表親場景嗎？

從表格中的數(shù)據(jù)來看，結(jié)果十分令人滿意。

以下是在sim-to-sim場景中對ABCD場景重建進(jìn)行的定量和定性評估。

在sim2sim場景中對ACDC進(jìn)行場景重建的定量和定性評估

評估指標(biāo)包括：

「Scale」：輸入場景中兩個對象邊界框之間的最大距離。
「Cat.」：正確分類對象占場景總對象總數(shù)的比例。
「Mod.」：正確建模對象占場景中對象總數(shù)的比例。
「L2 Dist.」：輸入和重建場景中邊界框中心間歐幾里得距離的均值和標(biāo)準(zhǔn)差。
「Ori. Diff.」：每個中心對稱對象方向幅度差異的均值和標(biāo)準(zhǔn)差。
「Bbox IoU」：資產(chǎn)3D邊界框的交并比（IoU）。

以下是ACDC實(shí)景到模擬場景的重建結(jié)果。

在給定場景中，會顯示多個數(shù)字表親。

ACDC真實(shí)到模擬場景重建結(jié)果的定性評估，展示了為給定場景生成的多個數(shù)字表親

基于這些結(jié)果，研究者可以肯定地回答Q1了——

ACDC確實(shí)能夠保留輸入場景的語義和空間細(xì)節(jié)，從單張RGB圖像生成真實(shí)世界對象的數(shù)字表親，并能準(zhǔn)確定位和縮放以匹配原始場景。

sim2sim的策略學(xué)習(xí)

這部分的實(shí)驗(yàn)主要是為了回答上述研究中的Q2和Q3，在3個任務(wù)上分析ACDC訓(xùn)練策略的能力，包括「開門」、「打開抽屜」和「收起碗」，每項(xiàng)任務(wù)都與數(shù)字孿生設(shè)置進(jìn)行了對比。

不同設(shè)置中的總體成功率如下圖所示。

可以發(fā)現(xiàn)，在數(shù)字表親上訓(xùn)練的策略通?？梢云ヅ?，甚至優(yōu)于數(shù)字孿生的設(shè)置。

作者假設(shè)，由于數(shù)字表親的策略是在不同環(huán)境設(shè)置的數(shù)據(jù)上進(jìn)行訓(xùn)練的，因此可以覆蓋廣泛的狀態(tài)空間，從而很好地推廣到原始數(shù)字孿生設(shè)置。

然而，在另一個極端，針對所有可行資產(chǎn)（All Assets）進(jìn)行訓(xùn)練場的策略要比數(shù)字孿生差得多，這表明樸素的領(lǐng)域隨機(jī)化并不總是有用的。

此外，隨著DINO嵌入距離的增加，即評估設(shè)置與原始設(shè)置的差異逐漸增大，數(shù)字孿生的策略性能通常會出現(xiàn)成比例的顯著下降，但數(shù)字孿生策略整體表現(xiàn)更加穩(wěn)定，證明了在分布外設(shè)置上的魯棒性。

sim2real的策略學(xué)習(xí)

隨后，研究者對數(shù)字孿生和數(shù)字表親策略進(jìn)行了零樣本現(xiàn)實(shí)世界評估。

任務(wù)是給宜家柜子上開門。

評估指標(biāo)就是成功率。

結(jié)果顯示，模擬結(jié)果平均超過50次試驗(yàn)，真實(shí)結(jié)果平均超過20次試驗(yàn)。

real2sim2real的場景生成和策略學(xué)習(xí)

無論是數(shù)字孿生還是數(shù)字表親，最終的落腳點(diǎn)還是要在真實(shí)環(huán)境中對比性能。

因此實(shí)驗(yàn)的最后，團(tuán)隊(duì)在完全真實(shí)（in-the-wild）的廚房場景中端到端地測試了完整的ACDC管道和自動化策略學(xué)習(xí)框架。

在經(jīng)過數(shù)字表親的專門模擬訓(xùn)練后，機(jī)器人可以成功打開廚房櫥柜，證明了ACDC方法遷移到真實(shí)環(huán)境中的有效性。

以下Demo展示了完全自動化的數(shù)字表親生成過程。

左右滑動查看

零樣本的sim2real策略遷移實(shí)驗(yàn)表明，僅從上述生成的四個數(shù)字表親訓(xùn)練的模擬策略，可以直接遷移到相應(yīng)的真實(shí)廚房場景。

基于這些結(jié)果，研究者可以肯定地回答Q2、Q3和Q4了——

使用數(shù)字表親訓(xùn)練的策略，表現(xiàn)出了與在數(shù)字孿生上訓(xùn)練策略相當(dāng)?shù)姆植純?nèi)性能，以及更強(qiáng)的分布外魯棒性，并且可以實(shí)現(xiàn)零樣本從模擬到現(xiàn)實(shí)的策略遷移。

失敗案例

即使ACDC方法表現(xiàn)出了整體上的優(yōu)越性能，研究團(tuán)隊(duì)也在實(shí)驗(yàn)中觀察到了幾個失敗案例，例如：在打開柜子的任務(wù)中，機(jī)器人未能完全移動到把手所在位置——

或者移動時錯過把手——

即使正確找到了把手所在位置，也有可能手滑——

可以觀察到，ACDC經(jīng)常在以下幾種情況下陷入困境：

a. 高頻深度信息

b. 遮擋

c .語義類別差異

d. 缺乏相應(yīng)類別的資產(chǎn)

e. 除「位于頂部」之外的對象關(guān)系

前三個限制，與ACDC的參數(shù)化方式直接相關(guān)。

比如對于(a)，由于ACDC依賴于相對準(zhǔn)確的深度估計，來計算預(yù)測的對象3D邊界框，因此不準(zhǔn)確的深度圖可能會導(dǎo)致ACDC對物體模型的估計相應(yīng)較差。

原生深度傳感器在物體邊界附近可能難以產(chǎn)生準(zhǔn)確的讀數(shù)，這是因?yàn)樯疃葓D在這些區(qū)域可能出現(xiàn)不連續(xù)性。當(dāng)物體具有許多精細(xì)邊界時（例如植物和柵欄），這個問題會變得更加復(fù)雜。

此外，由于研究者依賴現(xiàn)成的基礎(chǔ)模型（DepthAnything-v2）來預(yù)測合成深度圖，因此也承襲了模型自身的一系列限制，例如對特殊物體或在不利的視覺條件下的預(yù)測較差。

結(jié)論

最終，研究者得出了以下結(jié)論。

ACDC是一個全自動化管線，能夠快速生成與單張真實(shí)世界RGB圖像相對應(yīng)的完全交互式數(shù)字表親場景。

研究發(fā)現(xiàn)：

1. 魯棒性

在這些數(shù)字表親設(shè)置上訓(xùn)練的策略，比在數(shù)字孿生上訓(xùn)練的策略表現(xiàn)出更強(qiáng)的魯棒性。

為了進(jìn)一步檢查數(shù)字表親對樸素域隨機(jī)化的相對影響，研究者根據(jù)其他基線在 DoorOpening任務(wù)上重新運(yùn)行了sim2sim實(shí)驗(yàn)

2. 性能對比

領(lǐng)域內(nèi)性能：數(shù)字表親訓(xùn)練的策略與數(shù)字孿生訓(xùn)練的策略相當(dāng)。
領(lǐng)域外泛化：數(shù)字表親訓(xùn)練的策略展現(xiàn)出優(yōu)越的領(lǐng)域外泛化能力。

3. 零樣本學(xué)習(xí)

數(shù)字表親訓(xùn)練的策略能夠?qū)崿F(xiàn)零樣本從模擬到現(xiàn)實(shí)的策略遷移。

作者介紹

Tianyuan Dai

Tianyuan Dai本科畢業(yè)于香港科技大學(xué)，獲得了計算機(jī)科學(xué)和數(shù)學(xué)學(xué)士學(xué)位，目前在斯坦福攻讀碩士學(xué)位，隸屬于斯坦福SVL實(shí)驗(yàn)室（Vision and Learning Lab）和PAIR研究小組（People, AI & Robots Group），由李飛飛指導(dǎo)。

他的長期愿景是將人類對現(xiàn)實(shí)世界環(huán)境的理解融入到機(jī)器人算法中，使用數(shù)據(jù)驅(qū)動的方法幫助人們完成日常任務(wù)；最近研究的重點(diǎn)是開發(fā)real2sim2real范式，以實(shí)現(xiàn)穩(wěn)健的操控策略學(xué)習(xí)（manipulation policy learning）。

Josiah Wong

Josiah Wong目前在斯坦福大學(xué)攻讀機(jī)械工程博士學(xué)位，導(dǎo)師是李飛飛，同樣在SVL和PAIR組工作。

此前，他在斯坦福大學(xué)獲得碩士學(xué)位，在加利福尼亞大學(xué)圣迭戈分校獲得學(xué)士學(xué)位。

他致力于利用仿真技術(shù)來拓展機(jī)器人操作能力，目標(biāo)是推動日常通用機(jī)器人的發(fā)展，從而改善我們的日常生活。

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器人 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="dxlny"></style>

<p id="dxlny"></p>

<sub id="dxlny"></sub>