自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="mhs1z"></pre>

<sub id="mhs1z"><i id="mhs1z"></i></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛：不要數(shù)字孿生，要數(shù)字表兄弟，一張照片生成機器人訓(xùn)練場景

作者：機器之心 2024-10-12 12:32:39

人工智能新聞

作為一種全自動管道，ACDC 用于快速生成與單個現(xiàn)實世界 RGB 圖像相對應(yīng)的完全交互式數(shù)字表親場景。

我們很多人都聽說過數(shù)字孿生（digital twin），在英偉達等公司的大力推動下，這種高效運營工作流程的方法已經(jīng)在很多工業(yè)場景中得到應(yīng)用。

但你聽說過數(shù)字表親（digital cousin）嗎？

近日，斯坦福大學(xué)李飛飛團隊就做出了一個這樣的研究，其可有效地將真實數(shù)據(jù)變成適用于機器人學(xué)習(xí)的模擬數(shù)據(jù) —— 在降低真實轉(zhuǎn)模擬成本的同時還能提升學(xué)習(xí)的泛化性能。

簡單來說，你只需拍一張照片，就能將照片中的物體變成虛擬版本，并且這個數(shù)字虛擬版本還不是照片中物體的一比一復(fù)刻，而是存在一定的變化。

我們知道，在真實世界中訓(xùn)練機器人并不安全，而且成本很高，難以大規(guī)模擴展。這就是模擬的用武之地，其成本低，并且可以源源不斷地獲取訓(xùn)練數(shù)據(jù)。但是，模擬的問題也很明顯，模擬環(huán)境和真實環(huán)境總歸不一樣，存在含義和物理機制上的差異。

為了解決這種差異，數(shù)字孿生的概念誕生了。簡單來說，數(shù)字孿生就是為真實場景構(gòu)建一個虛擬副本，但其成本很高，并且難以實現(xiàn)跨域泛化。

為了解決這些局限，李飛飛團隊提出了數(shù)字表親（digital cousin）的概念。不同于數(shù)字孿生，數(shù)字表親并不是真實物體的虛擬對應(yīng)，而只是具有相似的幾何和語義特質(zhì)和屬性。

論文標(biāo)題：ACDC: Automated Creation of Digital Cousins for Robust Policy Learning
論文鏈接：https://arxiv.org/abs/2410.07408
項目地址：https://digital-cousins.github.io/

如此一來，數(shù)字表親既能降低生成相似的虛擬環(huán)境的成本，還能通過提供相似訓(xùn)練場景的分布而實現(xiàn)更好的跨域泛化?；跀?shù)字表親，該團隊提出了一種用于自動創(chuàng)建數(shù)字表親的全新方法，該方法就叫做自動數(shù)字表親創(chuàng)建（Automatic Creation of Digital Cousins），簡稱 ACDC。

他們還提出了一種全自動的「真實→虛擬→真實」流程，可用于生成完全可交互的場景以及訓(xùn)練可以零樣本方式部署在原始場景中的機器人策略。

結(jié)果表明，ACDC 得到的數(shù)字表親可以成功保留幾何與語義特質(zhì)和屬性，同時訓(xùn)練得到的機器人策略也優(yōu)于使用數(shù)字孿生得到的策略：在零樣本虛擬→真實遷移條件下，能以 90% 的成功率勝過數(shù)字孿生的 25%。

方法概述

ACDC 由三個連續(xù)步驟構(gòu)成：

首先，從輸入的 RGB 圖像中提取出每個物體的相關(guān)信息。
接下來，基于一個資產(chǎn)數(shù)據(jù)集，使用該信息來為每個檢測到的輸入物體匹配數(shù)字表親。
最后，對選取的數(shù)字表親進行后處理，生成一個完全可交互的模擬場景。

實驗

該團隊進行一系列實驗，試圖解答以下研究問題：

問題 1：ACDC 能否得到高質(zhì)量的數(shù)字表親場景？給定一張 RGB 圖像，ACDC 能否捕獲原始場景中固有的高層級語義和空間細(xì)節(jié)？

問題 2：當(dāng)在原始設(shè)置上進行評估時，基于數(shù)字表親訓(xùn)練得到的策略能否與基于數(shù)字孿生得到的策略相媲美？

問題 3：相比于基于數(shù)字孿生訓(xùn)練得到的策略，基于數(shù)字表親訓(xùn)練得到的策略是否更加穩(wěn)健

問題 4：基于數(shù)字表親訓(xùn)練得到的策略能否實現(xiàn)零樣本「虛擬→真實」策略遷移

通過 ACDC 進行場景重建

在模擬 - 模擬場景中，ACDC 對場景重建進行定量和定性評估。

其中，「Scale」是輸入場景中兩個物體的邊界框之間的最大距離。「Cat.」表示正確分類的物體與場景中物體總數(shù)的比例?！窶od.」顯示正確建模的物體與場景中物體總數(shù)的比例?！窵2 Dist.」提供輸入和重建場景中邊界框中心之間的歐幾里得距離的平均值和標(biāo)準(zhǔn)差?！窸ri. Diff.」表示每個中心對稱物體的方向幅度差異的平均值和標(biāo)準(zhǔn)差。「Bbox IoU」表示資產(chǎn) 3D 邊界框的交并比 (IoU)。

定性 ACDC 真實 - 模擬場景重建結(jié)果。針對給定場景顯示多個表親。

基于這些結(jié)果，我們可以放心地回答問題 1：ACDC 確實可以保留輸入場景的語義和空間細(xì)節(jié)，從單個 RGB 圖像生成現(xiàn)實世界對象的表親，這些表親可以準(zhǔn)確定位和擴展，以匹配原始場景。

使用數(shù)字表親進行模擬 - 模擬策略學(xué)習(xí)

模擬-模擬策略結(jié)果。

在精確孿生、不同數(shù)量的表親和三個最近類別的所有資產(chǎn)上訓(xùn)練的策略的匯總成功率。策略在四種設(shè)置上進行測試：精確數(shù)字孿生和三種越來越不相似的設(shè)置（以 DINOv2 嵌入距離為衡量標(biāo)準(zhǔn)）以探測零樣本泛化。請注意，對于任務(wù) 3，使任務(wù)可行的櫥柜模型要少得多，因此這里僅比較數(shù)字孿生和 8 個表親的策略。

使用數(shù)字表親進行模擬-真實策略學(xué)習(xí)

數(shù)字孿生與數(shù)字表親策略的零樣本真實世界評估。任務(wù)是打開宜家櫥柜的門，衡量標(biāo)準(zhǔn)是成功率：模擬 / 真實結(jié)果在 50/20 次試驗中取平均值。

真實-模擬-真實的場景生成和策略學(xué)習(xí)

全自動數(shù)字表親生成。ACDC 的無剪切視頻完全自動執(zhí)行，為真實廚房場景生成了多個數(shù)字表親。ACDC 步驟 1 末尾的軸對齊邊界框無需加速即可做到可視化。

零樣本模擬到真實世界策略遷移。專門從上面生成的四個數(shù)字表親訓(xùn)練的模擬策略，我們可以零樣本遷移到相應(yīng)的真實廚房場景。

基于這些結(jié)果，我們可以放心地回答問題 2、3、4：與在數(shù)字孿生上訓(xùn)練的策略相比，使用數(shù)字表親訓(xùn)練的策略表現(xiàn)出相當(dāng)?shù)姆植純?nèi)性能和更穩(wěn)健的分布外性能，并且可以實現(xiàn)零樣本模擬到真實策略遷移。

一些失敗的案例。

結(jié)論

作為一種全自動管道，ACDC 用于快速生成與單個現(xiàn)實世界 RGB 圖像相對應(yīng)的完全交互式數(shù)字表親場景。我們可以發(fā)現(xiàn)，利用這些數(shù)字表親訓(xùn)練的策略比在數(shù)字孿生上訓(xùn)練的策略更穩(wěn)健，具有可媲美的域內(nèi)性能和卓越的域外泛化能力，同時也支持零樣本模擬到現(xiàn)實的策略轉(zhuǎn)移。

責(zé)任編輯：張燕妮來源：機器之心

AI 數(shù)據(jù)訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="2sorm"><p id="2sorm"></p></blockquote>