自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達(dá)開(kāi)源自適應(yīng)多模態(tài)「世界生成」模型!開(kāi)啟機(jī)器人、自動(dòng)駕駛訓(xùn)練革命

人工智能 新聞
Nvidia剛剛發(fā)布了「世界生成」模型Cosmos-Transfer1,可以根據(jù)多種模態(tài)的空間控制輸入(如分割、深度和邊緣)生成世界模擬,使得世界生成具有高度可控性。開(kāi)發(fā)者使用模型能夠創(chuàng)建高度逼真的模擬環(huán)境,用于訓(xùn)練機(jī)器人和自動(dòng)駕駛車(chē)輛。

Nvidia帶著最新「黑科技」模型Cosmos-Transfer1震撼登場(chǎng),可以創(chuàng)建高度逼真的模擬環(huán)境,反向生成「真實(shí)世界」!

Cosmos-Transfer1,是一種自適應(yīng)多模態(tài)世界生成模型??梢愿鶕?jù)多種模態(tài)的空間控制輸入(如分割、深度和邊緣)生成真實(shí)世界模擬。

注意!右邊的場(chǎng)景并非「真實(shí)場(chǎng)景」,而通過(guò)HD Map高清地圖和Lidar雷達(dá)圖實(shí)時(shí)「生成」的!

這種生成能力給未來(lái)數(shù)字世界帶來(lái)太多想象力和可能性!

也有望解決物理AI開(kāi)發(fā)中的一個(gè)長(zhǎng)期挑戰(zhàn):縮小模擬訓(xùn)練環(huán)境與實(shí)際應(yīng)用之間的差距。

真實(shí)物理世界就是以多種模態(tài)被感知的,比如上圖中的四個(gè)模態(tài):RGB Camera、Lidar雷達(dá)圖、Depth深度圖和HD Map高清地圖。

Cosmos Transfer使得高度可控的「世界生成」成為可能,并在各種世界到世界的轉(zhuǎn)換用例中找到應(yīng)用,包括Sim2Real(虛擬模擬世界向現(xiàn)實(shí)世界轉(zhuǎn)換)。

Cosmos Transfer強(qiáng)大的「世界生成」能力

首先通過(guò)基于真實(shí)物理的引擎,如Nvidia Omniverse、Genesis等,生成遵循現(xiàn)實(shí)物理規(guī)律的模擬視頻數(shù)據(jù)。

通過(guò)Cosmos Transfer來(lái)提升模擬數(shù)據(jù)的真實(shí)性和多樣性。

Cosmos Transfer不僅可以通過(guò)單一模態(tài)控制生成,也允許在不同的空間位置對(duì)不同的條件輸入進(jìn)行不同的加權(quán)。

單一模態(tài)控制生成

Cosmos Transfer通過(guò)單一模態(tài)可以生成逼真的現(xiàn)實(shí)場(chǎng)景。

下圖展示了通過(guò)輸入Edge邊緣圖、Depth深度圖、Segmentation分塊圖來(lái)生成諸如自行車(chē)維修車(chē)間、自動(dòng)駕駛場(chǎng)景和真實(shí)機(jī)械臂場(chǎng)景。

下圖展示了通過(guò)輸入Blur Visual模糊場(chǎng)景圖、HD Map高清地圖、Lidar雷達(dá)圖來(lái)生成諸如機(jī)械臂操作、自動(dòng)駕駛場(chǎng)景。

多模態(tài)控制生成

在Cosmos-Transfer1模型設(shè)計(jì)中,空間條件方案是自適應(yīng)和可定制的。它允許在不同的空間位置對(duì)不同的條件輸入進(jìn)行不同的加權(quán)。

通過(guò)輸入HD Map和Lidar雷達(dá)圖,可以生成應(yīng)用于自動(dòng)駕駛訓(xùn)練的真實(shí)視頻。

在多模態(tài)的基礎(chǔ)上,Cosmos Transfer1還引入了Spatiotemporal Control Maps時(shí)空控制權(quán)重圖,控制權(quán)重圖在黑色像素區(qū)域?yàn)?.0,在白色區(qū)域?yàn)?.5,所以在右側(cè)生成的視頻中,權(quán)重高的部分效果更加明顯。

一種輸入,多種可能

除了可以單模態(tài)和多模態(tài)控制生成視頻,Cosmos Transfer1也能生成多種現(xiàn)實(shí)風(fēng)格的內(nèi)容。

比如下圖輸入高清地圖HD Map,可以生成5種不同風(fēng)格的視頻:Night夜景、Foggy大霧天氣、Daytime白天、Snow雪天和Night,Rainy夜晚下雨天。

輸入Lidar雷達(dá)圖,同樣可以生成5種不同風(fēng)格的視頻內(nèi)容。

風(fēng)格變換

同時(shí),Cosmos Transfer可以將生成的視頻內(nèi)容進(jìn)行風(fēng)格變換。

對(duì)生成的視頻風(fēng)格可變換為Modern現(xiàn)代風(fēng)格、Simplistic簡(jiǎn)約風(fēng)和Warm風(fēng)格。

以下是Modern現(xiàn)代風(fēng)格、Bakery風(fēng)和Sci-Fi科幻風(fēng)格。

機(jī)械臂的模擬視頻可生成Factory工廠風(fēng)格、Construction Site建筑場(chǎng)景風(fēng)格和Living Room起居風(fēng)等。

不論是單一模態(tài)、多模態(tài)還是生成各種風(fēng)格的視頻,Cosmos Transfer都表現(xiàn)出不俗的能力。

「世界生成器」Cosmos Transfer1技術(shù)路線(xiàn)

多模態(tài)可控世界生成是指基于分割、深度和邊緣等多模態(tài)視頻輸入生成世界模擬視頻的問(wèn)題。

圖片

Cosmos-Transfer1是一個(gè)具有自適應(yīng)多模態(tài)控制的世界生成器。它包含多個(gè)控制分支,用于從不同的模態(tài)輸入(如分割、深度和邊緣)中提取控制信息。

應(yīng)用時(shí)空控制圖w={w1,w2,…,wN}來(lái)加權(quán)由控制分支計(jì)算出的輸出,然后再將其反饋到主生成分支。

時(shí)空控制圖使模型能夠利用不同區(qū)域中最相關(guān)的模態(tài)以獲得最佳輸出質(zhì)量。

Cosmos-Transfer1訓(xùn)練成果展示

Nvidia第一個(gè)Cosmos-Transfer1的實(shí)現(xiàn)被稱(chēng)為Cosmos-Transfer1-7B。

使用1024個(gè)NVIDIA H100 GPU對(duì)每個(gè)控制分支進(jìn)行2到4周的訓(xùn)練,具體時(shí)間取決于模態(tài)。

以上展示使用相同提示在各個(gè)單獨(dú)模態(tài)(Vis、Edge、Depth、Seg)設(shè)置下,Cosmos-Transfer1-7B的生成視頻效果。

  • Cosmos-Transfer1-7B [Vis] 在保持顏色和整體構(gòu)圖的同時(shí),改變了紋理細(xì)節(jié)。
  • Cosmos-Transfer1-7B [Edge]在改變顏色的同時(shí)保持了物體邊界。
  • Cosmos-Transfer1-7B [Depth]保持了場(chǎng)景幾何結(jié)構(gòu)。
  • Cosmos-Transfer1-7B [Seg]保持了場(chǎng)景語(yǔ)義。

Cosmos-Transfer1-7B-Sample-AV是特別為自動(dòng)駕駛設(shè)計(jì)的模型。

圖片

  • Cosmos-Transfer1-7B-Sample-AV [HDMap] 保留了駕駛場(chǎng)景的原始道路布局。
  • Cosmos-Transfer1-7B-Sample-AV [LiDAR] 保留了輸入的語(yǔ)義細(xì)節(jié)。

最后,Nvidia還訓(xùn)練了一個(gè)Upscale ControlNet,將生成的視頻從 720p 提升到 4k 分辨率。

在下圖中展示了4K Upscaler的例子,4K Upscaler版本稱(chēng)為Cosmos-Transfer1-7B-4KUpscaler。

圖片

Cosmos-Transfer1-7B-4KUpscaler將視頻從720p提升到4k分辨率!

效果評(píng)估

為了評(píng)估Cosmos-Transfer1的特性,Nvidia精心策劃了TransferBench——一個(gè)包含600個(gè)示例的評(píng)估數(shù)據(jù)集。

首先是單模態(tài)和多模態(tài)的對(duì)比。

對(duì)各種Cosmos-Transfer1配置在TransferBench上的定量評(píng)估,考慮所有模態(tài)的模型獲得了最高的Quality Score。

圖片

其次,對(duì)不同模式(Vis、Edge、Depth 和Seg)的考慮不同的權(quán)重進(jìn)行研究。

控制權(quán)重在黑色像素區(qū)域?yàn)?0.0 ,在白色區(qū)域?yàn)?0.5 。

注意到,雖然標(biāo)題大致指定了一個(gè)自行車(chē)修理店的場(chǎng)景,但由于這些像素受到 Vis 和 Edge 的控制,藍(lán)色襯衫上的白色標(biāo)志和男子的膚色保持不變。

另一方面,對(duì)于由 Depth 和分割控制的背景,物體在場(chǎng)景中的位置保持一致,但其顏色和紋理被隨機(jī)化(例如紅色工具箱、黃色三腳架、白色修理架)。模型還在右側(cè)墻上添加了一個(gè)新的工具架。

另一個(gè)例子是Cosmos-Transfer1在機(jī)器人數(shù)據(jù)生成中的示例結(jié)果。

左列顯示由NVIDIA Lab生成的基于物理引擎的虛擬輸入視頻,而右邊三列則展示了使用不同提示詞在單模態(tài)和多模態(tài)控制下的Cosmos-Transfer1-7B生成結(jié)果。

Nivdia Cosmos平臺(tái)

NVIDIA Cosmos 是一個(gè)以開(kāi)發(fā)者為先的世界基礎(chǔ)模型平臺(tái),旨在幫助物理人工智能開(kāi)發(fā)者更快更好地構(gòu)建他們的物理人工智能系統(tǒng)。Cosmos 包含:

  1. 預(yù)訓(xùn)練模型(可通過(guò)Hugging Face獲?。?,這些模型在 NVIDIA 開(kāi)放模型許可下允許免費(fèi)商業(yè)使用。
  2. 在Apache 2許可下的訓(xùn)練腳本,用于對(duì)各種下游物理 AI 應(yīng)用的模型進(jìn)行后訓(xùn)練。

Cosmos-Transfer1模型可通過(guò)Hugging Face獲取。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2013-11-12 10:37:20

開(kāi)源自動(dòng)導(dǎo)航藍(lán)牙機(jī)器人

2019-12-18 16:17:56

自動(dòng)駕駛數(shù)據(jù)人工智能

2024-11-25 08:20:00

2023-10-24 09:53:56

自動(dòng)駕駛模型

2024-12-18 18:57:58

2024-09-02 10:00:00

機(jī)器人開(kāi)源

2022-04-25 15:13:03

自動(dòng)駕駛傳感器

2024-03-12 09:24:38

智能駕駛

2023-12-04 09:33:00

自動(dòng)駕駛視覺(jué)

2024-03-11 10:08:12

駕駛模型

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2022-02-25 10:56:08

自動(dòng)駕駛傳感器技術(shù)

2024-01-29 09:40:00

AI訓(xùn)練

2025-03-11 09:35:00

2024-11-22 14:24:24

機(jī)器人AI

2023-10-18 09:36:35

2024-06-19 13:02:01

2021-11-16 09:49:36

集度歐菲光百度

2024-10-24 23:35:54

2021-12-24 10:00:19

自動(dòng)駕駛數(shù)據(jù)汽車(chē)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)