英偉達(dá)「世界基礎(chǔ)模型」誕生,引爆物理AI革命!75頁報(bào)告出爐,GitHub狂飆2k星
CES大會(huì)上,老黃稱,「AI下一個(gè)前沿就是物理AI」。
為此,英偉達(dá)重磅官宣了世界基礎(chǔ)模型開發(fā)平臺(tái)——Cosmos,其模型基于在200萬小時(shí)視頻上完成訓(xùn)練。
它一共包含了四大功能模塊:擴(kuò)散模型、自回歸模型、視頻分詞器,以及視頻處理與編輯流程。
圖片
用英偉達(dá)高級(jí)科學(xué)家Jim Fan的話來總結(jié):
- 兩種形式:擴(kuò)散模型(生成連續(xù)的token);自回歸模型(生成離散的token)
- 兩種生成模式:文本->視頻;文本+視頻->視頻
圖片
Cosmos誕生就是為了拯救物理AI數(shù)據(jù)不夠的問題!現(xiàn)如今,開發(fā)者們可以直接生成合成數(shù)據(jù),將其用于自動(dòng)駕駛和機(jī)器人研究中。
它一共包含了三種規(guī)格的模型:Nano、Super、Ultra。
與VideoLDM基準(zhǔn)相比,Cosmos世界模型在幾何準(zhǔn)確性方面表現(xiàn)更優(yōu),而且在視覺一致性方面持續(xù)超越VLDM,姿態(tài)估計(jì)成功率最高飆升14倍。
圖片
圖片
GitHub項(xiàng)目?jī)H開源不到一天的時(shí)間,星標(biāo)飆升至2k。
與此同時(shí),關(guān)于Cosmos 75頁最詳細(xì)的技術(shù)報(bào)告也發(fā)布了。
圖片
開源項(xiàng)目:https://github.com/NVIDIA/Cosmos
圖片
論文地址:https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai
Cosmos,定制世界模型
本文介紹了Cosmos世界基礎(chǔ)模型平臺(tái),旨在幫助開發(fā)者構(gòu)建定制化的世界模型。
在預(yù)訓(xùn)練中,研究者利用大規(guī)模的視頻數(shù)據(jù)集,讓模型接觸到多樣化的視覺數(shù)據(jù),訓(xùn)練一個(gè)通用型模型。預(yù)訓(xùn)練的Cosmos世界基礎(chǔ)模型(WFM)能夠生成高質(zhì)量、具有一致性的3D視頻。
在后訓(xùn)練中,研究者從特定環(huán)境收集數(shù)據(jù)集,對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),從而得到適用于特定目標(biāo)的專用WFM。
圖片
預(yù)訓(xùn)練的世界基礎(chǔ)模型(WFM)是通用的世界模型,通過大規(guī)模、多樣化的視頻數(shù)據(jù)集進(jìn)行訓(xùn)練。后訓(xùn)練的數(shù)據(jù)集是從目標(biāo)環(huán)境中收集的提示-視頻對(duì)。提示可以是動(dòng)作指令、軌跡、說明等形式。
預(yù)訓(xùn)練和后訓(xùn)練相結(jié)合策略為構(gòu)建物理AI系統(tǒng)提供了一種高效的方法。由于預(yù)訓(xùn)練WFM提供了良好的基礎(chǔ),后訓(xùn)練的數(shù)據(jù)集可以相對(duì)較小。
圖片
世界基礎(chǔ)模型平臺(tái)
設(shè)??_0:??為從時(shí)間0到??的真實(shí)世界視覺觀測(cè)序列。
設(shè)??為對(duì)世界的擾動(dòng)。如圖3所示,WFM是一種模型??,它根據(jù)過去的觀測(cè)??_0:??和當(dāng)前擾動(dòng)????,預(yù)測(cè)時(shí)間??+1的未來觀測(cè)值。
在本案例中,??_0:??是一個(gè)RGB視頻(即彩色圖像視頻),而????是可以采取多種形式的擾動(dòng)。例如,物理AI的動(dòng)作、隨機(jī)擾動(dòng)或描述擾動(dòng)的文本等。
世界基礎(chǔ)模型(WFM)??是一種模型,它根據(jù)過去的觀測(cè)??_0:??和當(dāng)前擾動(dòng)????生成世界的未來狀態(tài)??_??+1
視頻編輯
研究者開發(fā)了一條可擴(kuò)展的視頻數(shù)據(jù)編輯流程。
其中,每段視頻被分割為無場(chǎng)景變化的獨(dú)立鏡頭。通過過濾步驟定位高質(zhì)量、動(dòng)態(tài)且信息豐富的片段用于訓(xùn)練。
這些高質(zhì)量鏡頭隨后通過VLM(視覺語言模型)進(jìn)行標(biāo)注。接著執(zhí)行語義去重,以構(gòu)建一個(gè)多樣但緊湊的數(shù)據(jù)集。
視頻分詞
研究者開發(fā)了一系列具有不同壓縮比的視頻分詞器。這些分詞器是因果性的(即當(dāng)前幀的token計(jì)算不依賴未來幀)。
這種因果性設(shè)計(jì)帶來了多個(gè)好處。在訓(xùn)練方面,它使得聯(lián)合圖像和視頻訓(xùn)練成為可能,因?yàn)楫?dāng)輸入為單張圖像時(shí),因果性視頻分詞器也可以作為圖像分詞器。
這對(duì)于視頻模型利用圖像數(shù)據(jù)集進(jìn)行訓(xùn)練非常重要,因?yàn)閳D像數(shù)據(jù)集包含豐富的世界外觀信息,且通常更加多樣化。
在應(yīng)用方面,因果性視頻分詞器更適合生活在因果世界中的物理AI系統(tǒng)。
WFM預(yù)訓(xùn)練
研究者探索了兩種可擴(kuò)展的預(yù)訓(xùn)練世界基礎(chǔ)模型的方法——擴(kuò)散模型和自回歸模型。他們使用了Transformer架構(gòu),以實(shí)現(xiàn)可擴(kuò)展性。
對(duì)于基于擴(kuò)散的WFM,預(yù)訓(xùn)練包括兩個(gè)步驟:
1. 文本到世界生成預(yù)訓(xùn)練(Text2World generation pre-training)
2. 視頻到世界生成預(yù)訓(xùn)練(Video2World generation pre-training)
具體來說,他們訓(xùn)練了模型根據(jù)輸入的文本提示詞生成一個(gè)視頻世界。然后對(duì)其進(jìn)行微調(diào),使其能夠根據(jù)過去的視頻和輸入的文本提示詞生成未來的視頻世界,這被稱為視頻到世界生成任務(wù)(Video2World generation task)。
對(duì)于基于自回歸的 WFM,預(yù)訓(xùn)練包括兩個(gè)步驟:
1. 基本的下一個(gè)token生成(vanilla next token generation)
2. 文本條件的視頻到世界生成(text-conditioned Video2World generation)
他們首先訓(xùn)練模型根據(jù)過去的視頻輸入生成未來的視頻世界(前瞻生成)。然后對(duì)其進(jìn)行微調(diào),使其能夠根據(jù)過去的視頻和文本提示詞生成未來的視頻世界。
視頻到世界生成模型是一種基于當(dāng)前觀測(cè)和提示詞預(yù)測(cè)未來的預(yù)訓(xùn)練世界模型。
對(duì)于擴(kuò)散模型和自回歸模型的WFM,研究者構(gòu)建了一系列具有不同容量的模型,并研究了其在各種下游應(yīng)用中的有效性。
他們進(jìn)一步微調(diào)了預(yù)訓(xùn)練的擴(kuò)散WFM,以開發(fā)一個(gè)擴(kuò)散解碼器來增強(qiáng)自回歸模型的生成結(jié)果。
為了更好地控制WFM,他們還基于LLM構(gòu)建了一個(gè)提示詞上采樣器。
WFM后訓(xùn)練
團(tuán)隊(duì)展示了預(yù)訓(xùn)練WFM在多個(gè)下游物理AI應(yīng)用中的應(yīng)用。
他們將預(yù)訓(xùn)練的WFM微調(diào)為以相機(jī)姿態(tài)作為輸入提示詞,這讓他們能夠在創(chuàng)建的世界中自由導(dǎo)航。此外他們還展示了如何微調(diào)預(yù)訓(xùn)練的WFM,以用于人形機(jī)器人和自動(dòng)駕駛?cè)蝿?wù)。
安全機(jī)制
為了安全使用開發(fā)的世界基礎(chǔ)模型,研究者開發(fā)了一個(gè)安全機(jī)制,用于阻止有害的輸入和輸出。
圖片
Cosmos世界基礎(chǔ)模型平臺(tái)由幾個(gè)主要組件組成:視頻編輯器、視頻分詞器、預(yù)訓(xùn)練的世界基礎(chǔ)模型、世界基礎(chǔ)模型后訓(xùn)練樣本,以及安全機(jī)制
他們相信,WFM對(duì)物理AI構(gòu)建者有多種用途,包括(但不限于):
策略評(píng)估
與其通過在真實(shí)世界中運(yùn)行物理AI系統(tǒng)來評(píng)估訓(xùn)練后的策略,不如讓物理AI系統(tǒng)的數(shù)字副本與世界基礎(chǔ)模型交互?;赪FM的評(píng)估更加經(jīng)濟(jì)高效且節(jié)省時(shí)間。
通過WFM,構(gòu)建者可以在未見過的環(huán)境中部署策略模型,這些環(huán)境在現(xiàn)實(shí)中可能無法獲得。WFM幫助開發(fā)者快速排除不合格的策略,聚焦于潛力更大的策略。
策略初始化
策略模型根據(jù)當(dāng)前觀測(cè)和給定任務(wù),生成物理AI系統(tǒng)需要執(zhí)行的動(dòng)作。建模世界動(dòng)態(tài)模式的高質(zhì)量WFM,可以作為策略模型的良好初始化。
這有助于解決物理AI中的數(shù)據(jù)稀缺問題。
策略訓(xùn)練
在強(qiáng)化學(xué)習(xí)設(shè)置中,WFM與獎(jiǎng)勵(lì)模型配對(duì),可以作為物理世界的代理,為策略模型提供反饋。智能體通過與WFM的交互,逐步掌握解決任務(wù)的能力。
規(guī)劃或模型預(yù)測(cè)控制
WFM可用于模擬物理AI系統(tǒng)在執(zhí)行不同動(dòng)作序列后,可能出現(xiàn)的未來狀態(tài),然后通過成本/獎(jiǎng)勵(lì)模塊量化這些不同動(dòng)作序列的表現(xiàn)。
物理AI可以根據(jù)整體模擬結(jié)果執(zhí)行最佳動(dòng)作序列(如在規(guī)劃算法中),或以遞歸視界的方式執(zhí)行(如在模型預(yù)測(cè)控制中)。
世界模型的準(zhǔn)確性決定了這些決策策略的性能上限。
合成數(shù)據(jù)生成
WFM不僅可用于生成用于訓(xùn)練的合成數(shù)據(jù),還可以微調(diào)為基于渲染元數(shù)據(jù)(如深度圖或語義圖)進(jìn)行條件生成。條件 WFM可用于Sim2Rea 場(chǎng)景。
數(shù)據(jù)編輯
研究者提出了一種視頻處理流程,用于為分詞器和WFM生成高質(zhì)量訓(xùn)練數(shù)據(jù)集。
如下圖所示,流程包括5個(gè)主要步驟:1)分割,2)過濾,3)標(biāo)注,4)去重,以及5)分片。
這些步驟均經(jīng)過專門的優(yōu)化,從而提高數(shù)據(jù)質(zhì)量并滿足模型訓(xùn)練的需求。
圖片
預(yù)訓(xùn)練數(shù)據(jù)集
研究者積累了大約2000萬小時(shí)的原始視頻,分辨率從720p到4k不等,并為預(yù)訓(xùn)練生成了大約10^8個(gè)視頻片段,為微調(diào)生成了大約10^7個(gè)視頻片段。
其中,涵蓋了各種物理AI應(yīng)用,并將訓(xùn)練視頻數(shù)據(jù)集劃分為以下類別:
- 駕駛(11%)
- 手部動(dòng)作和物體操作(16%)
- 人體動(dòng)作和活動(dòng)(10%)
- 空間意識(shí)和導(dǎo)航(16%)
- 第一人稱視角(8%)
- 自然動(dòng)態(tài)(20%)
- 動(dòng)態(tài)相機(jī)運(yùn)動(dòng)(8%)
- 合成渲染(4%)
- 其他(7%)
Tokenizer(分詞器)
分詞器是大模型的基礎(chǔ)構(gòu)建模塊,它通過學(xué)習(xí)瓶頸式的潛空間,以無監(jiān)督方式將原始數(shù)據(jù)轉(zhuǎn)換為更高效的表示形式。
下圖以示意圖形式展示了分詞訓(xùn)練流程,其目標(biāo)是訓(xùn)練編碼器和解碼器,使瓶頸式token表示能夠最大程度保留輸入的視覺信息。
圖片
視頻分詞流程:輸入視頻被編碼為token,解碼器隨后從這些token中重建輸入視頻。分詞器的訓(xùn)練目標(biāo)是學(xué)習(xí)編碼器和解碼器,盡可能保留token中的視覺信息
連續(xù)分詞器將視覺數(shù)據(jù)編碼為連續(xù)的潛嵌入,并用于通過從連續(xù)分布中采樣生成數(shù)據(jù)的模型。
離散分詞器將視覺數(shù)據(jù)編碼為離散的潛代碼,并將其映射為量化索引。這種離散表示對(duì)于使用交叉熵?fù)p失訓(xùn)練的模型(如GPT)是必要的。
分詞器的成功很大程度上取決于其在不損害后續(xù)視覺重建質(zhì)量的情況下提供高壓縮率的能力。
在此,研究者提出了一套視覺分詞器——包括用于圖像和視頻的連續(xù)和離散分詞器。它們可以提供卓越的視覺重建質(zhì)量和推理效率,并支持多種壓縮率,以適應(yīng)不同的計(jì)算限制和應(yīng)用需求。
圖片
連續(xù)和離散分詞器的可視化:(左)連續(xù)潛嵌入,嵌入大小為C;(右)量化索引,每種顏色代表一個(gè)離散的潛編碼
具體來說,Cosmos分詞器采用輕量化且計(jì)算高效的架構(gòu),并結(jié)合時(shí)間因果機(jī)制。
通過使用因果時(shí)間卷積層和因果時(shí)間注意力層,可以保留視頻幀的自然時(shí)間順序,從而通過單一統(tǒng)一的網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)圖像和視頻的無縫分詞。
通過在高分辨率圖像和長(zhǎng)時(shí)視頻上直接訓(xùn)練分詞器,可以不受類別或?qū)捀弑鹊南拗?,包?:1、3:4、4:3、9:16和16:9等。
在推理階段,它對(duì)時(shí)間長(zhǎng)度不敏感,能夠處理超出訓(xùn)練時(shí)時(shí)間長(zhǎng)度的視頻分詞。
不同視覺分詞器及其功能的比較
評(píng)估結(jié)果表明,Cosmos分詞器在性能上顯著超越了現(xiàn)有分詞器——不僅質(zhì)量更高,而且運(yùn)行速度最高可快12 倍。
此外,它還可以在單塊NVIDIA A100 GPU(80GB顯存)上一次性編碼長(zhǎng)達(dá)8秒的1080p視頻和10秒的720p視頻,且不會(huì)耗盡內(nèi)存。
圖片
連續(xù)分詞器(左)和離散分詞器(右)在時(shí)空壓縮率(對(duì)數(shù)刻度)與重建質(zhì)量(PSNR)上的比較。每個(gè)實(shí)心點(diǎn)表示一種分詞器配置,展示了壓縮率與質(zhì)量之間的權(quán)衡關(guān)系
世界基礎(chǔ)模型預(yù)訓(xùn)練
研究者利用兩種不同的深度學(xué)習(xí)范式——擴(kuò)散模型和自回歸模型——來構(gòu)建兩類WFM。
本文中所有WFM模型都是在一個(gè)包含10,000個(gè)NVIDIA H100 GPU的集群上訓(xùn)練的,訓(xùn)練周期為三個(gè)月。
基于擴(kuò)散模型和自回歸模型的世界基礎(chǔ)模型(WFM)
自回歸世界基礎(chǔ)模型生成的視頻
研究者展示了如何將Cosmos WFM進(jìn)行微調(diào),以支持多種場(chǎng)景,包括3D視覺導(dǎo)航,讓不同的機(jī)器人執(zhí)行任務(wù),以及自動(dòng)駕駛。
世界基礎(chǔ)模型后訓(xùn)練
用于機(jī)器人的WFM后訓(xùn)練
世界模型具有支持機(jī)器人操作的強(qiáng)大潛力,這里展示了兩個(gè)任務(wù):(1)基于指令的視頻預(yù)測(cè),(2)基于動(dòng)作的下一幀預(yù)測(cè)。
對(duì)于基于指令的視頻預(yù)測(cè),輸入是機(jī)器人當(dāng)前視頻幀以及文本指令,輸出是預(yù)測(cè)的視頻?;趧?dòng)作的下一幀預(yù)測(cè),輸入是機(jī)器人的當(dāng)前視頻幀以及當(dāng)前幀與下一幀之間的動(dòng)作向量,輸出是預(yù)測(cè)的下一幀,展示機(jī)器人執(zhí)行指定動(dòng)作的結(jié)果。
對(duì)于基于指令的視頻預(yù)測(cè),研究者創(chuàng)建了一個(gè)名為Cosmos-1X的數(shù)據(jù)集。該數(shù)據(jù)集包含大約200小時(shí)的由EVE(1x.Tech公司的一款人形機(jī)器人)捕捉的第一視角視頻,包括導(dǎo)航、折疊衣物、清潔桌面、拾取物體等。
對(duì)于基于動(dòng)作的下一幀生成,團(tuán)隊(duì)使用了一個(gè)名為Bridge的公開數(shù)據(jù)集。Bridge數(shù)據(jù)集包括大約20,000個(gè)第三人稱視角的視頻,展示了機(jī)器人手臂在廚房環(huán)境中執(zhí)行不同任務(wù)的過程。
用于自動(dòng)駕駛的后訓(xùn)練
研究者展示了如何對(duì)預(yù)訓(xùn)練的WFM進(jìn)行微調(diào),從而創(chuàng)建一個(gè)適用于自動(dòng)駕駛?cè)蝿?wù)的多視角世界模型。
研究者策劃了一個(gè)內(nèi)部數(shù)據(jù)集,稱為真實(shí)駕駛場(chǎng)景(RDS)數(shù)據(jù)集。該數(shù)據(jù)集包含大約360萬個(gè)20秒的環(huán)視視頻片段,這些視頻是通過英偉達(dá)的內(nèi)部駕駛平臺(tái)錄制的。
研究者使用RDS數(shù)據(jù)集對(duì)Cosmos-1.0-Diffusion-7B-Text2World進(jìn)行微調(diào),打造出一個(gè)多視角的世界模型。
Cosmos-1.0-Diffusion-7B-Text2World-Sample-MultiVie
一些演示
從GitHub主頁中,我們能夠看到Cosmos家族的所有模型系列:擴(kuò)散模型和自回歸模型各4個(gè)。
圖片
擴(kuò)散模型7B和14B(Text2World)根據(jù)同一提示,生成效果如下:
圖片
擴(kuò)散模型7B和14B(Video2World)根據(jù)同一提示,生成效果如下:
圖片
自回歸模型4B和12B生成效果如下:
圖片
自回歸模型5B和13B根據(jù)同一提示,生成效果如下:
圖片
此外,后訓(xùn)練世界基礎(chǔ)模型還能實(shí)現(xiàn)「相機(jī)控制」,如下機(jī)器人在車廠的生成視頻中,通過移動(dòng)能夠看到四周環(huán)境全貌。
圖片
提示:這段視頻展示了一座先進(jìn)的制造設(shè)施,其中多臺(tái)機(jī)器人手臂協(xié)同工作。這些機(jī)器人配備了特殊的抓取裝置,正在中央平臺(tái)上處理和組裝組件。環(huán)境干凈且井然有序,背景中可以看到各種機(jī)械和設(shè)備。整個(gè)機(jī)器人系統(tǒng)高度自動(dòng)化,體現(xiàn)了高科技的生產(chǎn)流程。
更驚喜的是,Cosmos還能根據(jù)提示,生成出各種機(jī)器人在不同環(huán)境中的預(yù)測(cè)場(chǎng)景。比如,把書放在書架上,煮咖啡、分揀物品......
也就是說,以后機(jī)器人的模擬訓(xùn)練,直接在物理世界就能實(shí)操了!
圖片
還有針對(duì)自動(dòng)駕駛場(chǎng)景,Cosmos進(jìn)行的多視圖視頻生成。
要知道,以下這些場(chǎng)景是完全不存在的。
圖片
有網(wǎng)友調(diào)侃道,我們一定生活在模擬世界中,99%情況下是由英偉達(dá)撐著這個(gè)系統(tǒng)。
圖片
物理AI,不能沒有WFM
為什么說世界模型,對(duì)于物理AI的實(shí)現(xiàn)非常關(guān)鍵?
圖片
老黃在大會(huì)上,從大模型工作原理生動(dòng)地闡釋了世界模型的重要性——
大模型通常是根據(jù)提示一次生成一個(gè)token,但也僅限內(nèi)容token的輸出。若要實(shí)現(xiàn)從「內(nèi)容token」轉(zhuǎn)向「動(dòng)作token」的輸出,語言模型早已無法滿足。
圖片
我們需要的是,一個(gè)能夠理解物理世界的模型,簡(jiǎn)之WFM。
昨天,英偉達(dá)研究副總Ming-Yu Liu在最新播客中同樣表示,WFM是一種能夠模擬物理世界的強(qiáng)大神級(jí)網(wǎng)絡(luò)。
它可以從文本/圖像輸入數(shù)據(jù),生成詳細(xì)的視頻,并通過將其的當(dāng)前狀態(tài)(圖像/視頻)與動(dòng)作(提示/控制信號(hào))相結(jié)合來預(yù)測(cè)場(chǎng)景的演變。
WFM能夠想象許多不同的環(huán)境,并可以模擬未來,幫助物理AI開發(fā)者做出更好的決策。
圖片
另一方面,構(gòu)建世界模型通常需要大量的數(shù)據(jù)集。
數(shù)據(jù)收集不僅耗時(shí),成本也高,WFM便可以生成合成數(shù)據(jù),從而增強(qiáng)訓(xùn)練的過程。
此外,物理測(cè)試風(fēng)險(xiǎn)巨大,比如一臺(tái)價(jià)值數(shù)十萬美元的機(jī)器人原型的任何失誤都可能帶來重大損失。
有了WFM模擬的3D環(huán)境,研究者就可以在受控環(huán)境中訓(xùn)練和測(cè)試物理AI系統(tǒng)。
圖片
物理模擬世界的一切,英偉達(dá)Cosmos都能幫你生成出來。
假設(shè)你要測(cè)試一臺(tái)機(jī)器人,長(zhǎng)傳一個(gè)原視頻,然后輸入:
「以人形機(jī)器人的第一人稱視角拍攝在一個(gè)老舊工廠中工作的場(chǎng)景。機(jī)器人周圍有許多工業(yè)機(jī)械設(shè)備。地板是老舊的木質(zhì)地板,破舊且具有豐富的紋理。攝像機(jī)在距離地面2米的高度向右平移。照片風(fēng)格要求逼真」。
圖片
然后,一個(gè)機(jī)器人在工廠工作的虛擬畫面就出現(xiàn)了。
圖片
包括如下自動(dòng)駕駛場(chǎng),都是由Cosmos完全生成。
圖片
不僅如此,英偉達(dá)還將Cosoms與Omniverse搭配使用,虛實(shí)結(jié)合,讓虛擬世界的設(shè)計(jì)搬到現(xiàn)實(shí)世界訓(xùn)練。
圖片
一直以來,老黃都在強(qiáng)調(diào)一個(gè)新概念「三臺(tái)計(jì)算機(jī)」:一臺(tái)是DGX用來訓(xùn)練AI,另一臺(tái)AGX用來部署AI,最后一臺(tái)便是Omniverse+Cosmos。
若是連接前兩者,我們就需要一個(gè)數(shù)字孿生。
老黃認(rèn)為,「未來,每一個(gè)工廠都有數(shù)字孿生,你可以將Omniverse和Cosoms結(jié)合,生成一大批未來場(chǎng)景」。
圖片
參考資料:
https://github.com/NVIDIA/Cosmos
https://x.com/DrJimFan/status/1876516972512559170
https://research.nvidia.com/publication/2025-01_cosmos-world-foundation-model-platform-physical-ai