黃仁勛圈重點(diǎn)的世界模型平臺(tái)是個(gè)啥?技術(shù)報(bào)告全解析,華人貢獻(xiàn)中堅(jiān)力量
AI 的下一個(gè)前沿是物理。在昨天的 CES 發(fā)布會(huì)上,英偉達(dá) CEO 黃仁勛通過(guò)一個(gè)名為「Cosmos」的平臺(tái)點(diǎn)明了這一主題。
簡(jiǎn)單來(lái)說(shuō),Cosmos 是一個(gè)世界模型平臺(tái),上面有一系列開(kāi)源、開(kāi)放權(quán)重的視頻世界模型,參數(shù)量從 4B 到 14B 不等。這些模型的作用非常明確,就是為機(jī)器人、自動(dòng)駕駛汽車(chē)等在物理世界中運(yùn)行的 AI 系統(tǒng)生成大量照片級(jí)真實(shí)、基于物理的合成數(shù)據(jù),以解決該領(lǐng)域數(shù)據(jù)嚴(yán)重不足的問(wèn)題。
英偉達(dá)的 Cosmos 平臺(tái)一次發(fā)布了 8 個(gè)模型。
這些模型在 2000 萬(wàn)小時(shí)的視頻數(shù)據(jù)上進(jìn)行訓(xùn)練,分為擴(kuò)散(連續(xù) token)和自回歸(離散 token)模型兩類,支持文本生成視頻和文本 + 視頻生成視頻兩種生成方式。
生成效果如下:
英偉達(dá)表示,已經(jīng)有許多領(lǐng)先的機(jī)器人和汽車(chē)公司成為 Cosmos 的首批用戶,包括 1X、Agile Robots、Agility、Uber 等等。
黃仁勛表示:「機(jī)器人技術(shù)的 ChatGPT 時(shí)刻即將到來(lái)。與大型語(yǔ)言模型一樣,世界基礎(chǔ)模型對(duì)于推動(dòng)機(jī)器人和自動(dòng)駕駛汽車(chē)開(kāi)發(fā)至關(guān)重要,但并非所有開(kāi)發(fā)者都具備訓(xùn)練自己的世界模型的專業(yè)知識(shí)和資源。我們創(chuàng)建 Cosmos 是為了讓物理 AI 普及化,讓每個(gè)開(kāi)發(fā)者都能用上通用機(jī)器人技術(shù)?!?/span>
Cosmos 模型已經(jīng)公開(kāi)發(fā)布,下面是相關(guān)地址:
- 英偉達(dá) API 目錄:https://build.nvidia.com/explore/simulation
- Hugging Face:https://huggingface.co/collections/nvidia/cosmos-6751e884dc10e013a0a0d8e6
除了模型,英偉達(dá)還公開(kāi)了 Cosmos 的技術(shù)報(bào)告。從貢獻(xiàn)者名單來(lái)看,華人學(xué)者承擔(dān)了該項(xiàng)目的大量工作,有些小組(比如 Prompt Upsampler)甚至出現(xiàn)了全員華人的現(xiàn)象(文末可見(jiàn)完整名單)。
技術(shù)報(bào)告地址:https://d1qx31qr3h6wln.cloudfront.net/publications/NVIDIA%20Cosmos_4.pdf
以下是技術(shù)報(bào)告的核心內(nèi)容。
技術(shù)報(bào)告概覽
技術(shù)報(bào)告主要介紹了用于構(gòu)建物理 AI 的 Cosmos 世界基礎(chǔ)模型(WFM)平臺(tái)。作者主要關(guān)注的是視覺(jué)世界基礎(chǔ)模型。在這種模型中,觀察結(jié)果以視頻形式呈現(xiàn),擾動(dòng)可以以各種形式存在。
如圖 2 所示,作者提出了一個(gè)預(yù)訓(xùn)練,然后后訓(xùn)練的范式,將 WFM 分成預(yù)訓(xùn)練 WFM 和后訓(xùn)練 WFM。為了建立預(yù)訓(xùn)練 WFM,他們利用大規(guī)模的視頻訓(xùn)練數(shù)據(jù)集,讓模型接觸到各種不同的視覺(jué)體驗(yàn),使其成為一個(gè)通才。
為了建立后訓(xùn)練 WFM,他們使用從特定物理 AI 環(huán)境中收集的數(shù)據(jù)集,對(duì)預(yù)訓(xùn)練 WFM 進(jìn)行微調(diào),以建立專門(mén)的 WFM,用于目標(biāo)明確的專門(mén)物理 AI 設(shè)置。圖 1 展示了預(yù)訓(xùn)練和后訓(xùn)練 WFM 的結(jié)果示例。
數(shù)據(jù)決定了 AI 模型的上限。為了構(gòu)建一個(gè)高上限的預(yù)訓(xùn)練 WFM,作者開(kāi)發(fā)了一個(gè)視頻數(shù)據(jù)整理 pipeline。他們用它來(lái)定位具有豐富動(dòng)態(tài)效果和高視覺(jué)質(zhì)量的視頻部分,以促進(jìn)模型學(xué)習(xí)編碼在視覺(jué)內(nèi)容中的物理知識(shí)。
作者使用該 pipeline 從長(zhǎng)達(dá) 2000 萬(wàn)小時(shí)的視頻集合中提取了約 1 億個(gè)視頻片段,片段長(zhǎng)度從 2 秒到 60 秒不等。對(duì)于每個(gè)片段,他們使用視覺(jué)語(yǔ)言模型(VLM)為每 256 幀提供一個(gè)視頻描述。視頻處理是計(jì)算密集型工作。作者利用現(xiàn)代 GPU 硬件實(shí)現(xiàn)的 H.264 視頻編碼器和解碼器進(jìn)行解碼和轉(zhuǎn)碼。這個(gè)視頻數(shù)據(jù)整理 pipeline 利用了許多預(yù)訓(xùn)練的圖像 / 視頻理解模型。這些模型具有不同的吞吐量。為了最大限度地提高生成可訓(xùn)練視頻數(shù)據(jù)的總體吞吐量,作者構(gòu)建了一個(gè)基于 Ray 的協(xié)調(diào) pipeline。
在報(bào)告中,作者探討了兩種用于構(gòu)建預(yù)訓(xùn)練 WFM 的可擴(kuò)展方法。這兩種方法是基于 transformer 的擴(kuò)散模型和自回歸模型。擴(kuò)散模型通過(guò)逐步去除高斯噪聲視頻中的噪聲來(lái)生成視頻。自回歸模型基于之前的生成內(nèi)容,按照預(yù)設(shè)順序逐段生成視頻。
這兩種方法都能將困難的視頻生成問(wèn)題分解為更容易解決的子問(wèn)題,從而使問(wèn)題更加容易解決。作者利用 SOTA transformer 架構(gòu)來(lái)提高其可擴(kuò)展性。在第 5.1 節(jié)中,他們介紹了一種基于 Transformer 的擴(kuò)散模型設(shè)計(jì),它具有強(qiáng)大的世界生成能力。在第 5.2 節(jié)中,他們介紹了一種基于 Transformer 的自回歸模型設(shè)計(jì),用于生成世界。
基于 Transformer 的擴(kuò)散模型和基于 Transformer 的自回歸模型都使用 token 來(lái)表示視頻,前者使用向量形式的連續(xù) token,后者使用整數(shù)形式的離散 token。作者注意到,視頻 token 化 —— 一個(gè)將視頻轉(zhuǎn)換為 token 集的過(guò)程 —— 是一個(gè)非常復(fù)雜的過(guò)程。視頻包含豐富的視覺(jué)世界信息。然而,為了便于學(xué)習(xí)世界基礎(chǔ)模型,我們需要將視頻壓縮為緊湊的 token 序列,同時(shí)最大限度地保留視頻中的原始內(nèi)容,因?yàn)槭澜缁A(chǔ)模型訓(xùn)練的計(jì)算復(fù)雜度會(huì)隨著 token 數(shù)量的增加而增加。在很多方面,構(gòu)建視頻 tokenizer 與構(gòu)建視頻編解碼器類似。作者開(kāi)發(fā)了一種基于注意力的編碼器 - 解碼器架構(gòu),用于學(xué)習(xí)連續(xù)和離散 token 的視頻 token 化(見(jiàn)第 4 章)。
在第 6 章中,作者對(duì)預(yù)訓(xùn)練的 WFM 進(jìn)行微調(diào),以獲得適用于各種物理 AI 任務(wù)的后訓(xùn)練 WFM。在第 6.1 節(jié)中,作者對(duì)預(yù)訓(xùn)練的擴(kuò)散 WFM 進(jìn)行微調(diào),使其成為相機(jī)姿態(tài)條件。這種后訓(xùn)練創(chuàng)建了一個(gè)可導(dǎo)航的虛擬世界,用戶可以通過(guò)移動(dòng)虛擬視點(diǎn)來(lái)探索所創(chuàng)建的世界。在第 6.2 節(jié)中,他們?cè)谟梢曨l動(dòng)作序列組成的各種機(jī)器人任務(wù)中對(duì) WFM 進(jìn)行微調(diào)。結(jié)果表明,通過(guò)利用預(yù)訓(xùn)練的 WFM,可以根據(jù)機(jī)器人采取的行動(dòng)更好地預(yù)測(cè)世界的未來(lái)狀態(tài)。在第 6.3 節(jié)中,作者演示了如何針對(duì)各種自動(dòng)駕駛相關(guān)任務(wù)對(duì)預(yù)訓(xùn)練的 WFM 進(jìn)行微調(diào)。
英偉達(dá)開(kāi)發(fā)的 WFM 的預(yù)期用途是物理 AI 構(gòu)建者。為了在使用 WFM 時(shí)更好地保護(hù)開(kāi)發(fā)人員,作者開(kāi)發(fā)了一個(gè)功能強(qiáng)大的防護(hù)系統(tǒng),其中包括一個(gè)用于阻止有害輸入的前置防護(hù)系統(tǒng)和一個(gè)用于阻止有害輸出的后置防護(hù)系統(tǒng)。詳情見(jiàn)第 7 章。
英偉達(dá)的目標(biāo)是建立一個(gè)世界基礎(chǔ)模型平臺(tái),幫助物理 AI 構(gòu)建者推進(jìn)他們的系統(tǒng)。為了實(shí)現(xiàn)這一目標(biāo),他們根據(jù) NVIDIA 開(kāi)放模型許可,分別在 NVIDIA Cosmos 和 NVIDIA Cosmos Tokenizer 目錄下提供預(yù)訓(xùn)練的世界基礎(chǔ)模型和 tokenizer。預(yù)訓(xùn)練腳本和后訓(xùn)練腳本將與視頻數(shù)據(jù)整理 pipeline 一起在 NVIDIA Nemo Framework 目錄下提供,以幫助構(gòu)建者制作微調(diào)數(shù)據(jù)集。
- NVIDIA Cosmos:https://github.com/NVIDIA/Cosmos
- NVIDIA Cosmos Tokenizer:https://github.com/NVIDIA/Cosmos-Tokenizer
- NVIDIA Nemo Framework:https://github.com/NVIDIA/Nemo
世界基礎(chǔ)模型平臺(tái)
設(shè)??_0:??為從時(shí)間 0 到??對(duì)現(xiàn)實(shí)世界的一系列視覺(jué)觀察,??_??為世界的擾動(dòng)。如圖 3 所示,WFM 是一個(gè)為 W 的模型,它基于過(guò)去的觀察, 和當(dāng)前的擾動(dòng) c_t 來(lái)預(yù)測(cè)時(shí)間 t+1 的未來(lái)觀察
。在示例中,??_0:?? 是 RGB 視頻,而 ??_?? 是一種可以采取多種形式的擾動(dòng)。它可以是物理 AI 采取的動(dòng)作、隨機(jī)擾動(dòng)、擾動(dòng)的文本描述等。
圖 4 直觀地展示了 Cosmos WFM 平臺(tái)中可用的功能,包括視頻 curator、視頻 tokenization、世界基礎(chǔ)模型預(yù)訓(xùn)練、世界基礎(chǔ)模型后訓(xùn)練和護(hù)欄(guardrail)。
具體而言:
視頻 curator。本文開(kāi)發(fā)了一個(gè)可擴(kuò)展的視頻數(shù)據(jù) pipeline。每個(gè)視頻被分割成沒(méi)有場(chǎng)景變化的獨(dú)立鏡頭。隨后,對(duì)這些片段應(yīng)用一系列過(guò)濾步驟,以篩選出高質(zhì)量且富含動(dòng)態(tài)信息的子集用于訓(xùn)練。這些高質(zhì)量鏡頭隨后使用視覺(jué)語(yǔ)言模型(VLM)進(jìn)行標(biāo)注。接著執(zhí)行語(yǔ)義去重,以構(gòu)建一個(gè)多樣但緊湊的數(shù)據(jù)集。
視頻 tokenization。本文開(kāi)發(fā)了一系列具有不同壓縮比的視頻 tokenizer。這些 tokenizer 是因果性的,當(dāng)前幀的 token 計(jì)算不依賴于未來(lái)的觀測(cè)。這種因果設(shè)計(jì)有幾個(gè)優(yōu)點(diǎn)。在訓(xùn)練方面,它使得聯(lián)合圖像和視頻訓(xùn)練成為可能,因?yàn)楫?dāng)輸入是單張圖像時(shí),因果視頻 tokenizer 也可以作為圖像 tokenizer 使用。這對(duì)于視頻模型利用圖像數(shù)據(jù)集進(jìn)行訓(xùn)練非常重要,因?yàn)閳D像數(shù)據(jù)集包含了豐富的世界外觀信息,并且往往更加多樣化。
WFM 預(yù)訓(xùn)練。本文探索了兩種可擴(kuò)展的方法來(lái)構(gòu)建預(yù)訓(xùn)練的世界基礎(chǔ)模型 —— 擴(kuò)散模型和自回歸模型。
- 對(duì)于基于擴(kuò)散的 WFM,預(yù)訓(xùn)練包括兩個(gè)步驟:1)Text2World 生成的預(yù)訓(xùn)練,以及 2)Video2World 生成的預(yù)訓(xùn)練;
- 對(duì)于基于自回歸的 WFM,預(yù)訓(xùn)練包括兩個(gè)步驟:1)基礎(chǔ)的下一 token 生成,以及 2)文本 - 條件 Video2World 生成。
世界模型后訓(xùn)練。本文展示了經(jīng)過(guò)預(yù)訓(xùn)練的 WFM 在多個(gè)下游物理 AI 應(yīng)用中的應(yīng)用。本文以相機(jī)姿態(tài)作為輸入提示對(duì)預(yù)訓(xùn)練的 WFM 進(jìn)行微調(diào),因而模型能夠在創(chuàng)建的世界中自由導(dǎo)航。此外,本文還展示了如何針對(duì)人形機(jī)器人和自動(dòng)駕駛?cè)蝿?wù)對(duì)預(yù)訓(xùn)練 WFM 進(jìn)行微調(diào)。
護(hù)欄。為了安全使用所開(kāi)發(fā)的世界基礎(chǔ)模型,本文開(kāi)發(fā)了一個(gè)護(hù)欄系統(tǒng),用于阻止有害的輸入和輸出。
Tokenizer
tokenizer 是現(xiàn)代大模型的基本構(gòu)建塊,能將原始數(shù)據(jù)轉(zhuǎn)換為更有效的表征。具體來(lái)說(shuō),視覺(jué) tokenizer 將原始和冗余的視覺(jué)數(shù)據(jù)(例如圖像和視頻)映射為緊湊的語(yǔ)義 token,這使得它們對(duì)于處理高維視覺(jué)數(shù)據(jù)至關(guān)重要。這種能力不僅能夠有效訓(xùn)練大規(guī)模 Transformer 模型,而且還使有限計(jì)算資源上的推理民主化。
tokenizer 有兩種類型:連續(xù)型和離散型。連續(xù)型 tokenizer 將視覺(jué)數(shù)據(jù)編碼為連續(xù)的潛在嵌入,如 Stable Diffusion 或 VideoLDM 等潛在擴(kuò)散模型。這些嵌入適用于通過(guò)從連續(xù)分布中采樣生成數(shù)據(jù)的模型。離散 tokenizer 將視覺(jué)數(shù)據(jù)編碼為離散潛在編碼,將其映射為量化索引,如 VideoPoet 等自回歸 transformer。這種離散表征對(duì)于像 GPT 這樣用交叉熵?fù)p失訓(xùn)練的模型來(lái)說(shuō)是必要的。
tokenizer 的成功在很大程度上依賴于它們提供高壓縮率而不影響后續(xù)視覺(jué)重建質(zhì)量的能力。一方面,高壓縮減少了存儲(chǔ)和計(jì)算需求。另一方面,過(guò)度壓縮可能會(huì)導(dǎo)致重要視覺(jué)細(xì)節(jié)丟失。這種權(quán)衡對(duì) tokenizer 的設(shè)計(jì)提出了重大挑戰(zhàn)。
英偉達(dá)推出了 Cosmos Tokenizer,這是一組視覺(jué) tokenizer,其中包括用于圖像和視頻的連續(xù)和離散 tokenizer。Cosmos Tokenizer 提供卓越的視覺(jué)重建質(zhì)量和推理效率。并提供一系列壓縮率來(lái)適應(yīng)不同的計(jì)算限制和應(yīng)用程序需求。
英偉達(dá)使用輕量級(jí)且計(jì)算高效的架構(gòu)和時(shí)間因果機(jī)制來(lái)設(shè)計(jì) Cosmos Tokenizer。具體來(lái)說(shuō),Cosmos Tokenizer 采用因果時(shí)間卷積層和因果時(shí)間注意力層來(lái)保留視頻幀的自然時(shí)間順序,確保使用單一統(tǒng)一網(wǎng)絡(luò)架構(gòu)對(duì)圖像和視頻進(jìn)行無(wú)縫 tokenization。
如圖 8 所示,評(píng)估結(jié)果表明,Cosmos Tokenizer 的性能明顯優(yōu)于現(xiàn)有 tokenizer:
世界基礎(chǔ)模型預(yù)訓(xùn)練
經(jīng)過(guò)預(yù)訓(xùn)練的 WFM 是通才模型,可以捕捉現(xiàn)實(shí)世界物理和自然行為的一般知識(shí)。本文利用兩種不同的可擴(kuò)展深度學(xué)習(xí)范式 —— 擴(kuò)散模型和自回歸模型,構(gòu)建了兩類 WFM。
擴(kuò)散模型和自回歸模型都將復(fù)雜的生成問(wèn)題分解為一系列更簡(jiǎn)單的子問(wèn)題,并極大地推動(dòng)了生成模型的發(fā)展。
對(duì)于擴(kuò)散模型,復(fù)雜的生成問(wèn)題被分解為一系列去噪問(wèn)題;而對(duì)于自回歸模型,復(fù)雜的生成問(wèn)題則被分解為一系列下一個(gè) token 預(yù)測(cè)問(wèn)題。
本文在三個(gè)月的時(shí)間內(nèi),使用一個(gè)由 10,000 個(gè) NVIDIA H100 GPU 組成的集群,訓(xùn)練了論文中報(bào)告的所有 WFM。
表 10 展示了預(yù)訓(xùn)練 WFM 及其配套模型的概覽。
對(duì)于基于擴(kuò)散的 WFM 家族,本文首先構(gòu)建了兩個(gè) Text2World 模型,分別為 7B 和 14B 參數(shù),分別命名為 Cosmos-1.0-Diffusion-7B-Text2World 和 Cosmos-1.0-Diffusion-14B-Text2World。
對(duì)于基于自回歸的 WFM 家族,本文首先構(gòu)建了兩個(gè)基礎(chǔ)模型,分別為 4B 和 12B 參數(shù),命名為 Cosmos-1.0-Autoregressive-4B 和 Cosmos-1.0-Autoregressive-12B。這些模型純粹基于當(dāng)前視頻觀測(cè)預(yù)測(cè)未來(lái)視頻。
Cosmos-1.0-Diffusion WFM 的整體架構(gòu):
Cosmos-1.0-Diffusion 模型的配置細(xì)節(jié)。
本文采用漸進(jìn)式訓(xùn)練策略,每個(gè)階段的具體情況見(jiàn)表 12:
基于自回歸的 WFM 架構(gòu)如圖 14 所示。本文對(duì)標(biāo)準(zhǔn)的 Transformer 模型架構(gòu)進(jìn)行了幾項(xiàng)修改,以適應(yīng)視頻生成任務(wù),包括添加了:1)3D 感知的位置嵌入,2)交叉注意力機(jī)制以支持文本輸入,從而實(shí)現(xiàn)更好的控制,以及 3)QK-Normalization。
Cosmos-1.0-Autoregressive 模型配置細(xì)節(jié)。
技術(shù)報(bào)告演示了如何微調(diào) Cosmos WFM 以支持不同的物理 AI 應(yīng)用,包括:
以用于相機(jī)控制的后訓(xùn)練 WFM 為例,通過(guò)相機(jī)姿態(tài)調(diào)節(jié),英偉達(dá)將相機(jī)控制集成到 Cosmos-1.0-Diffusion-7B-Video2World 中,使其成為有效的 3D 世界模擬器。訓(xùn)練后的 WFM 結(jié)果被稱為 Cosmos-1.0-Diffusion-7BVideo2World-Sample-CameraCond。
為了安全使用 WFM,英偉達(dá)還開(kāi)發(fā)了一套全面的安全系統(tǒng)(護(hù)欄)。它由兩個(gè)階段組成:Pre-Guard 階段和 Post-Guard 階段。Pre-Guard 階段利用 Aegis(Ghosh 等人,2024)和關(guān)鍵字列表來(lái)阻止有害提示。Post-Guard 階段使用視頻內(nèi)容安全分類器和面部模糊過(guò)濾器來(lái)阻止有害的視覺(jué)輸出。
核心貢獻(xiàn)者
論文最后還列出了貢獻(xiàn)者名單,占據(jù)了整整一頁(yè)的篇幅。
名單分為核心貢獻(xiàn)者和貢獻(xiàn)者,粗略看下來(lái),華人學(xué)者幾乎占據(jù)了半壁江山。在這份名單中,我們看到了許多熟悉的研究者,比如:
平臺(tái)架構(gòu)唯一貢獻(xiàn)者 Ming-Yu Liu,他是 NVIDIA 的研究副總裁和 IEEE Fellow。他現(xiàn)在領(lǐng)導(dǎo) NVIDIA 的深度想象研究(Deep Imagination Research)團(tuán)隊(duì),專注于深度生成模型及其在內(nèi)容創(chuàng)作中的應(yīng)用。
多次出現(xiàn)名字的凌歡,是 Nvidia Toronto AI Lab 的人工智能科學(xué)家。博士畢業(yè)于多倫多大學(xué) PhD,博士期間師從 Sanja Fidler 教授。他的研究方向主攻大規(guī)模圖像視屏生成模型,和生成模型在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用。
完整名單如下所示,里面有你熟悉的學(xué)者嗎?