World Model立大功的背后還有哪些改進(jìn)方向?深度解析!
筆者的個(gè)人思考
- 為什么不直接用DINO, 而是用2D-UNet先做了一次蒸餾, 直接用DINO會(huì)有什么問(wèn)題呢?
- 中間world model部分是transformer based的, 能否直接復(fù)用現(xiàn)有的LLM+adapter的方式;
- 這種方法理論上能否開(kāi)車(chē), 文章里只有一個(gè)video decoder輸出video,文章中說(shuō)現(xiàn)在還沒(méi)有實(shí)時(shí)運(yùn)行, 但是如果不考慮實(shí)時(shí)性, 加一個(gè)action decoder來(lái)輸出自車(chē)動(dòng)作,理論上應(yīng)該能夠開(kāi)車(chē),但這樣自回歸的輸出也應(yīng)該有action部分;
- world model部分編碼的是2d的信息, 如果把3d的信息也加上是不是會(huì)更通用一些;
- 看文章發(fā)現(xiàn)是有好幾個(gè)訓(xùn)練步驟的, 比如先訓(xùn)練 Image Tokenizer, 再訓(xùn)練World Model, 最后再訓(xùn)練Video Decoder部分,整個(gè)過(guò)程不能夠端到端的一起訓(xùn)練么, 應(yīng)該是可以的, 估計(jì)訓(xùn)起來(lái)比較費(fèi)勁,可能不收斂。
- 假設(shè)輸入不止有前視, 還有左前和右前, 如何做到不同相機(jī)視角下生成的視頻具有一致性。
出發(fā)點(diǎn)是什么
自動(dòng)駕駛有望給交通帶來(lái)革命性的改善,但是 構(gòu)建能夠安全地應(yīng)對(duì)非結(jié)構(gòu)化復(fù)雜性的現(xiàn)實(shí)世界的場(chǎng)景的系統(tǒng) 仍然充滿挑戰(zhàn)。一個(gè)關(guān)鍵問(wèn)題在于有效地 預(yù)測(cè)各種可能出現(xiàn)的潛在情況以及 車(chē)輛隨著周?chē)澜绲难莼扇〉膭?dòng)作。為了應(yīng)對(duì)這一挑戰(zhàn),作者引入了 GAIA-1, 一個(gè)生成式的世界模型,它能夠同時(shí)輸入視頻、文本和動(dòng)作來(lái)生成 真實(shí)的駕駛場(chǎng)景,并且同時(shí)能夠提供對(duì)自車(chē)行為和場(chǎng)景特征的細(xì)粒度控制。該方法將世界建模視為序列建模問(wèn)題,通過(guò)把輸入轉(zhuǎn)化為離散的tokens, 預(yù)測(cè)序列中的下一個(gè)token。該模型有很多新興特性, 包括學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài)、情境意識(shí)、 概括和理解幾何信息。GAIA-1 學(xué)習(xí)到的表征的強(qiáng)大能力可以捕獲對(duì)未來(lái)事件的期望,再加上生成真實(shí)樣本的能力,為自動(dòng)駕駛領(lǐng)域的創(chuàng)新提供了新的可能性。
GAIA_1簡(jiǎn)介
預(yù)測(cè)未來(lái)事件對(duì)自動(dòng)駕駛系統(tǒng)來(lái)說(shuō)基本且重要。精準(zhǔn)地預(yù)測(cè)未來(lái)使自動(dòng)駕駛車(chē)輛能夠預(yù)測(cè)和規(guī)劃其動(dòng)作,從而增強(qiáng)安全性和效率。為了實(shí)現(xiàn)這一目標(biāo),開(kāi)發(fā)一個(gè)強(qiáng)大的世界模型勢(shì)在必行。已經(jīng)有工作在這方面做了很大努力, 比如. 然而,當(dāng)前的方法有很大的局限性。世界模型已成功 應(yīng)用于仿真環(huán)境下的控制任務(wù)和現(xiàn)實(shí)世界的機(jī)器人任務(wù)。這些方法一方面需要大規(guī)模的標(biāo)注數(shù)據(jù), 另一方面模型 對(duì)仿真數(shù)據(jù)的研究無(wú)法完全捕捉現(xiàn)實(shí)場(chǎng)景的復(fù)雜性。此外, 由于其低維表示,這些模型難以生成高度真實(shí)的 未來(lái)事件的樣例, 而這些能力對(duì)于真實(shí)世界中的自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō)非常重要。
與此同時(shí),圖像生成和視頻生成領(lǐng)域也取得了重大進(jìn)步,主要是利用自監(jiān)督學(xué)習(xí)從大量現(xiàn)實(shí)世界數(shù)據(jù)中學(xué)習(xí)生成非常真實(shí)的數(shù)據(jù) 視頻樣本。然而,這一領(lǐng)域仍然存在一個(gè)重大挑戰(zhàn):學(xué)習(xí)捕獲預(yù)期未來(lái)事件的表示。雖然這樣的生成模型 擅長(zhǎng)生成視覺(jué)上令人信服的內(nèi)容,但在學(xué)習(xí)動(dòng)態(tài)世界的演化表示方面效果不太好,而這對(duì)于準(zhǔn)確的預(yù)測(cè)未來(lái)和穩(wěn)健的決策至關(guān)重要。
這項(xiàng)工作提出了 GAIA-1,它同時(shí)保持了世界模型和視頻生成的優(yōu)勢(shì). 它結(jié)合了視頻生成的可擴(kuò)展性和現(xiàn)實(shí)性以及世界模型的學(xué)習(xí)世界演變的能力。
GAIA-1 的工作原理如下。首先,模型分為兩部分:世界模型和video diffusion decoder。世界模型負(fù)責(zé)理解場(chǎng)景中的high-level的部分及場(chǎng)景的動(dòng)態(tài)演化信息, 而video diffusion decoder 則負(fù)責(zé) 將潛在表征轉(zhuǎn)化回具有真實(shí)細(xì)節(jié)的高質(zhì)量視頻。
整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如下
對(duì)于世界模型,使用視頻幀的矢量化表示來(lái)離散化每一幀 ,將它們轉(zhuǎn)換為token序列?;诖司桶杨A(yù)測(cè)未來(lái)轉(zhuǎn)化為預(yù)測(cè)序列中的下一個(gè)token。這種方法已被廣泛應(yīng)用于訓(xùn)練LLM,并且得到了認(rèn)可, 這種方法主要是通過(guò)擴(kuò)展模型大小和數(shù)據(jù)來(lái)有效提高模型性能。它可以通過(guò)自回歸的方式在世界模型的latent space內(nèi)生成樣本。
第二個(gè)部分是一個(gè)多任務(wù)video diffusion decoder,它能夠執(zhí)行高分辨率視頻渲染以及時(shí)間上采樣, 根據(jù)world model自回歸產(chǎn)生的信息生成平滑的視頻。類(lèi)似于LLM,video diffusion model表明訓(xùn)練規(guī)模(模型大小和數(shù)據(jù)量)和整體表現(xiàn)之間存在明顯的相關(guān)性,這使得 GAIA-1 的兩個(gè)組件都適合有效的Scaling。
GAIA-1 是一個(gè)多模態(tài)的模型,允許使用視頻、文本和動(dòng)作作為提示來(lái)生成多樣化且真實(shí)的駕駛場(chǎng)景,如下圖 1 所示:
通過(guò)在大量真實(shí)的城市駕駛數(shù)據(jù)上訓(xùn)練, GAIA-1 學(xué)習(xí)了理解和區(qū)分一些重要概念,例如靜態(tài)和動(dòng)態(tài)元素,包括汽車(chē)、公共汽車(chē)、行人、騎自行車(chē)的人、道路布局、建筑物,甚至交通燈。此外,它還可以通過(guò)輸入動(dòng)作或者文本提示來(lái)細(xì)粒度地控制自車(chē)行為及場(chǎng)景特征。
GAIA-1展示了體現(xiàn)現(xiàn)實(shí)世界生成規(guī)則的能力。還有諸如學(xué)習(xí)高級(jí)結(jié)構(gòu)、概括、創(chuàng)造力和情境意識(shí)等新興的特性。這些表明該模型能夠理解并再現(xiàn)世界的規(guī)則和行為。而且,GAIA-1 展示了對(duì) 3D 幾何的理解,例如,通過(guò)有效地捕捉 由減速帶等道路不平整引起的俯仰和側(cè)傾間的相互作用。預(yù)測(cè)的視頻也展示了其他智能體的行為, 這表明模型有能力理解道路使用者的決策。令人驚訝的是,它還能夠產(chǎn)生訓(xùn)練集之外的數(shù)據(jù)的能力。例如,在道路邊界之外行駛。
GAIA-1 學(xué)習(xí)到的表征預(yù)測(cè)未來(lái)事件的能力,以及對(duì)自車(chē)行為和場(chǎng)景元素兩者的控制是一項(xiàng)令人興奮的進(jìn)步,一方面為進(jìn)一步提升智能化效果鋪平了道路, 另一方面也可以為加速訓(xùn)練和驗(yàn)證提供合成的數(shù)據(jù)。世界 像GAIA-1 之類(lèi)的世界模型是預(yù)測(cè)接下來(lái)可能發(fā)生的事情的能力的基礎(chǔ),這對(duì)于自動(dòng)駕駛的決策至關(guān)重要。
GAIA_1的模型設(shè)計(jì)
GAIA-1 可訓(xùn)練組件的模型架構(gòu)。總體架構(gòu)如上面圖2所示。
編碼視頻、文本和動(dòng)作
GAIA-1 可以輸入三種不同的模式的內(nèi)容(視頻、文本、動(dòng)作),這些輸入信息被編碼到共享的 d 維空間,這個(gè)空間是world model的輸入空間, 注意不是輸出空間, world model的輸出空間的維度和下面的 的維度是一樣的。
Image tokens
視頻中的每楨圖像都可以表示為離散tokens。比如可以使用一個(gè)pre-trained image tokenizer,這個(gè)模型記為. 輸入 T楨圖像序列 ,通過(guò) 將其離散化為 n = 576 個(gè)離散tokens, 即,其中每個(gè) ,這里的 和圖像離散化的方式有關(guān)系, 對(duì)應(yīng)于 , H和W表示輸入圖像的高度和寬度,而D表示下采樣因子。然后通過(guò) 一個(gè) embedding layer 將映射到為 維空間中。
Text tokens
在每個(gè)時(shí)間 t,文本輸入使用 pre-trained 的 T5-large 模型進(jìn)行編碼,得到每個(gè) 個(gè)文本tokens。再通過(guò)一個(gè)線性層同樣映射到 維空間, 產(chǎn)生文本的表示。
action tokens
對(duì)于動(dòng)作, 這里考慮 標(biāo)量值(表示速度和曲率), 這里的曲率指的應(yīng)該是方向盤(pán)的轉(zhuǎn)角, 即 steering的意思。和之前類(lèi)似, 每個(gè)scalar也通過(guò)線性層分別映射到 維空間,得到動(dòng)作表示,
對(duì)于時(shí)間t,輸入tokens按:文本 - 圖像 - 動(dòng)作 的順序進(jìn)行交錯(cuò)排列。因此,世界模型的最終輸入是 。對(duì)于位置編碼, 這里采用了, 個(gè)可學(xué)習(xí)的 temporal embedding, 以及 個(gè) spatial embeddings, embeddings 的維度都是 。
Image Tokenizer
即上面提到的 。當(dāng)使用序列模型對(duì)離散輸入數(shù)據(jù)進(jìn)行建模時(shí),需要權(quán)衡序列長(zhǎng)度和詞匯量。序列長(zhǎng)度是指離散tokens的數(shù)量, 詞匯量大小代表每個(gè)token有多少種可能性。對(duì)于語(yǔ)言有兩種明顯的選擇:字符和 單詞。當(dāng)使用字符級(jí)標(biāo)記時(shí),輸入數(shù)據(jù)具有較長(zhǎng)的序列長(zhǎng)度,并且單個(gè)token所含詞匯表較少,但傳達(dá)的含義很少。使用單詞級(jí)的 token時(shí),輸入數(shù)據(jù)的序列長(zhǎng)度較短,每個(gè)token包含很多語(yǔ)義,但是 詞匯量非常大。大多數(shù)語(yǔ)言模型 使用字節(jié)對(duì)編碼 (或等效)作為字符級(jí)和單詞級(jí)標(biāo)記化之間的權(quán)衡。
對(duì)于視頻,我們希望減少輸入的序列長(zhǎng)度,同時(shí)可能使 詞匯量更大,但同時(shí)希望tokens 比原始像素在語(yǔ)義上更有意義。這里是用離散圖像自動(dòng)編碼器來(lái)做的。在此過(guò)程中實(shí)現(xiàn)兩個(gè)目標(biāo),
- 壓縮原始像素的信息,使序列建模問(wèn)題易于處理。因?yàn)閳D像包含大量冗余和噪聲信息。我們希望減少 描述輸入數(shù)據(jù)所需的序列長(zhǎng)度。
- 引導(dǎo)壓縮后的信息具有有意義的表示, 比如語(yǔ)義信息, 而不是大量沒(méi)有用的信號(hào), 這些信號(hào)會(huì)降慢世界模型的學(xué)習(xí)過(guò)程。
目標(biāo)1的實(shí)現(xiàn)
下采樣因子用 。每個(gè)大小為 的圖像 由描述, 詞匯量大小為 。
目標(biāo)2的實(shí)現(xiàn)
本文用預(yù)訓(xùn)練的DINO 模型 抽取的特征來(lái)作為回歸的target, 相當(dāng)于是用DINO作為蒸餾的teacher,DINO是一個(gè)自監(jiān)督的模型,它包含有豐富的語(yǔ)義信息, 如圖3所示 DINO-distilled 得到的tokens看起來(lái)語(yǔ)義信息比較豐富.
蒸餾的student即離散的 autoencoder部分用的是全卷積的2D U-Net. 編碼器通過(guò)在可學(xué)習(xí)嵌入表中查找最近鄰對(duì)圖像feature進(jìn)行量化,產(chǎn)生圖像tokens 。離散編碼器 最終 GAIA-1 模型的一部分, 需要訓(xùn)練, 而Decoder是僅用來(lái)訓(xùn)練 的。需要注意的是Decoder是基于單楨圖像進(jìn)行訓(xùn)練的, 因此它不具有時(shí)間一致性, 出于這個(gè)原因, 也會(huì)訓(xùn)練一個(gè)video decoder, 這部分在后面介紹.
Image autoencoder的訓(xùn)練loss如下:
- 圖像重建損失。圖像重建損失有兩部分, 分別是 感知損失 和 GAN 損失 。
- 量化損失。為了更新嵌入向量,我們使用嵌入損失和 文獻(xiàn)中的commitment loss, 并且對(duì) embedding 做了 linear projection 以及 l2 normalization, 實(shí)驗(yàn)表明這些有助于增加詞匯量的使用。
- Inductive bias loss。autoencoder量化的圖像特征與DINO提取的圖像特征用cosine similarity loss 度量來(lái)監(jiān)督, 這種方法在特征監(jiān)督中常用.
世界模型
世界模型的輸入是序列 ,是transformer based自回歸網(wǎng)絡(luò)結(jié)構(gòu)。訓(xùn)練的目標(biāo)是基于過(guò)去的所有tokens(圖像, 文本, 動(dòng)作)預(yù)測(cè)接下來(lái)的 image token.
loss 函數(shù)為
為了在推理的時(shí)候, 能夠同時(shí)輸入文本或動(dòng)作作為提示, 在訓(xùn)練的時(shí)候會(huì)隨機(jī)把輸入的文本或者動(dòng)作tokens給dropout掉.
為了進(jìn)一步減少世界模型輸入的序列長(zhǎng)度,對(duì)輸入的視頻作了進(jìn)一步采樣, 從原來(lái)的25HZ變?yōu)?.25HZ。這能讓世界模型能夠在更長(zhǎng)的時(shí)間內(nèi)進(jìn)行推理。為了以全幀速率恢復(fù)視頻預(yù)測(cè),在video decoder部分用了temporal super-resolution。
視頻解碼器
隨著圖像生成和視頻生成的最新進(jìn)展,在GAIA-1的decoder部分, 使用了 denoising video diffusion models。一個(gè)自然的想法是把每一楨的 frame tokens 解碼到像素空間, 但是這樣得到的不同楨對(duì)應(yīng)的pixel, 在時(shí)間上不具有一致性。這里的處理方法是, 把問(wèn)題建模為 在擴(kuò)散過(guò)程中對(duì)一系列幀進(jìn)行去噪,模型可以訪問(wèn)到整個(gè)時(shí)間段內(nèi)的信息,這樣做明顯提高了輸出視頻的時(shí)間一致性。
這里用的是3D U-Net網(wǎng)絡(luò)結(jié)構(gòu), 它里面包括分解空間層和時(shí)間注意力層。這里要注意訓(xùn)練和推理時(shí)的輸入不一樣, 訓(xùn)練時(shí)的輸入是 用 pre-trained image tokenizer 得到的image tokens; 推理的時(shí)候因?yàn)闆](méi)有觀測(cè), 輸入的是由 World Model 預(yù)測(cè)的 image tokens.
我們?cè)趫D像和視頻生成任務(wù)上聯(lián)合訓(xùn)練單個(gè)模型。用視頻訓(xùn)練 會(huì)讓解碼器學(xué)習(xí)在時(shí)間上保持一致,用圖像訓(xùn)練對(duì)于單楨圖像質(zhì)量至關(guān)重要,因?yàn)樗鼘W(xué)習(xí)的是從從圖像tokens中提取信息。要注意在圖像訓(xùn)練時(shí)沒(méi)有用時(shí)間層。
為了訓(xùn)練視頻擴(kuò)散解碼器執(zhí)行多個(gè)推理任務(wù),可以通過(guò)masking 掉某些frames 或者是 某些 image tokens。這里針對(duì)所有的任務(wù), 訓(xùn)練了單個(gè)視頻擴(kuò)散模型, 任務(wù)包括圖像生成、視頻生成、 自回歸解碼和視頻插值, 每個(gè)任務(wù)均等采樣。例如, 在自回歸生成任務(wù)中,用之前生成的過(guò)去幀作為輸入 用要預(yù)測(cè)的幀的圖像tokens作為target。自回歸的任務(wù)中包含正向和反向, 有關(guān)每個(gè)任務(wù)的示例,請(qǐng)參見(jiàn)下圖 4。
并且在訓(xùn)練的時(shí)候以概率 p = 0.15 隨機(jī)mask掉輸入的image token, 以擺脫對(duì)于觀測(cè)image token的依賴進(jìn)而提升泛化能力和時(shí)間一致性。
video decoder是根據(jù) noise prediction objective 進(jìn)行訓(xùn)練。更具體地說(shuō),采用v-parameterization的方法,因?yàn)樗苊饬瞬蛔匀坏?color shifts 并保持 長(zhǎng)期一致性。
loss 函數(shù)為
訓(xùn)練數(shù)據(jù)
訓(xùn)練數(shù)據(jù)集包含在倫敦收集的 4,700 小時(shí)、25Hz 的駕駛數(shù)據(jù),數(shù)據(jù)集中的時(shí)間跨度為2019 年至 2023 年。大約 4.2 億張圖像。不同經(jīng)緯度及不同天氣下的數(shù)據(jù)比例分布如下
訓(xùn)練過(guò)程
Image Tokenizer
參數(shù)量有0.3B, 輸入圖像的大小為 , 下采樣因子 , 因此每個(gè)圖像被encoded成為 個(gè)tokens, 詞匯量size為 。離散自動(dòng)編碼器使用 AdamW進(jìn)行優(yōu)化,模型用32個(gè)80G的A100訓(xùn)練 4 天,總計(jì)20w steps, batch-size 大小為160.
世界模型
世界模型參數(shù)量為6.5B , 在長(zhǎng)度為 T = 26、頻率為 6.25 Hz 的視頻序列上進(jìn)行訓(xùn)練,對(duì)應(yīng)4秒長(zhǎng)的視頻。文本被編碼為 m = 32 個(gè)文本tokens,并且 動(dòng)作為 tokens。因此,世界模型的總序列長(zhǎng)度為
訓(xùn)練樣本有三種:只用圖像, 用圖像及action, 用圖像及文本數(shù)據(jù). 該模型用64個(gè)80G的A100要訓(xùn)練15天, 總計(jì)10w steps, batch-size為128。這里使用了 FlashAttention v2 實(shí)現(xiàn) transformer模塊,因?yàn)樗趦?nèi)存利用率和 推理速度上面有很大提升。為了優(yōu)化分布式訓(xùn)練,使用了 Deepspeed ZeRO-2 訓(xùn)練策略。
Video Decoder
視頻解碼器的參數(shù)量有2.6B, 在 長(zhǎng)度T ′ = 7 , 分辨率為 的圖像序列上進(jìn)行訓(xùn)練, 但是采樣頻率有三種: 6.25 Hz、12.5 Hz 或 25 Hz 。各個(gè)訓(xùn)練任務(wù)(上面的圖4)以等概率進(jìn)行采樣。該模型用32個(gè)80G的A100訓(xùn)練了 15, 總計(jì)30w steps , batch-size大小為 64。訓(xùn)練策略也是 Deepspeed ZeRO-2。
模型推理
World Model
采樣
世界模型基于之前的圖像token, 文本token和 動(dòng)作 token 自回歸預(yù)測(cè)下一個(gè)圖像token。因?yàn)橐粋€(gè)圖像中有 個(gè)token, 所以要預(yù)測(cè)一個(gè)新的image frame, 需要n個(gè)forward, 在每一步中,必須從預(yù)測(cè)的 logits 中采樣一個(gè) token 以選擇下一個(gè) 預(yù)測(cè)的token。選token的方法有多種, 這里觀察到如果用argmax的話會(huì)生成陷入重復(fù)循環(huán)的 future,類(lèi)似于語(yǔ)言模型 [44]。但是,如果簡(jiǎn)單地從 logits 中采樣,則所選token可能來(lái)自不可靠的尾部概率分布(即分?jǐn)?shù)低的那些),這會(huì)使模型脫離分布。如下圖6所示
為了多樣性和真實(shí)性,這里采用的是 top-k 采樣來(lái)采樣下一個(gè)圖像token。最終得到的世界模型可以在給定起始背景下,也可以不需要任何上文從頭推理出可能的未來(lái)。
對(duì)于長(zhǎng)視頻生成,如果視頻的長(zhǎng)度 超過(guò)世界模型的上下文長(zhǎng)度,可以采用滑動(dòng)窗口的方式。
Text-conditioning
可以用文本來(lái)提示并指導(dǎo)視頻預(yù)測(cè)。訓(xùn)練時(shí),可以將在線的旁白描述或者是離線的文本和視頻一起輸入。由于這些文本源有noise,為了提高生成的futures與文本prompt之間的對(duì)齊效果,在推理時(shí)采用classifier-free guidance的方式.Classifier-free guidance 的效果是通過(guò)減少可能的多樣性來(lái)增強(qiáng)文本圖像對(duì)齊效果 。更準(zhǔn)確地說(shuō),對(duì)于每個(gè)要預(yù)測(cè)的下一個(gè)token,
同時(shí)計(jì)算有文本作為prompt時(shí)的logits, 和無(wú)文本作為prompt時(shí)的logits, 然后用系數(shù) 來(lái)控制兩個(gè)logits占的比例, 如下公式
通過(guò)將無(wú)提示的 logits 替換為以另一個(gè)文本提示得到的 logits,可以 進(jìn)行Negative提示。并且把negative prompt 與 positive prompt 推遠(yuǎn), 可以使得future tokens 更多地包括 positive prompt features.
用于 guidance 的scale 系數(shù)非常重要, 如下圖, 文本prompt是 "場(chǎng)景中包含一量紅色的公交車(chē)",
可以看到, SCALE=1的時(shí)候, 就沒(méi)有紅色的公并車(chē), SCALE=20的時(shí)候,恰好有一輛, SCALE=20的時(shí)候, 不止有一輛紅色公交車(chē), 而且還有一輛白色公交車(chē).
Video Decoder
為了解碼從世界模型生成的token序列,具體的方法如下:
- 以對(duì)應(yīng)的 T' image tokens,解碼前 T ′ = 7 幀;如下圖所示
- 使用過(guò)去的 2 個(gè)重疊幀作為圖像context, 以及接下來(lái)的T ′ -2 圖像tokens自回歸解碼接下來(lái)的 T ′ -2 幀。如下圖所示
- 重復(fù)自回歸過(guò)程,直到以 6.25 Hz 生成 N 幀。
- 將 N 幀從 6.25 Hz 做Temporally上采樣得到 12.5 Hz
- 將 2N- 1 幀從 12.5 Hz Temporally上采樣到 25.0 Hz
在自回歸decoding過(guò)程中, 需要同時(shí)考慮生成的圖片質(zhì)量以及時(shí)間一致性, 因此這里做了一個(gè)加權(quán),
其中等式右邊第一項(xiàng)將每個(gè)幀分別作為圖像進(jìn)行去噪, 等式右邊第二項(xiàng)將幀序列聯(lián)合降噪為視頻。在實(shí)際應(yīng)用中,只需打開(kāi)或者關(guān)閉時(shí)間層。這里對(duì)每個(gè)diffusion step 用的概率用這個(gè)加權(quán)平均, 并且采取的.
在探索視頻解碼的不同推理方法時(shí),發(fā)現(xiàn)解碼視頻 從序列末尾開(kāi)始自回歸地向后會(huì)導(dǎo)致更穩(wěn)定的物體, 并且地面上的閃爍也更少。因此在整個(gè)視頻解碼方法中,先解碼最后的 T ′ 幀, 之后從后往前解碼剩余的楨。
Scaling
GAIA-1 中世界建模任務(wù)的方法經(jīng)常在大型語(yǔ)言模型(LLM)中使用, 類(lèi)似于GPT。在這兩種情況下,任務(wù)都被簡(jiǎn)化為預(yù)測(cè)下一個(gè)token。盡管GAIA-1中的世界模型建模的任務(wù)和LLM中的任務(wù)不同, 但是與LLM中類(lèi)似, Scaling laws同樣對(duì)于GAIA-1適用.這說(shuō)明Scaling laws對(duì)于很多領(lǐng)域都是適用的, 包括自動(dòng)駕駛。
為了探索 GAIA-1 的Scaling Laws,我們使用以下方法預(yù)測(cè)了世界模型的最終性能 使用小于 20 倍計(jì)算量訓(xùn)練的模型。對(duì)比的標(biāo)準(zhǔn)是看cross-entropy, 并且采用下面的函數(shù)來(lái)擬合 數(shù)據(jù)點(diǎn)。在圖8a中,可以看到GAIA-1的最終交叉熵預(yù)測(cè)精度很高。
如圖 8b 所示, 可以看出, 隨著模型變大, 訓(xùn)練時(shí)候的cross-entropy 會(huì)收斂地越來(lái)越低,上面說(shuō)明可以通過(guò)擴(kuò)展數(shù)據(jù)和計(jì)算資源來(lái)進(jìn)一步提升模型的性能。
Capabilities and Emerging Properties (能力和新興特性)
這一節(jié)主要是效果展示的例子。這里有個(gè)youtube的連接: https://www.youtube.com/playlist?list=PL5ksjZd5b6SI-6MQi6ghoD-GilTPmsQIf
下面圖9顯示了GAIA-1可以生成各種場(chǎng)景。
下面是GAIA-1通過(guò)一些新興特性展示了對(duì)世界的生成規(guī)則的一定程度的理解和總結(jié):
- 學(xué)習(xí)高級(jí)結(jié)構(gòu)和場(chǎng)景動(dòng)態(tài):它生成與連貫的場(chǎng)景 并且物體放置在合理的位置上, 并展示真實(shí)的物體之間的交互,例如交通 燈光、道路規(guī)則、讓路等。這表明該模型不僅僅是記憶 統(tǒng)計(jì)模式,而是理解了我們生活的世界中關(guān)于物體的底層規(guī)則, 比如物體是如何擺放, 有何行為。
- 泛化性和創(chuàng)造性:可以生成不在訓(xùn)練集里的新穎多樣的視頻 。它可以產(chǎn)生物體、動(dòng)作的獨(dú)特組合, 以及訓(xùn)練數(shù)據(jù)中未明確出現(xiàn)的場(chǎng)景,這表現(xiàn)出它有顯著的泛化能力,并且表現(xiàn)出了一定程度的概括性和創(chuàng)造性, 這表明GAIA-1對(duì)視頻序列的生成規(guī)則有較好的理解.
- 情境感知:GAIA-1 可以捕獲情境信息并生成視頻 來(lái)體現(xiàn)這種理解。例如,它可以基于初始條件或提供的上下文 產(chǎn)生連貫的動(dòng)作和響應(yīng)。此外,GAIA-1 還展示了對(duì) 3D 幾何的理解,有效捕獲到由于道路不平整(例如減速帶)引起的側(cè)傾。這種情境意識(shí)表明這些模型不僅能常握訓(xùn)練集中數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,而且還積極地處理和總結(jié)給定的信息以生成適當(dāng)?shù)囊曨l序列。
長(zhǎng)時(shí)間駕駛場(chǎng)景的生成
GAIA-1 可以完全憑想象生成穩(wěn)定的長(zhǎng)視頻, 如下圖所示表現(xiàn)了40s的生成數(shù)據(jù):
這主要是該模型利用其學(xué)習(xí)到的世界隱式先驗(yàn)分布來(lái)生成完全 想象的真實(shí)駕駛場(chǎng)景。這里應(yīng)該采用了類(lèi)似于MILE里的先驗(yàn)分布做法。生成的駕駛場(chǎng)景中具有復(fù)雜的道路布局、建筑物、汽車(chē)、行人等。這證明 GAIA-1 理解了支撐我們所居住的世界的規(guī)則及其結(jié)構(gòu)和動(dòng)力學(xué)。
多個(gè)合理未來(lái)的生成
GAIA-1 能夠根據(jù)單個(gè)初始提示生成各種不同的未來(lái)場(chǎng)景。當(dāng)以簡(jiǎn)短的視頻作為輸入時(shí), 它可以通過(guò)不斷地sampling產(chǎn)生大量合理且多樣化的內(nèi)容。GAIA-1 針對(duì)視頻提示能夠準(zhǔn)確模擬多種潛在的未來(lái)場(chǎng)景,同時(shí)與在初始視頻中觀察到的條件保持一致。
如下圖所示, 世界模型可以推理 (i) 道路使用者(例如讓路或不讓路)
上面兩個(gè)分別對(duì)應(yīng)著, 他車(chē)不讓路, 和他車(chē)讓路的情況。(ii)多種自車(chē)行為(例如直行或右轉(zhuǎn))
(iii) 多種動(dòng)態(tài)場(chǎng)景(例如可變的交通密度和類(lèi)型)
自車(chē)行為和駕駛場(chǎng)景的細(xì)粒度控制
GAIA-1可以僅根據(jù)文字提示生成視頻,完全想象場(chǎng)景。我們展示了如何根據(jù)文本提示模型生成駕駛場(chǎng)景, 如下所示展示的是對(duì)天氣和光照的細(xì)粒度控制.
下面是個(gè)令人信服的示例,其中模型展示了對(duì)車(chē)輛的細(xì)粒度控制。通過(guò)利用此控制,我們可以提示模型生成視頻描述訓(xùn)練數(shù)據(jù)范圍之外的場(chǎng)景。這表明 GAIA-1 能夠?qū)⒆攒?chē)的動(dòng)態(tài)與周?chē)h(huán)境分開(kāi)并有效地應(yīng)用于 不熟悉的場(chǎng)景。這表明它能夠來(lái)推理我們的行為對(duì)世界的影響,它可以更豐富地理解動(dòng)態(tài)場(chǎng)景,解鎖 基于模型的Policy learning(在world model中做planning),它可以實(shí)現(xiàn)閉環(huán)仿真探索(通過(guò)將世界模型視為模擬器)。為了展示這一點(diǎn),這里展示了 GAIA-1 生成 未來(lái),自車(chē)向左或向右轉(zhuǎn)向,偏離車(chē)道等場(chǎng)景, 如下圖所示:
GAIA-1 在訓(xùn)練數(shù)據(jù)集中從未見(jiàn)過(guò)這些不正確的行為,這表明 它可以推斷出之前在訓(xùn)練數(shù)據(jù)中未見(jiàn)過(guò)的駕駛概念。我們也看到了現(xiàn)實(shí) 其他智能體對(duì)自車(chē)受控行為的反應(yīng)。最后,這個(gè)例子展示了 GAIA-1 利用文本和動(dòng)作來(lái)充分想象 駕駛場(chǎng)景。在這種特殊情況下,我們提示模型自車(chē)要超車(chē)公交車(chē)。
GAIA_1的總結(jié)和未來(lái)方向
GAIA-1 是自動(dòng)駕駛領(lǐng)域的生成式世界模型。世界模型使用矢量量化 將未來(lái)預(yù)測(cè)任務(wù)轉(zhuǎn)變?yōu)橄乱粋€(gè)token的預(yù)測(cè)任務(wù),該技術(shù) 已成功應(yīng)用于大型語(yǔ)言模型。GAIA-1 已展示其具有 全面了解環(huán)境,區(qū)分各種概念 例如汽車(chē)、卡車(chē)、公共汽車(chē)、行人、騎自行車(chē)的人、道路布局、建筑物和交通燈的能力, 這些全是通過(guò)自監(jiān)督的方式學(xué)到的。此外,GAIA-1 利用視頻擴(kuò)散模型的功能 生成真實(shí)的駕駛場(chǎng)景,從而可以作為先進(jìn)的模擬器使用。GAIA-1 是 一種多模態(tài)的方法,通過(guò)文本和動(dòng)作指令相結(jié)合可以控制自車(chē)的動(dòng)作和其他場(chǎng)景屬性。雖然該方法展示了有潛力的結(jié)果,有可能突破自動(dòng)駕駛的界限,但是重要的是也要承認(rèn)當(dāng)前的局限性。例如,自回歸的生成過(guò)程雖然非常有效,但尚未實(shí)時(shí)運(yùn)行。盡管如此,這個(gè)過(guò)程非常適合并行化,允許并發(fā)生成多個(gè)樣本。GAIA-1 的重要性超出了其生成能力。世界模型代表了向 實(shí)現(xiàn)能夠理解、預(yù)測(cè)和適應(yīng)復(fù)雜環(huán)境的自動(dòng)駕駛系統(tǒng)邁出的關(guān)鍵一步。此外,通過(guò)將世界模型融入駕駛模型中, 我們可以讓他們更好地理解自車(chē)的決策,并最終推廣到更多 現(xiàn)實(shí)世界的情況。最后,GAIA-1 還可以作為一個(gè)有價(jià)值的模擬器,允許 生成無(wú)限數(shù)據(jù),包括corner-case和反例,用于訓(xùn)練和驗(yàn)證自動(dòng)駕駛系統(tǒng)。
文章鏈接: https://browse.arxiv.org/pdf/2309.17080.pdf
官方博客1: https://wayve.ai/thinking/introducing-gaia1/
官方博客2: https://wayve.ai/thinking/scaling-gaia-1/
原文鏈接:https://mp.weixin.qq.com/s/dPfqukDLUvhrfZ0a0b6X6A