自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

世界模型再進化!DrivingWorld:通過視頻GPT構建自動駕駛世界模型(港科技&地平線)

人工智能 新聞
今天為大家分享香港科技大學&地平線最新的工作—DrivingWorld!通過視頻GPT構建自動駕駛世界模型。

寫在前面 & 筆者的個人理解

最近自回歸(AR)生成模型的成功,如自然語言處理中的GPT系列,促使人們努力在視覺任務中復制這一成功。一些工作試圖通過構建能夠生成逼真的未來視頻序列和預測自車狀態(tài)的基于視頻的世界模型,將這種方法擴展到自動駕駛。然而,先前的工作往往產生不令人滿意的結果,因為經典的GPT框架旨在處理1D上下文信息,如文本,并且缺乏對視頻生成所必需的空間和時間動態(tài)進行建模的固有能力。本文介紹了DrivingWorld,這是一個GPT風格的自動駕駛世界模型,具有多種時空融合機制。這種設計能夠有效地對空間和時間動態(tài)進行建模,從而促進高保真、長持續(xù)時間的視頻生成。具體來說,我們提出了一種下一狀態(tài)預測策略來模擬連續(xù)幀之間的時間一致性,并應用下一token預測策略來捕獲每個幀內的空間信息。為了進一步提高泛化能力,我們提出了一種新的掩碼策略和重新加權策略用于token預測,以緩解長期漂移問題并實現精確控制。我們的工作展示了制作高保真、持續(xù)時間超過40秒的一致視頻片段的能力,這比最先進的駕駛世界模型長2倍多。實驗表明,與先前的工作相比,我們的方法實現了卓越的視覺質量和更精確的可控未來視頻生成。

  • 開源鏈接:https://github.com/YvanYin/DrivingWorld

總結來說,本文介紹了DrivingWorld,這是一個基于GPT風格視頻生成框架的駕駛世界模型。我們的主要目標是在自回歸框架中增強時間一致性的建模,以創(chuàng)建更準確可靠的世界模型。為了實現這一目標,我們的模型結合了三個關鍵創(chuàng)新:1)時間感知標記化:我們提出了一種時間感知標記器,將視頻幀轉換為時間相干標記,將未來視頻預測的任務重新表述為預測序列中的未來標記。2)混合token預測:我們引入了一種下一狀態(tài)預測策略來預測連續(xù)狀態(tài)之間的時間一致性,而不是僅僅依賴于下一個token預測策略。之后,應用下一個token預測策略來捕獲每個狀態(tài)內的空間信息。3)長時間可控策略:為了提高魯棒性,我們在自回歸訓練過程中實施了隨機標記丟棄和平衡注意力策略,從而能夠生成具有更精確控制的持續(xù)時間更長的視頻。DrivingWorld使用AR框架增強了視頻生成中的時間連貫性,學習了未來進化的有意義表示。實驗表明,所提出的模型具有良好的泛化性能,能夠生成超過40秒的視頻序列,并提供準確的下一步軌跡預測,保持合理的可控性。

圖片

相關工作回顧

世界模型。世界模型捕捉了環(huán)境的全面表示,并根據一系列行動預測了未來的狀態(tài)。世界模型在游戲和實驗室環(huán)境中都得到了廣泛的探索。Dreamer利用過去的經驗訓練了一個潛在動力學模型,以預測潛在空間內的狀態(tài)值和行為。DreamerV2基于最初的Dreamer模型構建,在雅達利游戲中達到了人類水平的性能。DreamerV3使用了更大的網絡,并成功地學會了從零開始在Minecraft中獲取鉆石。DayDreamer擴展了Dreamer,在現實世界中訓練了四個機器人,成功地完成了運動和操縱任務。

最近駕駛場景的世界模型在學術界和工業(yè)界都引起了極大的關注。之前的大多數工作僅限于模擬器或控制良好的實驗室環(huán)境。Drive WM使用擴散模型探索了現實世界中的駕駛規(guī)劃者。GAIA-1基于自回歸模型研究了現實世界的駕駛規(guī)劃者,但GAIA-1具有較大的參數和計算需求,隨著條件框架數量的增加而增加。在本文中,我們提出了一個自回歸框架下的自動駕駛場景的有效世界模型。

VQVAE。VQVAE通過矢量量化學習離散碼本表示,以對圖像分布進行建模。VQGAN通過結合LPIPS損失和對抗性PatchGAN損失提高了真實感。MoVQ通過將空間變異信息嵌入量化向量中,解決了VQGAN的空間條件歸一化問題。LlamaGen進一步微調了VQGAN,表明較小的碼本矢量維數和較大的碼本大小可以提高重建性能。雖然基于VQGAN的結構被廣泛使用,但一些方法探索了更高效的架構。ViT VQGAN用視覺變換器取代了卷積編碼器-解碼器,提高了模型捕獲長距離依賴關系的能力。VAR采用多尺度結構來預測先前尺度的后續(xù)尺度,從而提高了發(fā)電質量和速度。然而,這些方法側重于單一圖像處理,阻礙了它們捕獲時間一致性。為了解決這個問題,我們提出了一種時間感知標記器和解碼器。

視頻生成。目前有三種主流的視頻生成模型:基于GAN、基于擴散和基于GPT的方法?;贕AN的方法經常面臨幾個挑戰(zhàn),例如模式崩潰,生成器生成的視頻的多樣性受到限制。此外,生成器和鑒別器之間的對抗性學習可能會導致訓練過程中的不穩(wěn)定。基于擴散的方法的一個主要問題是它們無法生成精確控制的視頻。擴散過程的隨機性在每一步都引入了隨機性,使得難以對生成內容中的特定屬性進行嚴格控制。另一方面,傳統(tǒng)的基于GPT的方法允許一定程度的控制,但它們的計算成本隨序列長度呈二次增長,顯著影響了模型效率。本文提出了一種解耦的時空世界模型框架,該框架在確保精確控制的同時,顯著降低了計算成本,提高了模型效率。

DrivingWorld方法詳解

我們提出的世界模型DrivingWorld利用GPT風格的架構高效預測未來狀態(tài),能夠以10Hz的頻率將預測時間延長到40秒以上。該模型旨在理解過去的現實世界狀態(tài),并預測未來的視頻內容和車輛運動。DrivingWorld專門專注于根據時間1到T的歷史狀態(tài)預測時間T+1的下一個狀態(tài),我們可以通過逐一順序預測未來狀態(tài)來生成長視頻。

圖片

如圖2所示,我們提出的DrivingWorld不僅可以根據過去的觀測結果生成未來狀態(tài),還可以通過操縱車輛的位置和方向來支持復雜駕駛場景的可控模擬。

Tokenizer

標記化將連續(xù)數據轉換為離散標記,從而能夠與語言模型和增強的多模態(tài)序列建模集成。在我們的方法中,標記器將多模態(tài)狀態(tài)映射到統(tǒng)一的離散空間中,從而實現了精確可控的多模態(tài)生成。為了為圖像生成時間一致的嵌入,我們提出了一種時間感知的矢量量化標記器。我們提出的車輛姿態(tài)標記器將姿態(tài)軌跡離散化,并將其整合到我們的DrivingWorld中。

前言:Single Image Vector Quantized Tokenizer。單圖像矢量量化(VQ)標記器旨在將圖像特征圖轉換為離散標記q。量化器利用包含K個矢量的學習離散碼本,將每個特征f(i,j)映射到Z中最接近代碼的索引。這種方法能夠將連續(xù)圖像數據轉換為離散token。

時間感知矢量量化標記器。單圖像VQ標記器通常難以產生時間一致的嵌入,導致不連續(xù)的視頻預測,阻礙了世界模型的訓練。

為了解決這個問題,我們提出了一種時間感知的矢量量化標記器,旨在確保隨時間推移的一致嵌入。具體來說,為了捕捉時間依賴性,我們在VQGAN量化之前和之后都插入了一個self-att,其中注意力沿著時間維度進行操作。這使得我們的模型能夠捕捉幀之間的長期時間關系,提高生成序列的連貫性和一致性。我們的模型基于LlammaGen的開源VQGAN實現。我們直接而有效的時間self-att的集成可以無縫地整合到原始框架中,然后進行微調,以開發(fā)一個健壯且通用的時間感知VQ標記器。

圖片

車輛位姿標記器。為了準確表示車輛的自車狀態(tài),包括其方向θ和位置(x,y),我們采用以自車輛為中心的坐標系,如圖2所示。我們采用相鄰時間步長之間的相對姿態(tài),而不是全局姿態(tài)。這是因為在長期序列中,由于絕對姿態(tài)值的增加,全球姿態(tài)帶來了重大挑戰(zhàn)。這種增長使得歸一化變得困難,并降低了模型的魯棒性。隨著序列變長,管理這些大的姿勢值變得越來越困難,阻礙了有效的長期視頻生成。

圖片

World Model

世界模型旨在理解過去的狀態(tài)輸入,模擬現實世界的動態(tài),并預測未來的狀態(tài)。在我們的背景下,它預測了即將到來的駕駛場景,并規(guī)劃了可行的未來軌跡。為此,世界模型將歷史狀態(tài)標記連接成一個長序列,其中2D圖像標記以鋸齒形順序展開為1D形式。因此,目標是預測下一個狀態(tài)。基于過去的觀測序列,捕捉時間和多模態(tài)依賴關系。請注意,來自不同模態(tài)的所有離散token在被饋送到世界模型之前,都由其各自的可學習嵌入層映射到共享的潛在空間中。所有后續(xù)過程都在這個潛在空間內進行。

前言:下一個token預測。一種直接的方法是使用GPT-2結構進行1D順序下一個token預測。圖3(a)顯示了一個簡化示例。因果注意被應用于下一個token預測,T+1中的第i個token被建模為:

圖片

因此我們提出了一種下一狀態(tài)預測管道,它由兩個模塊組成:一個集成時間和多模態(tài)信息以生成下一狀態(tài)特征(即時間多模態(tài)融合模塊),另一個是自回歸模塊(即內部狀態(tài)自回歸模塊)以生成高質量的內部狀態(tài)token。時間多模態(tài)融合模塊。我們的時間多模態(tài)模塊由一個單獨的時間層和一個多模態(tài)層組成。這將時間和多模態(tài)信息的處理解耦,從而提高了訓練和推理速度,同時也降低了GPU內存消耗。如圖3(b)所示,我們建議在時間轉換層Fa(·)中使用因果注意力掩碼,其中每個token只關注自身和所有先前幀中相同順序位置的token,充分利用時間信息。

圖片

在多模態(tài)信息融合層Fb(·)中,我們在同一幀中采用雙向掩碼,旨在充分整合內部狀態(tài)多模態(tài)信息,并促進模態(tài)之間的交互。每個token處理來自同一時間步的其他token:

圖片

內部狀態(tài)自回歸模塊。在時間多模態(tài)模塊之后,我們獲得了用于未來幀狀態(tài)預測的特征。一種天真的方法是同時預測下一個狀態(tài)tokenht。最近,多圖像生成工作提出,用于下一個token預測的自回歸流水線可以生成更好的圖像,甚至優(yōu)于擴散方法。受此啟發(fā),我們提出了一個內部狀態(tài)自回歸模塊來生成下一時間步的姿勢和圖像(見圖3(b))。

圖片

然后,它們被輸入到內部狀態(tài)自回歸Transformer層Fc(·)。因果掩碼在這些層中使用,因此每個token只能出席自己并前綴內部狀態(tài)token。自回歸過程如方程式6所示。由于我們的管道同時包含了下一個狀態(tài)預測和下一個內部狀態(tài)token預測,我們在訓練中實施了兩種教師強制策略,即一種用于幀級別,另一種用于內部狀態(tài)級別。

圖片

訓練損失交叉熵:

圖片

Decoder

使用世界模型預測下一個狀態(tài)標記,然后我們可以利用解碼器為該狀態(tài)生成相應的相對方向、相對位置和重建圖像。這個過程使我們能夠將預測的潛在表示映射回物理輸出,包括空間和視覺數據。

Vehicle Pose Decoder:

圖片

Temporal-aware Decoder:

圖片

Long-term Controllable Generation

Token Dropout實現無漂移自動回歸。在訓練過程中,世界模型使用過去的地面真實token作為條件來預測下一個token。然而,在推理過程中,模型必須依賴于先前生成的表征進行調節(jié),這可能包含缺陷。僅使用完美的GT圖像進行訓練可能會在推理過程中導致內容漂移問題,導致生成的輸出迅速退化并最終失敗。為了解決這個問題,我們提出了一種隨機掩蔽策略(RMS),其中一些來自地面真實token的token被隨機丟棄。每個標記有50%的機會被該幀中的另一個隨機標記替換,并且這種丟失以30%的概率應用于整個調節(jié)圖像序列。如圖4所示,這種dropout策略顯著緩解了推理過程中的漂移問題。

平衡注意力實現精確控制。世界模型利用廣泛的注意力操作在代幣之間交換和融合信息。然而,每個前視圖圖像被離散化為512個標記,而只有2個標記表示姿勢(方向和位置)。這種不平衡會導致模型忽略姿態(tài)信號,導致可控生成不令人滿意。為了解決這個問題,我們提出了一種平衡的注意力操作,通過在注意力機制中優(yōu)先考慮自車狀態(tài)標記,而不是平等地關注所有標記,來實現更精確的控制。具體來說,我們手動增加注意力圖中方向和位置標記的權重(在softmax層之前),分別為這些標記添加0.4和0.2的恒定權重。此外,我們結合了QK范數和2D旋轉位置編碼,以進一步穩(wěn)定訓練并提高性能。

實驗結果

圖片圖片圖片圖片圖片圖片圖片圖片

結論和未來工作

總之,DrivingWorld通過利用GPT風格的框架來生成更長、高保真的視頻預測,并提高了泛化能力,從而解決了以前自動駕駛視頻生成模型的局限性。與在長序列中難以保持連貫性或嚴重依賴標記數據的傳統(tǒng)方法不同,DrivingWorld生成了逼真、結構化的視頻序列,同時實現了精確的動作控制。與經典的GPT結構相比,我們提出的時空GPT結構采用了下一狀態(tài)預測策略來模擬連續(xù)幀之間的時間一致性,然后應用下一token預測策略來捕獲每個幀內的空間信息。展望未來,我們計劃整合更多的多模態(tài)信息,并整合多視圖輸入。通過融合來自不同模態(tài)和視角的數據,我們的目標是提高動作控制和視頻生成的準確性,增強模型理解復雜駕駛環(huán)境的能力,并進一步提高自動駕駛系統(tǒng)的整體性能和可靠性。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-01-26 11:00:00

2024-10-16 09:50:32

2025-03-24 09:50:00

大模型自動駕駛AI

2024-10-10 09:37:49

2023-10-30 09:42:29

自動駕駛模型

2024-01-23 13:32:53

地平線自動駕駛

2024-12-10 10:00:00

自動駕駛數據

2023-09-26 13:33:27

AI自動駕駛

2023-12-04 09:33:00

自動駕駛視覺

2024-03-01 09:44:05

自動駕駛標注

2017-12-20 21:50:06

地平線人工智能

2024-09-10 10:07:19

2024-11-07 09:31:55

2024-12-25 09:50:00

2022-01-18 10:51:09

自動駕駛數據人工智能

2024-07-11 11:40:18

2023-10-23 10:11:36

自動駕駛技術

2024-10-23 15:13:35

2024-03-11 10:08:12

駕駛模型

2023-11-08 10:14:02

模型學習
點贊
收藏

51CTO技術棧公眾號