自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中科院最新DrivingGPT:利用多模態(tài)自回歸方法統(tǒng)一駕駛世界模型和規(guī)劃雙任務!

人工智能 智能汽車
今天為大家分享中科院最新的工作DrivingGPT!利用多模態(tài)自回歸方法統(tǒng)一駕駛世界模型和規(guī)劃雙任務。

寫在前面&筆者的個人理解

目前,駕駛世界模型已獲得了來自工業(yè)界和學術界的廣泛關注,因為基于模型的搜索和規(guī)劃被廣泛認為是實現(xiàn)人類級智能的重要途徑。這些模型有多種用途,包括訓練數(shù)據(jù)增強、稀有場景生成。大多數(shù)當前世界模型都是通過微調(diào)現(xiàn)有的擴散模型來開發(fā)的,利用視頻生成基礎模型的泛化能力??刂菩盘枺ㄈ缥谋?、布局和駕駛操作)通過兩種主要方法整合:擴散模型的空間特征與控制信號特征之間的交叉注意,或通道級特征調(diào)制技術。

盡管駕駛世界模型取得了非常不錯的研究進展,但一個根本挑戰(zhàn)仍然存在:在可微分框架中無縫集成世界建模和規(guī)劃仍未得到很大程度的解決,從而限制了可微分模型規(guī)劃的全部潛力。世界模型目前主要基于視頻擴散架構(gòu),限制了它們生成多種模態(tài)(如文本和動作序列)的能力。因此,在擴散模型框架內(nèi)實現(xiàn)駕駛規(guī)劃和世界建模的真正端到端集成仍然是一項重大的技術挑戰(zhàn)。這些限制促使我們探索能夠自然處理多模態(tài)輸入和輸出并實現(xiàn)端到端可微分規(guī)劃的替代架構(gòu)。

與擴散模型相比,具有下一個Token預測訓練目標的自回歸Transformer在包括語言建模、視覺問答、圖像生成、視頻預測、順序決策和機器人操作在內(nèi)的廣泛任務中表現(xiàn)出卓越的建模能力。自回歸Transformer處理順序數(shù)據(jù)和多種模態(tài)的天生能力使其特別有希望成為基于模型的集成駕駛規(guī)劃器。

基于上述的討論,在這項工作中,我們旨在利用自回歸Transformer的建模能力來進行駕駛?cè)蝿罩械氖澜缃:蛙壽E規(guī)劃,提出的算法模型稱為DrivingGPT。在具有挑戰(zhàn)性的 NAVSIM 基準上進行的實驗進一步證明了所提出的多模態(tài)駕駛語言作為規(guī)劃訓練目標的有效性。我們的 DrivingGPT 在駕駛得分方面優(yōu)于流行的帶有 MLP 軌跡解碼器規(guī)劃器的視覺編碼器。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2412.18607

網(wǎng)絡模型結(jié)構(gòu)&技術細節(jié)

經(jīng)過訓練用于下一個Token預測的自回歸Transformer已在不同領域展現(xiàn)出卓越的能力。在這項工作中,我們通過結(jié)合世界模型和軌跡規(guī)劃,利用自回歸Transformer的強大功能實現(xiàn)自動駕駛。我們的方法將視覺輸入和駕駛動作轉(zhuǎn)換為離散駕駛語言,從而通過自回歸Transformer實現(xiàn)統(tǒng)一建模,其整體的網(wǎng)絡結(jié)構(gòu)圖如下圖所示。

圖片

問題表述

與許多其他任務一樣,駕駛問題可以表述為馬爾可夫決策過程,這是一種在具有部分隨機結(jié)果的環(huán)境中做出決策的通用數(shù)學框架。MDP 包含一個狀態(tài)空間,它反映了自車和環(huán)境的所有狀態(tài);一個動作空間;一個隨機轉(zhuǎn)換函數(shù),它描述了給定時間的狀態(tài)和動作的所有可能結(jié)果的概率分布;以及一個標量獎勵函數(shù),它決定了在特定狀態(tài)下應采取的最佳動作。在大多數(shù)實際應用中,我們只能感知到噪聲觀測,而無法感知底層狀態(tài)。因此,引入了觀測概率函數(shù),MDP 變?yōu)椴糠挚捎^測的 MDP。預測未來軌跡的端到端策略和模擬駕駛世界動態(tài)的觀察空間隨機轉(zhuǎn)換函數(shù)在自動駕駛中都非常重要。我們尋求將這兩個挑戰(zhàn)統(tǒng)一為一個序列建模任務。

多模態(tài)駕駛語言

一般的駕駛序列可以表示為一系列時間同步的觀察-行動對,時間范圍為T。在這里,我們需要將觀察和動作標記為離散token,并形成多模態(tài)駕駛語言,然后才能利用自回歸Transformer進行下一個token預測。

Observation Tokenization

為了簡化我們的方法,我們只將前置攝像頭圖像包含在觀察空間中,而將更先進的傳感器設置(如周圍的 cemaras、LiDAR 和 IMU)留待將來探索。為了將更多幀納入我們的序列建模,我們利用 VQ-VAE 將圖像下采樣為圖像token。

Action Tokenization

我們的方法與現(xiàn)有的駕駛世界建模方法的不同之處在于,它能夠生成未來的駕駛行為。與大多數(shù)的端到端駕駛規(guī)劃器不同,可以預測未來的整個駕駛軌跡。我們的下一個 token 預測公式的因果性質(zhì)禁止我們構(gòu)建具有較長動作范圍的驅(qū)動序列。未來的觀察和行動都從歷史行動中獲取了太多特權信息。

Unified Visual Action Sequence Modeling

圖片

雖然駕駛語言模型形式看起來很簡單,但它明確地將駕駛世界建模和端到端駕駛作為其子任務。

Integrating Action into Trajectory

由于我們在駕駛語言中使用了幀與幀之間的相對動作,因此我們需要將它們整合起來以獲得絕對駕駛軌跡。我們首先將預測的動作轉(zhuǎn)換為二維變換矩陣,然后進行整合。

圖片

然后,我們通過連續(xù)乘以這些相對位姿矩陣來獲得絕對位姿,并將其相應地轉(zhuǎn)換回絕對動作。

實驗結(jié)果&評價指標

視頻生成的實驗結(jié)果

我們對navtest數(shù)據(jù)集上的幾種方法進行了定量比較,相關的實驗結(jié)果匯總在下表當中。

圖片

由于許多視頻模型僅發(fā)布模型權重,我們將我們的方法與它們公開可用的模型進行比較。我們發(fā)現(xiàn) SVD 和 CogvideoX 都傾向于產(chǎn)生細微的動作,這導致駕駛場景中的表現(xiàn)不佳。為了確保公平比較,我們在 navtrain 集上微調(diào)了 SVD 模型。以前的視頻模型通常依賴于基于擴散的方法,而我們的方法是自回歸視頻生成的先驅(qū)。值得注意的是,我們從頭開始訓練的模型在視頻生成質(zhì)量方面超越了以前的方法。

自回歸模型的一個關鍵優(yōu)勢是能夠通過有效利用歷史信息來生成長時長視頻,從而生成更連貫的視頻。在這個實驗中,我們從 navtest 數(shù)據(jù)集中選擇了 512 個視頻片段(每個片段包含超過 64 幀)進行評估。而 SVD 方法在生成較長的序列時很難保持質(zhì)量,相關的實驗結(jié)果如下表所示。

圖片

通過上表的實驗結(jié)果可以看出,我們的方法表現(xiàn)出了生成高質(zhì)量長期序列的卓越能力。SVD的固定幀數(shù)訓練限制導致較長序列的圖像和視頻質(zhì)量顯著下降。相比之下,我們的方法始終如一地生成高質(zhì)量圖像并獲得較低的 FVD 分數(shù),表明性能更穩(wěn)定和更優(yōu)越。

此外,與以往基于擴散的方法相比,我們的方法可以生成更加多樣化和合理的場景。如下圖所示,SVD 微調(diào)方法在生成較長的視頻時經(jīng)常會陷入重復過去內(nèi)容的困境,例如長時間被困在紅燈下。相比之下,自回歸方法在生成長視頻方面表現(xiàn)出顯著的優(yōu)勢,從而顯著改善了場景內(nèi)容和視頻質(zhì)量。

圖片

除了長視頻生成之外,我們方法的另一個優(yōu)勢在于它能緩解物體幻覺現(xiàn)象。如下圖所示,基于擴散的方法由于缺乏歷史信息,經(jīng)常會遭遇物體突然出現(xiàn)(紅色框)和逐漸消失(綠色框)的情況。相比之下,我們的自回歸方法保持了卓越的一致性。

圖片

端到端規(guī)劃的實驗結(jié)果

我們的 DrivingGPT 能夠聯(lián)合預測未來圖像和駕駛行為,從而實現(xiàn)端到端的規(guī)劃性能評估。為了嚴格評估我們的規(guī)劃器的性能,我們選擇了更具挑戰(zhàn)性的 NAVSIM 基準,該基準旨在提供比以前的 nuScenes 和 nuPlan 基準更多樣化的駕駛操作。此外,鑒于最近關于使用自車狀態(tài)將為規(guī)劃者提供過多特權信息的討論,我們故意選擇將其排除在我們的駕駛語言之外。按照 NAVSIM 設置,我們根據(jù)過去 2 秒的觀察和行動來預測未來 4 秒的軌跡。相關的實驗結(jié)果如下表所示。

圖片

與恒定速度和恒定速度恒定偏航率的基線相比,我們提出的 DrivingGPT 實現(xiàn)了不俗的表現(xiàn)性能。此外,我們的 DrivingGPT 與使用 ResNet-50 視覺編碼器和 MLP 軌跡解碼器實現(xiàn)的簡單但可靠的端到端規(guī)劃器基線相比更具優(yōu)勢。該基線僅使用前置攝像頭圖像,也不使用自車狀態(tài)??紤]到我們提出的 DrivingGPT 只能通過重建駕駛環(huán)境的高度壓縮圖像token來學習表示,結(jié)果突出了聯(lián)合學習世界建模和給定規(guī)劃的潛力。下圖展示了我們提出的DrivingGPT 在具有挑戰(zhàn)性的駕駛場景下生成的軌跡。

圖片

消融實驗分析

如下表所示,視覺標記器的質(zhì)量顯著影響世界模型視覺預測質(zhì)量的上限。我們在navtest數(shù)據(jù)集上評估了幾種最先進的離散視覺標記器,該數(shù)據(jù)集包含 12,146 個視頻樣本。根據(jù)我們的評估,我們選擇 Llama-Gen 作為我們世界模型的最佳視覺標記器。

圖片

此外,自回歸Transformer是眾所周知的強大擬合機器。因此,我們試圖回答一個問題:DrivingGPT 是否真正學會了駕駛,還是只是通過復制或推斷歷史駕駛動作來偷工減料。我們逐漸用僅從歷史動作估計的未來動作替換 DrivingGPT 的預測動作。我們只是復制最后的歷史動作,因為一般的駕駛軌跡不涉及任何動作輸入變化。相關的實驗結(jié)果如下表所示。

圖片

我們的 DrivingGPT 始終優(yōu)于所有簡單復制橫向、縱向和歷史動作的變體??赡軙⒁獾?,復制之前的縱向動作會產(chǎn)生最差的規(guī)劃結(jié)果,這是因為 NAVSIM 基準包含許多場景,其中自車剛剛開始從停止和啟動加速。實驗結(jié)果表明,我們的 DrivingGPT 真正學會了如何駕駛,而不僅僅是復制歷史動作。

同時,我們發(fā)現(xiàn)數(shù)據(jù)質(zhì)量在語言建模等其他任務上訓練自回歸Transformer時起著核心作用。因此,我們研究驅(qū)動數(shù)據(jù)質(zhì)量和數(shù)量對端到端規(guī)劃性能的影響,相關的實驗結(jié)果如下表所示。

圖片

使用NAVSIM等高質(zhì)量數(shù)據(jù)訓練的模型(僅包含 100k 個駕駛序列)優(yōu)于使用 650k 個 nuPlan 駕駛序列訓練的模型。結(jié)果表明,在駕駛語言建模中,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更重要。

結(jié)論

在本文中,我們提出了一種新穎的多模態(tài)駕駛語言,該語言有效地將視覺世界建模和軌跡規(guī)劃統(tǒng)一到序列建模任務中。我們設計的算法框架稱為DrivingGPT,可以聯(lián)合學習為這兩個任務生成圖像和動作token。在nuPlan 和 NAVSIM 基準上進行的實驗和消融研究證明了所提出的 DrivingGPT 在動作條件視頻生成和端到端規(guī)劃方面的有效性。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-06-05 09:22:43

2023-05-15 12:14:02

ChatGPT語音模型

2023-04-18 10:12:06

模型解碼

2023-04-13 15:25:14

模型

2025-02-26 13:00:00

2025-02-08 13:30:00

2024-10-22 09:40:00

模型生成

2024-10-23 15:13:35

2022-03-28 13:14:50

機器學習語言訓練AI

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2017-05-15 15:07:36

納米材料農(nóng)藥

2023-12-04 09:33:00

自動駕駛視覺

2024-03-07 12:31:29

AI技術

2017-04-17 13:31:28

中科院5G移動通信

2009-10-11 01:04:43

曙光中科院計算中心

2010-05-14 10:09:21

中科院LED無線上網(wǎng)

2016-04-19 12:51:26

2009-09-18 09:40:57

浪潮中科院合肥

2025-03-11 13:49:20

點贊
收藏

51CTO技術棧公眾號