自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="7re9m"></blockquote>

^{<blockquote id="7re9m"></blockquote>}

<style id="7re9m"></style>

^{<blockquote id="7re9m"></blockquote>}<legend id="7re9m"><track id="7re9m"></track></legend>

<sub id="7re9m"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

DriveWorld：一個預(yù)訓(xùn)練模型大幅提升檢測+地圖+跟蹤+運動預(yù)測+Occ多個任務(wù)性能

作者：Chen Min 2024-05-10 10:01:26

人工智能新聞

自動駕駛是一項復(fù)雜的任務(wù)，它依賴于全面的4D場景理解。這要求獲得一個穩(wěn)健的時空表示，能夠處理涉及感知、預(yù)測和規(guī)劃的任務(wù)。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面

以視覺為中心的自動駕駛技術(shù)近期因其較低的成本而引起了廣泛關(guān)注，而預(yù)訓(xùn)練對于提取通用表示至關(guān)重要。然而，當(dāng)前的以視覺為中心的預(yù)訓(xùn)練通常依賴于2D或3D預(yù)訓(xùn)練任務(wù)，忽視了自動駕駛作為4D場景理解任務(wù)的時序特征。這里通過引入一個基于世界模型的自動駕駛4D表示學(xué)習(xí)框架“DriveWorld”來解決這一挑戰(zhàn)，該框架能夠從多攝像頭駕駛視頻中以時空方式進行預(yù)訓(xùn)練。具體來說，提出了一個用于時空建模的記憶狀態(tài)空間模型，它由一個動態(tài)記憶庫模塊組成，用于學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來變化，以及一個靜態(tài)場景傳播模塊，用于學(xué)習(xí)空間感知的潛在靜態(tài)以提供全面的場景上下文。此外，還引入了一個任務(wù)提示，以解耦用于各種下游任務(wù)的任務(wù)感知特征。實驗表明，DriveWorld在各種自動駕駛?cè)蝿?wù)上取得了令人鼓舞的結(jié)果。當(dāng)使用OpenScene數(shù)據(jù)集進行預(yù)訓(xùn)練時，DriveWorld在3D檢測中實現(xiàn)了7.5%的mAP提升，在線地圖中的IoU提升了3.0%，多目標跟蹤中的AMOTA提升了5.0%，運動預(yù)測中的minADE降低了0.1m，占用預(yù)測中的IoU提升了3.0%，規(guī)劃中的平均L2誤差減少了0.34m。

領(lǐng)域背景

自動駕駛是一項復(fù)雜的任務(wù)，它依賴于全面的4D場景理解。這要求獲得一個穩(wěn)健的時空表示，能夠處理涉及感知、預(yù)測和規(guī)劃的任務(wù)。由于自然場景的隨機性、環(huán)境的部分可觀察性以及下游任務(wù)的多樣性，學(xué)習(xí)時空表示極具挑戰(zhàn)性。預(yù)訓(xùn)練在從大量數(shù)據(jù)中獲取通用表示方面起著關(guān)鍵作用，使得能夠構(gòu)建出包含共同知識的基礎(chǔ)模型。然而，自動駕駛中時空表示學(xué)習(xí)的預(yù)訓(xùn)練研究仍然相對有限。

我們的目標是利用世界模型來處理以視覺為中心的自動駕駛預(yù)訓(xùn)練中的4D表示。世界模型在表示代理對其環(huán)境的時空知識方面表現(xiàn)出色。在強化學(xué)習(xí)中，DreamerV1、DreamerV2和DreamerV3利用世界模型將代理的經(jīng)驗封裝在預(yù)測模型中，從而促進了廣泛行為的習(xí)得。MILE利用3D幾何作為歸納偏差，直接從專家演示的視頻中學(xué)習(xí)緊湊的潛在空間，以在CARLA模擬器中構(gòu)建世界模型。ContextWM和SWIM利用豐富的野外視頻對世界模型進行預(yù)訓(xùn)練，以增強下游視覺任務(wù)的高效學(xué)習(xí)。最近，GAIA-1和DriveDreamer構(gòu)建了生成性的世界模型，利用視頻、文本和動作輸入，使用擴散模型創(chuàng)建逼真的駕駛場景。與上述關(guān)于世界模型的先前工作不同，本文的方法主要側(cè)重于利用世界模型學(xué)習(xí)自動駕駛預(yù)訓(xùn)練中的4D表示。

駕駛本質(zhì)上涉及與不確定性的斗爭。在模糊的自動駕駛場景中，存在兩種類型的不確定性：偶然不確定性，源于世界的隨機性；以及認知不確定性，源于不完美的知識或信息。如何利用過去的經(jīng)驗來預(yù)測可能的未來狀態(tài)，并估計自動駕駛中缺失的世界狀態(tài)信息仍然是一個未解決的問題。本文探索了通過世界模型進行4D預(yù)訓(xùn)練以處理偶然不確定性和認知不確定性。具體來說，設(shè)計了記憶狀態(tài)空間模型，從兩個方面減少自動駕駛中的不確定性。首先，為了處理偶然不確定性，我們提出了動態(tài)記憶庫模塊，用于學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來狀態(tài)。其次，為了緩解認知不確定性，我們提出了靜態(tài)場景傳播模塊，用于學(xué)習(xí)空間感知的潛在靜態(tài)特征，以提供全面的場景上下文。此外，引入了任務(wù)提示（Task Prompt），它利用語義線索作為提示，以自適應(yīng)地調(diào)整特征提取網(wǎng)絡(luò)，以適應(yīng)不同的下游駕駛?cè)蝿?wù)。

為了驗證提出的4D預(yù)訓(xùn)練方法的性能，在nuScenes訓(xùn)練集和最近發(fā)布的大規(guī)模3D占用率數(shù)據(jù)集OpenScene上進行了預(yù)訓(xùn)練，隨后在nuScenes訓(xùn)練集上進行了微調(diào)。實驗結(jié)果表明，與2D ImageNet預(yù)訓(xùn)練、3D占用率預(yù)訓(xùn)練和知識蒸餾算法相比，4D預(yù)訓(xùn)練方法具有顯著優(yōu)勢。4D預(yù)訓(xùn)練算法在以視覺為中心的自動駕駛?cè)蝿?wù)中表現(xiàn)出極大的改進，包括3D檢測、多目標跟蹤、在線建圖、運動預(yù)測、占用率預(yù)測和規(guī)劃。

網(wǎng)絡(luò)結(jié)構(gòu)

DriveWorld的總體框架如下所示，由于自動駕駛嚴重依賴于對4D場景的理解，方法首先涉及將多攝像頭圖像轉(zhuǎn)換為4D空間。在所提出的時空建模的記憶狀態(tài)空間模型中，有兩個基本組件：動態(tài)記憶庫，它學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來狀態(tài)；以及靜態(tài)場景傳播，它學(xué)習(xí)空間感知的潛在靜態(tài)特征以提供全面的場景上下文。這種配置有助于解碼器為當(dāng)前和未來時間步重建3D占用和動作的任務(wù)。此外，基于預(yù)訓(xùn)練的文本編碼器設(shè)計了任務(wù)prompt，以自適應(yīng)地為各種任務(wù)解耦任務(wù)感知特征。

提出的記憶狀態(tài)空間模型（MSSM）的總體架構(gòu)。MSSM將傳輸?shù)男畔⒎譃閮深悾簳r間感知信息和空間感知信息。動態(tài)記憶庫模塊利用運動感知層歸一化（MLN）來編碼時間感知屬性，并與動態(tài)更新的記憶庫進行信息交互。同時，靜態(tài)場景傳播模塊使用BEV特征來表示空間感知的潛在靜態(tài)信息，這些信息直接被傳送到解碼器。

雖然通過世界模型設(shè)計的預(yù)訓(xùn)練任務(wù)使得時空表示的學(xué)習(xí)成為可能，但不同的下游任務(wù)側(cè)重于不同的信息。例如，3D檢測任務(wù)強調(diào)當(dāng)前的空間感知信息，而未來預(yù)測任務(wù)則優(yōu)先考慮時間感知信息。過分關(guān)注未來的信息，如車輛未來的位置，可能會對3D檢測任務(wù)產(chǎn)生不利影響。為了緩解這個問題，受到少樣本圖像識別中語義提示和多任務(wù)學(xué)習(xí)中視覺示例驅(qū)動的提示的啟發(fā)，引入了“任務(wù)提示”的概念，為不同的頭提供特定的線索，以指導(dǎo)它們提取任務(wù)感知特征。認識到不同任務(wù)之間存在的語義聯(lián)系，利用大型語言模型來構(gòu)建這些任務(wù)提示。

損失函數(shù)

DriveWorld的預(yù)訓(xùn)練目標涉及最小化后驗和先驗狀態(tài)分布之間的差異（即Kullback-Leibler（KL）散度），以及最小化與過去和未來3D占用，即CrossEntropy損失（CE）和L1損失。這里描述了模型在T個時間步上觀察輸入，然后預(yù)測未來L步的3D占用和動作。DriveWorld的總損失函數(shù)是：

實驗對比分析

數(shù)據(jù)集。在自動駕駛數(shù)據(jù)集nuScenes 和最大規(guī)模的3D占用數(shù)據(jù)集OpenScene 上進行預(yù)訓(xùn)練，并在nuScenes上進行微調(diào)。評估設(shè)置與UniAD 相同。

預(yù)訓(xùn)練。與BEVFormer 和UniAD 一致，使用ResNet101-DCN 作為基礎(chǔ)骨干網(wǎng)絡(luò)。對于3D占用預(yù)測，設(shè)置了16 × 200 × 200的體素大小。學(xué)習(xí)率設(shè)置為2×10?4。默認情況下，預(yù)訓(xùn)練階段包含24個epoch。

微調(diào)。在微調(diào)階段，保留用于生成BEV特征的預(yù)訓(xùn)練編碼器，并對下游任務(wù)進行微調(diào)。對于3D檢測任務(wù)，我們使用了BEVFormer 框架，微調(diào)其參數(shù)而不凍結(jié)編碼器，并進行了24個epoch的訓(xùn)練。對于其他自動駕駛?cè)蝿?wù)，我們使用了UniAD 框架，并將我們微調(diào)后的BEVFormer權(quán)重加載到UniAD中，對所有任務(wù)遵循標準的20個epoch的訓(xùn)練協(xié)議。對于UniAD，我們遵循其實驗設(shè)置，這包括在第一階段訓(xùn)練6個epoch，在第二階段訓(xùn)練20個epoch。實驗使用8個NVIDIA Tesla A100 GPU進行。

Occ任務(wù)和BEV-OD任務(wù)上的提升一覽：

更多目標跟蹤和規(guī)劃任務(wù)性能提升一覽：

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營