自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動(dòng)駕駛CornerCase變小Case,看生成式顯神通

人工智能 新聞
DriveDreamer是一個(gè)為自動(dòng)駕駛設(shè)計(jì)的現(xiàn)實(shí)世界驅(qū)動(dòng)的世界模型,它能夠生成高質(zhì)量的駕駛視頻和駕駛策略。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

數(shù)據(jù)的收集、標(biāo)注和整理過(guò)程既耗時(shí)又昂貴是自動(dòng)駕駛技術(shù)發(fā)展不得不面對(duì)的問(wèn)題。結(jié)合世界模型、擴(kuò)散模型,來(lái)生成高質(zhì)量的訓(xùn)練數(shù)據(jù),為自動(dòng)駕駛系統(tǒng)提供了更加真實(shí)和復(fù)雜的模擬環(huán)境。這種方法不僅降低了對(duì)真實(shí)世界數(shù)據(jù)集的依賴,還顯著提高了數(shù)據(jù)生成的效率和多樣性,為自動(dòng)駕駛系統(tǒng)提供了更豐富的訓(xùn)練樣本,使自動(dòng)駕駛系統(tǒng)能夠更好地適應(yīng)各種復(fù)雜的交通場(chǎng)景,有助于提升其泛化能力和魯棒性。

具體來(lái)說(shuō),近年來(lái)研究者多聚焦于如何讓各種生成式技術(shù)各顯神通,提升仿真各環(huán)節(jié)的“能力上限”。如:

1)基于世界模型生成高質(zhì)量的駕駛視頻和駕駛策略,在仿真環(huán)境中模擬各種復(fù)雜場(chǎng)景,提升系統(tǒng)的魯棒性;

2)通過(guò)整合大語(yǔ)言模型,可以生成多視圖的自動(dòng)駕駛視頻,充分考慮交通流、道路狀況、行人行為等多種因素,實(shí)現(xiàn)定制化的交通模擬;

3)從原始傳感器數(shù)據(jù)中提取特征,并生成自動(dòng)駕駛的規(guī)劃結(jié)果,實(shí)現(xiàn)生成式端到端自動(dòng)駕駛……

4)加強(qiáng)自動(dòng)駕駛系統(tǒng)的局部語(yǔ)義表示和圖像推理能力,使得自動(dòng)駕駛系統(tǒng)能夠更好地理解交通場(chǎng)景中的語(yǔ)義信息,如交通標(biāo)志、行人意圖等,從而提升決策制定的準(zhǔn)確性和安全性。

來(lái)看一些典型成果的分析。

DetDiffusion:協(xié)同生成模型和感知模型,以增強(qiáng)數(shù)據(jù)生成和感知

https://arxiv.org/abs/2403.13304

DetDiffusion是一個(gè)結(jié)合了生成模型和感知模型的框架,旨在提高數(shù)據(jù)生成和感知的性能。DetDiffusion的目標(biāo)是通過(guò)感知信息增強(qiáng)圖像生成質(zhì)量,并促進(jìn)下游感知任務(wù)的性能。模型通過(guò)在生成過(guò)程中提取和利用感知屬性(Perception-Aware Attribute, P.A. Attr)來(lái)定制數(shù)據(jù)增強(qiáng)。感知屬性為一種特殊的標(biāo)記,通過(guò)預(yù)訓(xùn)練的檢測(cè)器(如Faster R-CNN或YOLO系列)從圖像中提取對(duì)象屬性,屬性包括類別、位置和檢測(cè)難度,這些屬性被設(shè)計(jì)為特殊的標(biāo)記,以幫助擴(kuò)散模型生成與感知模型訓(xùn)練目標(biāo)更一致的圖像。此外,模型通過(guò)分割引入了感知損失(Perception-Aware Loss, P.A. Loss),從而提高了質(zhì)量和可控性。感知損失是一種新穎的損失函數(shù),利用來(lái)自分割頭的豐富視覺(jué)特征,以實(shí)現(xiàn)更精細(xì)的圖像重建。它結(jié)合了掩碼損失(mask loss)和dice損失,特別針對(duì)感知增強(qiáng)進(jìn)行優(yōu)化。

DetDiffusion的編碼器使用預(yù)訓(xùn)練的Vector Quantized Variational AutoEncoder (VQ-VAE),將原始圖像編碼到潛在空間。文本編碼器使用預(yù)訓(xùn)練的CLIP模型將文本條件編碼。然后連接一個(gè)包含不同尺寸的resnet和transformer網(wǎng)絡(luò)的UNet,用于生成過(guò)程,并通過(guò)交叉注意力機(jī)制整合條件變量。模型還基于UNet中間特征的分割模塊引入分割頭,用于生成對(duì)象掩碼,與標(biāo)簽真實(shí)值結(jié)合以增強(qiáng)可控性。訓(xùn)練時(shí),首先利用感知屬性作為條件輸入,通過(guò)感知損失進(jìn)行監(jiān)督,生成高質(zhì)量的圖像。然后通過(guò)優(yōu)化模型的高維特征空間,使用感知信息進(jìn)行更準(zhǔn)確的圖像合成。

結(jié)果顯示,DetDiffusion在圖像質(zhì)量和與布局的一致性方面超越了現(xiàn)有的圖像(L2I)模型,并且在目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出色,顯著提高了檢測(cè)器的訓(xùn)練性能。生成的圖像與真實(shí)圖像在視覺(jué)上高度一致,展現(xiàn)了模型在圖像生成方面的高保真度和準(zhǔn)確性。

圖片圖片

DriveDreamer:邁向真實(shí)世界的自動(dòng)駕駛世界模型

https://arxiv.org/abs/2309.09777

DriveDreamer是一個(gè)為自動(dòng)駕駛設(shè)計(jì)的現(xiàn)實(shí)世界驅(qū)動(dòng)的世界模型,它能夠生成高質(zhì)量的駕駛視頻和駕駛策略。DriveDreamer利用擴(kuò)散模型(diffusion model)來(lái)構(gòu)建對(duì)復(fù)雜環(huán)境的全面表示,它采用兩階段訓(xùn)練流程,首先讓模型理解結(jié)構(gòu)化交通約束,然后賦予模型預(yù)測(cè)未來(lái)狀態(tài)的能力。第一階段訓(xùn)練Auto-DM(Autonomous-driving Diffusion Model),用于模擬和理解真實(shí)世界駕駛視頻。該階段以結(jié)構(gòu)化交通信息作為條件輸入,包括高清地圖(HDMap)和3D盒子(3D box),使用時(shí)間注意力層(temporal attention layers)增強(qiáng)生成視頻幀的一致性。第二階段訓(xùn)練ActionFormer,它是用于基于駕駛動(dòng)作預(yù)測(cè)未來(lái)的交通結(jié)構(gòu)條件。具體為利用門控循環(huán)單元(GRU)迭代預(yù)測(cè)未來(lái)的隱藏狀態(tài),這些狀態(tài)隨后被解碼成未來(lái)的交通結(jié)構(gòu)條件。

DriveDreamer模型包括一個(gè)條件編碼器,用于嵌入不同的條件輸入,如參考圖像、HDMap、3D盒子和動(dòng)作。然后通過(guò)擴(kuò)散步驟估計(jì)噪聲并生成與輸入噪聲的損失,以優(yōu)化Auto-DM。最后通過(guò)交叉注意力促進(jìn)文本輸入與視覺(jué)信號(hào)之間的特征交互,使文本描述能夠影響生成的駕駛場(chǎng)景屬性。訓(xùn)練時(shí)通過(guò)文本提示動(dòng)態(tài)調(diào)整生成視頻的風(fēng)格,例如天氣和一天中的時(shí)間。還可以通過(guò)編碼歷史駕駛動(dòng)作和Auto-DM提取的多尺度潛在特征,生成合理的未來(lái)駕駛動(dòng)作。DriveDreamer還可以擴(kuò)展到多視圖圖像/視頻生成,使用視圖注意力層來(lái)保持生成內(nèi)容的一致性。

DriveDreamer模型的創(chuàng)新之處在于其對(duì)真實(shí)世界駕駛場(chǎng)景的深入理解,引入了Auto-DM和兩階段訓(xùn)練流程,以及能夠生成與交通約束高度一致的駕駛視頻和基于歷史觀察的合理駕駛策略。這為自動(dòng)駕駛的實(shí)際應(yīng)用提供了一個(gè)強(qiáng)大的工具,特別是在提高駕駛安全性和效率方面。

圖片

DriveDreamer-2:LLM增強(qiáng)的世界模型,用于多樣化的駕駛視頻生成

https://arxiv.org/abs/2403.06845

DriveDreamer-2是一個(gè)根據(jù)用戶描述生成用戶自定義的駕駛視頻,增強(qiáng)了生成視頻的多樣性和定制化能力。它在DriveDreamer的基礎(chǔ)上進(jìn)行了增強(qiáng),并整合了大型語(yǔ)言模型(LLM)。DriveDreamer-2首先集成了一個(gè)大型語(yǔ)言模型(LLM)接口,用于將用戶的查詢轉(zhuǎn)換成代理軌跡(agent trajectories)。然后通過(guò)HDMap生成器基于軌跡生成遵守交通規(guī)則的高清地圖(HDMap),作為視頻生成的背景條件。文章引入一個(gè)統(tǒng)一多視圖模型(UniMVM),用于在DriveDreamer框架內(nèi)生成多視圖駕駛視頻,統(tǒng)一了視角內(nèi)和視角間的一致性。通過(guò)調(diào)整掩碼(mask),UniMVM能夠?qū)崿F(xiàn)基于初始幀、前視視頻輸入以及無(wú)需圖像輸入的視頻生成。

模型能夠?qū)崿F(xiàn)定制化交通模擬,即利用構(gòu)建的功能庫(kù)對(duì)大型語(yǔ)言模型進(jìn)行微調(diào),使其能夠基于用戶文本輸入生成代理軌跡。并且,HDMap生成器使用擴(kuò)散模型來(lái)模擬道路結(jié)構(gòu),將之前生成的代理軌跡作為條件輸入。DriveDreamer-2能夠生成高質(zhì)量的駕駛視頻,其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分?jǐn)?shù)分別為11.2和55.7,相比之前的方法有顯著提升??傮w來(lái)說(shuō),DriveDreamer-2的主要貢獻(xiàn)在于:(1)它提出了一個(gè)使用文本提示生成多樣化交通條件的交通模擬管道。(2)引入U(xiǎn)niMVM框架提升了生成視頻中的時(shí)間和空間連貫性。(3)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了DriveDreamer-2生成多樣化定制化視頻的能力,并且提升了下游任務(wù)的性能。

圖片

GenAD:生成式端到端自動(dòng)駕駛

https://arxiv.org/abs/2402.11502

文章介紹了一個(gè)名為GenAD(Generative End-to-End Autonomous Driving)的框架,旨在通過(guò)生成模型直接從原始傳感器數(shù)據(jù)中生成自動(dòng)駕駛的規(guī)劃結(jié)果,實(shí)現(xiàn)生成式端到端自動(dòng)駕駛(Generative End-to-End Autonomous Driving)。本文探索了端到端自動(dòng)駕駛的新范式,其中關(guān)鍵是如何根據(jù)過(guò)去的場(chǎng)景演變預(yù)測(cè)自我汽車和周圍環(huán)境,將自動(dòng)駕駛轉(zhuǎn)變?yōu)樯山?wèn)題。文章提出了一個(gè)以實(shí)例為中心的場(chǎng)景表示(Instance-Centric Scene Representation),首先使用一個(gè)場(chǎng)景標(biāo)記器(scene tokenizer)將周圍場(chǎng)景轉(zhuǎn)換為具有地圖意識(shí)的實(shí)例令牌(map-aware instance tokens)。然后通過(guò)背景網(wǎng)絡(luò)提取圖像特征,并將它們轉(zhuǎn)換到3D鳥(niǎo)瞰圖(BEV)空間。最后使用交叉注意力(cross-attention)和自注意力(self-attention)機(jī)制來(lái)細(xì)化地圖和代理(agent)令牌,同時(shí)整合實(shí)例和地圖信息。然后,使用變分自編碼器(VAE)學(xué)習(xí)將真實(shí)軌跡映射到高斯分布的潛在空間,以模擬軌跡的不確定性和結(jié)構(gòu)化先驗(yàn),以進(jìn)行軌跡先驗(yàn)建模(Trajectory Prior Modeling)。最后,為實(shí)現(xiàn)潛在未來(lái)軌跡生成(Latent Future Trajectory Generation),采用門控循環(huán)單元(GRU)對(duì)潛在空間中的實(shí)例進(jìn)行自回歸建模,以生成更有效的未來(lái)軌跡。

GenAD框架將自動(dòng)駕駛視為一個(gè)生成問(wèn)題,通過(guò)在結(jié)構(gòu)化潛在軌跡空間中采樣,并使用學(xué)習(xí)到的時(shí)間模型來(lái)生成未來(lái)場(chǎng)景,同時(shí)執(zhí)行運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃。在訓(xùn)練階段,使用實(shí)例分布和真實(shí)軌跡分布之間的Kullback-Leibler散度損失來(lái)強(qiáng)制分布匹配。在推理階段,丟棄未來(lái)軌跡編碼器,根據(jù)實(shí)例令牌的條件在潛在空間中采樣,并使用學(xué)習(xí)到的時(shí)間模型生成未來(lái)軌跡。在nuScenes基準(zhǔn)測(cè)試中進(jìn)行了廣泛的實(shí)驗(yàn),證明了GenAD在基于視覺(jué)的端到端自動(dòng)駕駛中取得了最先進(jìn)的性能,并且具有高效率。

圖片

MagicDrive:具有多種 3D 幾何控制的街景生成功能

https://arxiv.org/abs/2310.02601

文章介紹了一個(gè)名為MAGICDRIVE的框架,它是一個(gè)用于生成多視角街道視圖圖像和視頻的模型,這些圖像和視頻可以捕捉精細(xì)的3D幾何細(xì)節(jié)和各種場(chǎng)景描述。該框架通過(guò)定制的編碼策略,實(shí)現(xiàn)了對(duì)相機(jī)姿勢(shì)、道路地圖、3D邊界框和文本描述的精確控制。為了實(shí)現(xiàn)多樣化的3D幾何控制,模型需要理解不同相機(jī)姿勢(shì)(Camera Pose)下的視圖,包括內(nèi)部參數(shù)(如焦距)和外部參數(shù)(如相機(jī)在世界坐標(biāo)系中的位置和旋轉(zhuǎn))。模型以道路地圖作為背景條件,提供了道路的二維網(wǎng)格格式信息,包括道路、人行道、交通標(biāo)志等。3D邊界框(3D Bounding Boxes)用于表示場(chǎng)景中對(duì)象的位置和尺寸,包括車輛、行人等,每個(gè)邊界框由其8個(gè)角點(diǎn)的坐標(biāo)定義。

通過(guò)定制編碼策略提供多樣化的 3D 幾何控制,包括:(1)場(chǎng)景級(jí)編碼(Scene-level Encoding):使用模板構(gòu)建文本提示,并利用預(yù)訓(xùn)練的CLIP文本編碼器處理文本描述。(2)3D邊界框編碼(3D Bounding Box Encoding):使用交叉注意力機(jī)制對(duì)每個(gè)邊界框進(jìn)行編碼,包括類別標(biāo)簽和邊界框位置。(3)道路地圖編碼(Road Map Encoding):使用額外的編碼器分支來(lái)處理道路地圖信息,實(shí)現(xiàn)視圖轉(zhuǎn)換和與3D邊界框的協(xié)同。此外,為了保持不同相機(jī)視角之間的一致性,MAGICDRIVE引入了一個(gè)交叉視角注意力模塊(Cross-View Attention Module)。該模塊允許目標(biāo)視圖從其相鄰的左側(cè)和右側(cè)視圖中獲取信息,并通過(guò)注意力機(jī)制進(jìn)行信息聚合。在訓(xùn)練時(shí),使用分類器自由引導(dǎo)(Classifier-Free Guidance, CFG)來(lái)加強(qiáng)條件引導(dǎo)的影響,簡(jiǎn)化了在訓(xùn)練中丟棄條件的策略。

實(shí)驗(yàn)結(jié)果顯示,MAGICDRIVE在生成現(xiàn)實(shí)感強(qiáng)、與3D注釋高度一致的街道視圖方面表現(xiàn)出色,可以顯著提高BEV分割和3D目標(biāo)檢測(cè)任務(wù)的性能。MAGICDRIVE框架通過(guò)其定制的編碼策略和交叉視角注意力模塊,實(shí)現(xiàn)了對(duì)街道視圖生成的精確控制,同時(shí)保持了多視角之間的一致性,為自動(dòng)駕駛領(lǐng)域的3D感知任務(wù)提供了強(qiáng)大的數(shù)據(jù)支持。

圖片圖片

CarDreamer:基于世界模型的自動(dòng)駕駛開(kāi)源學(xué)習(xí)平臺(tái)

https://arxiv.org/abs/2405.09111

CarDreamer是一個(gè)為自動(dòng)駕駛開(kāi)發(fā)和評(píng)估基于世界模型(World Model, WM)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)算法的開(kāi)源學(xué)習(xí)平臺(tái)。CarDreamer的架構(gòu)包括三個(gè)主要部分:內(nèi)置任務(wù)、任務(wù)開(kāi)發(fā)套件和世界模型背骨:(1)世界模型Backbone(World Model Backbone):集成了最先進(jìn)的世界模型,如DreamerV2、DreamerV3和Planning2Explore,使用戶能夠輕松地再現(xiàn)RL算法的性能。這些模型通過(guò)標(biāo)準(zhǔn)的Gym接口與其他組件解耦和通信。(2)內(nèi)置任務(wù)(Built-in Tasks):提供了一系列高度可配置的駕駛?cè)蝿?wù),這些任務(wù)與Gym接口兼容,并配備了經(jīng)驗(yàn)優(yōu)化的獎(jiǎng)勵(lì)函數(shù)。任務(wù)包括變道、超車等,允許在難度、可觀察性、觀察模態(tài)和車輛意圖交流方面進(jìn)行廣泛定制。(3)任務(wù)開(kāi)發(fā)套件(Task Development Suite):通過(guò)API提供了一系列功能,包括API驅(qū)動(dòng)的車輛生成和交通流控制,以及模塊化的觀察者(Observer)用于輕松收集多模態(tài)數(shù)據(jù)。此外,還有一個(gè)可視化服務(wù)器,允許用戶通過(guò)瀏覽器實(shí)時(shí)追蹤代理駕駛視頻和性能指標(biāo)。

使用DreamerV3作為模型Backbone,在CarDreamer中的不同任務(wù)上進(jìn)行訓(xùn)練和評(píng)估。實(shí)驗(yàn)結(jié)果展示了在不同駕駛?cè)蝿?wù)中WM的性能。文章評(píng)估了在不同觀察模態(tài)(BEV、相機(jī)、激光雷達(dá))下,世界模型預(yù)測(cè)未來(lái)狀態(tài)的能力。實(shí)驗(yàn)結(jié)果表明,無(wú)論觀察模態(tài)如何,世界模型都能準(zhǔn)確預(yù)測(cè)未來(lái)。此外,CarDreamer允許車輛之間進(jìn)行不同程度的通信,包括視野共享和意圖共享。實(shí)驗(yàn)結(jié)果表明,通信可以顯著提高交通的安全性和效率。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2019-04-19 13:15:41

自動(dòng)駕駛百度阿里

2018-11-29 12:49:52

自動(dòng)駕駛英偉達(dá)聯(lián)發(fā)科

2023-04-11 09:57:26

自動(dòng)駕駛騎車

2022-10-27 10:18:25

自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2023-10-18 10:52:40

VR蘋果

2023-10-18 09:36:35

2018-10-24 14:16:33

自動(dòng)駕駛道路測(cè)試牌照

2020-09-28 14:00:06

自動(dòng)駕駛AI網(wǎng)絡(luò)

2021-12-01 10:21:27

自動(dòng)駕駛技術(shù)人工智能

2021-12-16 10:45:22

自動(dòng)駕駛數(shù)據(jù)人工智能

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2024-10-08 16:22:24

2019-11-25 09:55:34

自動(dòng)駕駛人工智能無(wú)人駕駛

2021-11-18 22:43:56

自動(dòng)駕駛技術(shù)安全

2021-11-01 13:53:24

自動(dòng)駕駛數(shù)據(jù)人工智能

2022-02-17 10:22:17

汽車智能自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)