自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大最新!Vista:一種具有高保真度和多功能可控的世界模型

人工智能 智能汽車
本文提出了Vista,這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題:Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

論文鏈接:https://arxiv.org/pdf/2405.17398

代碼鏈接:github.com/OpenDriveLab/Vista

作者單位:香港科技大學(xué) 上海人工智能實(shí)驗(yàn)室OpenDriveLab University of Tübingen Tübingen AI Center 香港大學(xué)

論文思路:

世界模型可以預(yù)見不同動作的結(jié)果,這對于自動駕駛至關(guān)重要。然而,現(xiàn)有的駕駛世界模型在泛化到未見環(huán)境、關(guān)鍵細(xì)節(jié)的預(yù)測保真度以及靈活應(yīng)用的動作可控性方面仍存在局限性。本文提出了Vista,這是一種具有高保真度和多功能可控性的通用駕駛世界模型?;趯ΜF(xiàn)有方法的系統(tǒng)診斷,本文引入了幾個(gè)關(guān)鍵成分來解決這些局限性。為了在高分辨率下準(zhǔn)確預(yù)測現(xiàn)實(shí)世界的動態(tài),本文提出了兩種新的損失函數(shù),以促進(jìn)對移動實(shí)例和結(jié)構(gòu)信息的學(xué)習(xí)。本文還設(shè)計(jì)了一種有效的潛在替換(latent replacement)方法,將歷史幀作為先驗(yàn)注入,以實(shí)現(xiàn)連貫的長時(shí)間滾動預(yù)測(rollouts)。對于動作可控性(action controllability),本文通過一種高效的學(xué)習(xí)策略,結(jié)合了從高層意圖(命令、目標(biāo)點(diǎn))到低層操作(軌跡、角度和速度)的一套多功能控制。在大規(guī)模訓(xùn)練之后,Vista的能力可以無縫地泛化到不同的場景。對多個(gè)數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明,Vista在超過70%的比較中優(yōu)于最先進(jìn)的通用視頻生成器,并在FID上超過表現(xiàn)最佳的駕駛世界模型55%,在FVD上超過27%。此外,本文首次利用Vista自身的能力,在不訪問真實(shí)動作(ground truth actions)的情況下,建立了一個(gè)通用的獎勵(lì)機(jī)制,用于真實(shí)世界動作評估。

主要貢獻(xiàn):

(1) 本文提出了Vista,這是一種通用的駕駛世界模型,能夠在高時(shí)空分辨率下預(yù)測逼真的未來。通過捕捉動態(tài)(capture dynamics)和保持結(jié)構(gòu)(preserve structures)的兩種新?lián)p失函數(shù),以及詳盡的動態(tài)先驗(yàn)以維持長時(shí)間滾動預(yù)測(long-horizon rollouts)的一致性,其預(yù)測保真度得到了極大提升。

(2) 在高效學(xué)習(xí)策略的推動下,本文通過統(tǒng)一的條件接口將多功能動作可控性集成到Vista中。Vista的動作可控性還可以在零樣本的情況下泛化到不同領(lǐng)域。

(3) 本文在多個(gè)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn),以驗(yàn)證Vista的有效性。它優(yōu)于最具競爭力的通用視頻生成器,并在nuScenes數(shù)據(jù)集上設(shè)立了新的最先進(jìn)水平。本文的實(shí)驗(yàn)證據(jù)表明,Vista可以用作評估動作的獎勵(lì)函數(shù)(reward function)。

網(wǎng)絡(luò)設(shè)計(jì):

在可擴(kuò)展學(xué)習(xí)技術(shù)的驅(qū)動下,自動駕駛在過去幾年中取得了令人鼓舞的進(jìn)展 [17, 54, 129]。然而,對于當(dāng)前最先進(jìn)的技術(shù)而言,復(fù)雜和分布外的情況仍然難以處理 [77]。一種有前景的解決方案是世界模型 [53, 70],它們從歷史觀察和替代動作中推斷出世界的可能未來狀態(tài),從而評估這些動作的可行性。世界模型有潛力在不確定性中進(jìn)行推理并避免災(zāi)難性錯(cuò)誤 [50, 70, 120],從而促進(jìn)自動駕駛中的泛化和安全性。

盡管世界模型的主要前景是賦予其在新環(huán)境中的泛化能力,但現(xiàn)有的駕駛世界模型仍受限于數(shù)據(jù)規(guī)模 [84, 118, 120, 137, 140] 和地理覆蓋范圍 [50, 57]。如表1和圖1所總結(jié)的那樣,它們通常還局限于低幀率和低分辨率,導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失。此外,大多數(shù)模型僅支持單一的控制模式,例如轉(zhuǎn)向角和速度。這不足以表達(dá)從高層意圖到低層操作的各種動作形式,并且與流行的規(guī)劃算法的輸出不兼容 [12, 14, 19, 52, 54, 60]。此外,動作可控性在未見數(shù)據(jù)集上的泛化能力研究不足。這些局限性阻礙了現(xiàn)有工作的適用性,因此開發(fā)一種能夠克服這些局限性的世界模型勢在必行。

為此,本文引入了Vista,這是一種在跨領(lǐng)域泛化、高保真預(yù)測和多模態(tài)動作可控性方面表現(xiàn)出色的駕駛世界模型。具體來說,本文在全球駕駛視頻的大型語料庫 [130] 上開發(fā)了預(yù)測模型,以培養(yǎng)其泛化能力。為了實(shí)現(xiàn)連貫的未來推斷,本文將Vista基于三種基本的動態(tài)先驗(yàn)條件(見第3.1節(jié))。不僅依賴于標(biāo)準(zhǔn)的擴(kuò)散損失 [5],本文還引入了兩種顯式損失函數(shù),以增強(qiáng)動態(tài)并保持結(jié)構(gòu)細(xì)節(jié)(見第3.1節(jié)),從而提升Vista在高分辨率下模擬逼真未來的能力。為了實(shí)現(xiàn)靈活的可控性,本文結(jié)合了一套多功能動作格式,包括高層意圖(如命令和目標(biāo)點(diǎn))以及低層操作(如軌跡、轉(zhuǎn)向角和速度)。這些動作條件通過一個(gè)統(tǒng)一接口注入,并通過高效的訓(xùn)練策略進(jìn)行學(xué)習(xí)(見第3.2節(jié))。因此,如圖2所示,Vista獲得了以10 Hz和576×1024像素預(yù)測逼真未來的能力,并在各種粒度水平上實(shí)現(xiàn)了多功能動作可控性。本文還展示了Vista作為通用獎勵(lì)函數(shù)評估不同動作可靠性的潛力。

表1:真實(shí)世界的駕駛世界模型。Vista在大規(guī)模高質(zhì)量駕駛數(shù)據(jù)上訓(xùn)練,能夠在高時(shí)空分辨率下運(yùn)行,并支持多功能動作可控性。

圖片

圖1:分辨率比較。Vista的預(yù)測分辨率高于以往文獻(xiàn)中的模型。

圖2:Vista的能力。Vista可以從任意環(huán)境出發(fā),在高時(shí)空分辨率下預(yù)測逼真且連續(xù)的未來(A-B)。它可以通過多模態(tài)動作進(jìn)行控制(C),并作為通用獎勵(lì)函數(shù)評估真實(shí)世界的駕駛動作(D)。

圖3:[左]:Vista流程。除了初始幀,Vista還可以通過潛在替換吸收更多關(guān)于未來動態(tài)的先驗(yàn)知識。其預(yù)測可以通過不同的動作進(jìn)行控制,并通過自回歸展開擴(kuò)展到長時(shí)間范圍。[右]:訓(xùn)練過程。Vista分為兩個(gè)訓(xùn)練階段,在第二階段中凍結(jié)預(yù)訓(xùn)練權(quán)重以學(xué)習(xí)動作控制。

圖4:損失設(shè)計(jì)示意圖。與標(biāo)準(zhǔn)擴(kuò)散損失(b)均勻分布不同,本文的動態(tài)增強(qiáng)損失(d)能夠自適應(yīng)地集中在關(guān)鍵區(qū)域(c)(例如移動的車輛和道路邊緣)進(jìn)行動態(tài)建模。此外,通過顯式監(jiān)督高頻特征(e),可以增強(qiáng)結(jié)構(gòu)細(xì)節(jié)(例如邊緣和車道)的學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果:

圖5:在相同條件幀下由不同模型預(yù)測的駕駛未來。本文將Vista與公開可用的視頻生成模型在其默認(rèn)配置下進(jìn)行對比。盡管之前的模型會產(chǎn)生不對齊和損壞的結(jié)果,Vista則不會出現(xiàn)這些問題。

圖6:[頂部]:長時(shí)間預(yù)測。Vista可以在沒有太多退化的情況下預(yù)測15秒高分辨率的未來,涵蓋長距離駕駛。藍(lán)線的長度表示之前工作中展示的最長預(yù)測時(shí)間。[底部]:SVD的長期擴(kuò)展結(jié)果。SVD未能像Vista那樣自回歸地生成一致的高保真視頻。

圖7:人工評估結(jié)果。數(shù)值表示一個(gè)模型優(yōu)于另一個(gè)模型的百分比。Vista在兩個(gè)指標(biāo)上都優(yōu)于現(xiàn)有的工作。

圖8:動作控制的效果。應(yīng)用動作控制將生成與真實(shí)數(shù)據(jù)更為相似的預(yù)測。

圖9:多功能動作可控性。Vista能夠在多種情景下響應(yīng)多模態(tài)動作條件,預(yù)測相應(yīng)的結(jié)果。更多結(jié)果請參見附錄E。

圖10:[左]:在Waymo上的不同L2誤差的平均獎勵(lì)。[右]:案例研究。本文的獎勵(lì)的相對對比可以正確評估L2誤差無法判斷的動作。

圖11:動態(tài)先驗(yàn)的效果。注入更多的動態(tài)先驗(yàn)可以產(chǎn)生與真實(shí)值更一致的未來運(yùn)動,例如左側(cè)白色車輛和廣告牌的運(yùn)動。

圖12:[左]:動態(tài)增強(qiáng)損失的效果。通過動態(tài)增強(qiáng)損失監(jiān)督的模型生成更逼真的動態(tài)。在第一個(gè)例子中,前車沒有保持靜止,而是正常前進(jìn)。在第二個(gè)例子中,當(dāng)自車向右轉(zhuǎn)向時(shí),樹木自然地向左移動,遵循現(xiàn)實(shí)世界的幾何規(guī)則。[右]:結(jié)構(gòu)保持損失的效果。所提出的損失使物體在移動時(shí)輪廓更加清晰。

總結(jié):

本文提出了Vista,這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。通過系統(tǒng)性的研究,Vista能夠以高時(shí)空分辨率預(yù)測真實(shí)且連續(xù)的未來。它還具備多功能動作可控性,能夠泛化到未見過的場景。此外,Vista可以被構(gòu)建為一個(gè)獎勵(lì)函數(shù)來評估動作。本文希望Vista能夠引發(fā)更廣泛的興趣,推動可泛化自主系統(tǒng)的發(fā)展。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2025-04-02 08:50:00

AI視頻生成

2025-01-03 10:00:00

3D自動駕駛生成

2024-09-10 11:21:30

2023-01-09 13:18:59

AI

2024-12-30 13:40:00

2021-07-21 09:49:32

量子存儲計(jì)算機(jī)

2024-12-23 15:46:59

2015-12-18 16:15:55

架構(gòu)新型計(jì)算模型

2024-11-26 09:43:37

2021-11-16 14:11:59

語音合成微軟人工智能

2021-04-14 14:50:27

計(jì)算機(jī)模型 技術(shù)

2023-08-21 08:00:00

人工智能大型語言模型

2023-07-25 15:10:36

Linux存儲

2023-02-26 23:10:09

存儲Linux架構(gòu)

2021-06-04 08:58:41

Linux運(yùn)維Linux系統(tǒng)

2021-04-14 15:03:16

數(shù)據(jù)性能存儲

2024-06-25 11:11:12

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號