自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

港科大最新！Vista：一種具有高保真度和多功能可控的世界模型

作者：自動駕駛Daily 2024-06-04 09:52:25

人工智能智能汽車

本文提出了Vista，這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題：Vista: A Generalizable Driving World Model with High Fidelity and Versatile Controllability

論文鏈接：https://arxiv.org/pdf/2405.17398

代碼鏈接：github.com/OpenDriveLab/Vista

作者單位：香港科技大學(xué) 上海人工智能實(shí)驗(yàn)室OpenDriveLab University of Tübingen Tübingen AI Center 香港大學(xué)

論文思路：

世界模型可以預(yù)見不同動作的結(jié)果，這對于自動駕駛至關(guān)重要。然而，現(xiàn)有的駕駛世界模型在泛化到未見環(huán)境、關(guān)鍵細(xì)節(jié)的預(yù)測保真度以及靈活應(yīng)用的動作可控性方面仍存在局限性。本文提出了Vista，這是一種具有高保真度和多功能可控性的通用駕駛世界模型?；趯ΜF(xiàn)有方法的系統(tǒng)診斷，本文引入了幾個(gè)關(guān)鍵成分來解決這些局限性。為了在高分辨率下準(zhǔn)確預(yù)測現(xiàn)實(shí)世界的動態(tài)，本文提出了兩種新的損失函數(shù)，以促進(jìn)對移動實(shí)例和結(jié)構(gòu)信息的學(xué)習(xí)。本文還設(shè)計(jì)了一種有效的潛在替換(latent replacement)方法，將歷史幀作為先驗(yàn)注入，以實(shí)現(xiàn)連貫的長時(shí)間滾動預(yù)測(rollouts)。對于動作可控性(action controllability)，本文通過一種高效的學(xué)習(xí)策略，結(jié)合了從高層意圖（命令、目標(biāo)點(diǎn)）到低層操作（軌跡、角度和速度）的一套多功能控制。在大規(guī)模訓(xùn)練之后，Vista的能力可以無縫地泛化到不同的場景。對多個(gè)數(shù)據(jù)集的廣泛實(shí)驗(yàn)表明，Vista在超過70%的比較中優(yōu)于最先進(jìn)的通用視頻生成器，并在FID上超過表現(xiàn)最佳的駕駛世界模型55%，在FVD上超過27%。此外，本文首次利用Vista自身的能力，在不訪問真實(shí)動作(ground truth actions)的情況下，建立了一個(gè)通用的獎勵(lì)機(jī)制，用于真實(shí)世界動作評估。

主要貢獻(xiàn)：

(1) 本文提出了Vista，這是一種通用的駕駛世界模型，能夠在高時(shí)空分辨率下預(yù)測逼真的未來。通過捕捉動態(tài)(capture dynamics)和保持結(jié)構(gòu)(preserve structures)的兩種新?lián)p失函數(shù)，以及詳盡的動態(tài)先驗(yàn)以維持長時(shí)間滾動預(yù)測(long-horizon rollouts)的一致性，其預(yù)測保真度得到了極大提升。

(2) 在高效學(xué)習(xí)策略的推動下，本文通過統(tǒng)一的條件接口將多功能動作可控性集成到Vista中。Vista的動作可控性還可以在零樣本的情況下泛化到不同領(lǐng)域。

(3) 本文在多個(gè)數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn)，以驗(yàn)證Vista的有效性。它優(yōu)于最具競爭力的通用視頻生成器，并在nuScenes數(shù)據(jù)集上設(shè)立了新的最先進(jìn)水平。本文的實(shí)驗(yàn)證據(jù)表明，Vista可以用作評估動作的獎勵(lì)函數(shù)(reward function)。

網(wǎng)絡(luò)設(shè)計(jì)：

在可擴(kuò)展學(xué)習(xí)技術(shù)的驅(qū)動下，自動駕駛在過去幾年中取得了令人鼓舞的進(jìn)展 [17, 54, 129]。然而，對于當(dāng)前最先進(jìn)的技術(shù)而言，復(fù)雜和分布外的情況仍然難以處理 [77]。一種有前景的解決方案是世界模型 [53, 70]，它們從歷史觀察和替代動作中推斷出世界的可能未來狀態(tài)，從而評估這些動作的可行性。世界模型有潛力在不確定性中進(jìn)行推理并避免災(zāi)難性錯(cuò)誤 [50, 70, 120]，從而促進(jìn)自動駕駛中的泛化和安全性。

盡管世界模型的主要前景是賦予其在新環(huán)境中的泛化能力，但現(xiàn)有的駕駛世界模型仍受限于數(shù)據(jù)規(guī)模 [84, 118, 120, 137, 140] 和地理覆蓋范圍 [50, 57]。如表1和圖1所總結(jié)的那樣，它們通常還局限于低幀率和低分辨率，導(dǎo)致關(guān)鍵細(xì)節(jié)的丟失。此外，大多數(shù)模型僅支持單一的控制模式，例如轉(zhuǎn)向角和速度。這不足以表達(dá)從高層意圖到低層操作的各種動作形式，并且與流行的規(guī)劃算法的輸出不兼容 [12, 14, 19, 52, 54, 60]。此外，動作可控性在未見數(shù)據(jù)集上的泛化能力研究不足。這些局限性阻礙了現(xiàn)有工作的適用性，因此開發(fā)一種能夠克服這些局限性的世界模型勢在必行。

為此，本文引入了Vista，這是一種在跨領(lǐng)域泛化、高保真預(yù)測和多模態(tài)動作可控性方面表現(xiàn)出色的駕駛世界模型。具體來說，本文在全球駕駛視頻的大型語料庫 [130] 上開發(fā)了預(yù)測模型，以培養(yǎng)其泛化能力。為了實(shí)現(xiàn)連貫的未來推斷，本文將Vista基于三種基本的動態(tài)先驗(yàn)條件（見第3.1節(jié)）。不僅依賴于標(biāo)準(zhǔn)的擴(kuò)散損失 [5]，本文還引入了兩種顯式損失函數(shù)，以增強(qiáng)動態(tài)并保持結(jié)構(gòu)細(xì)節(jié)（見第3.1節(jié)），從而提升Vista在高分辨率下模擬逼真未來的能力。為了實(shí)現(xiàn)靈活的可控性，本文結(jié)合了一套多功能動作格式，包括高層意圖（如命令和目標(biāo)點(diǎn)）以及低層操作（如軌跡、轉(zhuǎn)向角和速度）。這些動作條件通過一個(gè)統(tǒng)一接口注入，并通過高效的訓(xùn)練策略進(jìn)行學(xué)習(xí)（見第3.2節(jié)）。因此，如圖2所示，Vista獲得了以10 Hz和576×1024像素預(yù)測逼真未來的能力，并在各種粒度水平上實(shí)現(xiàn)了多功能動作可控性。本文還展示了Vista作為通用獎勵(lì)函數(shù)評估不同動作可靠性的潛力。

表1：真實(shí)世界的駕駛世界模型。Vista在大規(guī)模高質(zhì)量駕駛數(shù)據(jù)上訓(xùn)練，能夠在高時(shí)空分辨率下運(yùn)行，并支持多功能動作可控性。

圖1：分辨率比較。Vista的預(yù)測分辨率高于以往文獻(xiàn)中的模型。

圖2：Vista的能力。Vista可以從任意環(huán)境出發(fā)，在高時(shí)空分辨率下預(yù)測逼真且連續(xù)的未來（A-B）。它可以通過多模態(tài)動作進(jìn)行控制（C），并作為通用獎勵(lì)函數(shù)評估真實(shí)世界的駕駛動作（D）。

圖3：[左]：Vista流程。除了初始幀，Vista還可以通過潛在替換吸收更多關(guān)于未來動態(tài)的先驗(yàn)知識。其預(yù)測可以通過不同的動作進(jìn)行控制，并通過自回歸展開擴(kuò)展到長時(shí)間范圍。[右]：訓(xùn)練過程。Vista分為兩個(gè)訓(xùn)練階段，在第二階段中凍結(jié)預(yù)訓(xùn)練權(quán)重以學(xué)習(xí)動作控制。

圖4：損失設(shè)計(jì)示意圖。與標(biāo)準(zhǔn)擴(kuò)散損失（b）均勻分布不同，本文的動態(tài)增強(qiáng)損失（d）能夠自適應(yīng)地集中在關(guān)鍵區(qū)域（c）（例如移動的車輛和道路邊緣）進(jìn)行動態(tài)建模。此外，通過顯式監(jiān)督高頻特征（e），可以增強(qiáng)結(jié)構(gòu)細(xì)節(jié)（例如邊緣和車道）的學(xué)習(xí)。

實(shí)驗(yàn)結(jié)果：

圖5：在相同條件幀下由不同模型預(yù)測的駕駛未來。本文將Vista與公開可用的視頻生成模型在其默認(rèn)配置下進(jìn)行對比。盡管之前的模型會產(chǎn)生不對齊和損壞的結(jié)果，Vista則不會出現(xiàn)這些問題。

圖6：[頂部]：長時(shí)間預(yù)測。Vista可以在沒有太多退化的情況下預(yù)測15秒高分辨率的未來，涵蓋長距離駕駛。藍(lán)線的長度表示之前工作中展示的最長預(yù)測時(shí)間。[底部]：SVD的長期擴(kuò)展結(jié)果。SVD未能像Vista那樣自回歸地生成一致的高保真視頻。

圖7：人工評估結(jié)果。數(shù)值表示一個(gè)模型優(yōu)于另一個(gè)模型的百分比。Vista在兩個(gè)指標(biāo)上都優(yōu)于現(xiàn)有的工作。

圖8：動作控制的效果。應(yīng)用動作控制將生成與真實(shí)數(shù)據(jù)更為相似的預(yù)測。

圖9：多功能動作可控性。Vista能夠在多種情景下響應(yīng)多模態(tài)動作條件，預(yù)測相應(yīng)的結(jié)果。更多結(jié)果請參見附錄E。

圖10：[左]：在Waymo上的不同L2誤差的平均獎勵(lì)。[右]：案例研究。本文的獎勵(lì)的相對對比可以正確評估L2誤差無法判斷的動作。

圖11：動態(tài)先驗(yàn)的效果。注入更多的動態(tài)先驗(yàn)可以產(chǎn)生與真實(shí)值更一致的未來運(yùn)動，例如左側(cè)白色車輛和廣告牌的運(yùn)動。

圖12：[左]：動態(tài)增強(qiáng)損失的效果。通過動態(tài)增強(qiáng)損失監(jiān)督的模型生成更逼真的動態(tài)。在第一個(gè)例子中，前車沒有保持靜止，而是正常前進(jìn)。在第二個(gè)例子中，當(dāng)自車向右轉(zhuǎn)向時(shí)，樹木自然地向左移動，遵循現(xiàn)實(shí)世界的幾何規(guī)則。[右]：結(jié)構(gòu)保持損失的效果。所提出的損失使物體在移動時(shí)輪廓更加清晰。

總結(jié):

本文提出了Vista，這是一種具有增強(qiáng)保真度和可控性的可泛化駕駛世界模型。通過系統(tǒng)性的研究，Vista能夠以高時(shí)空分辨率預(yù)測真實(shí)且連續(xù)的未來。它還具備多功能動作可控性，能夠泛化到未見過的場景。此外，Vista可以被構(gòu)建為一個(gè)獎勵(lì)函數(shù)來評估動作。本文希望Vista能夠引發(fā)更廣泛的興趣，推動可泛化自主系統(tǒng)的發(fā)展。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="hmn0d"><rp id="hmn0d"><pre id="hmn0d"></pre></rp></cite>

<sub id="hmn0d"><p id="hmn0d"></p></sub>