自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="oyrtw"><s id="oyrtw"></s></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Delphi：更適合端到端模型的world model，更長更真更可控！（理想汽車&西湖大學(xué)）

作者：Enhui Ma等 2024-06-07 09:15:48

人工智能智能汽車

今天為大家分享西湖大學(xué)&理想汽車團(tuán)隊(duì)的最新的工作—Delphi，一種新的基于擴(kuò)散模型的可控長視頻生成的方法，大步邁向端到端！

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

導(dǎo)讀：

理想汽車智駕團(tuán)隊(duì)聯(lián)合西湖大學(xué)等提出了一種新的基于擴(kuò)散模型的可控長視頻生成的方法--Delphi，來釋放端到端模型的泛化性能。該方法可以在公開的nuScenes數(shù)據(jù)集上生成長達(dá) 40 幀的具備時空一致性的長視頻，該時長大約是目前最優(yōu)方法可生成時長的 5 倍。以Delphi為數(shù)據(jù)引擎，該文進(jìn)一步地提出了一個 failure-case driven framework，該框架能有效地提升數(shù)據(jù)采樣的效率，從而用最小的數(shù)據(jù)成本提升端到端模型在復(fù)雜場景上的泛化性能。在大規(guī)模的nuSenes數(shù)據(jù)集上的實(shí)驗(yàn)表明，以Delphi為數(shù)據(jù)引擎的的failure-case driven framework, 僅需生成4% 的訓(xùn)練數(shù)據(jù)集大小，就能夠?qū)⒍说蕉俗詣玉{駛模型的規(guī)劃性能提高 25%。

論文信息

論文題目：Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation
論文發(fā)表單位：西湖大學(xué)，理想汽車，天津大學(xué)中山大學(xué)，東南大學(xué)，哈爾濱工程大學(xué)，哈爾濱工業(yè)大學(xué)
論文地址：https://arxiv.org/abs/2406.01349
項(xiàng)目主頁：https://westlake-autolab.github.io/delphi.github.io/

寫在前面｜為什么提出？

使用生成模型來合成新數(shù)據(jù)已經(jīng)成為自動駕駛領(lǐng)域解決數(shù)據(jù)稀缺問題的事實(shí)標(biāo)準(zhǔn)。雖然現(xiàn)有方法能夠提升感知模型的性能，但我們發(fā)現(xiàn)這些方法未能改善端到端自動駕駛模型的規(guī)劃性能，因?yàn)樯傻囊曨l通常少于8幀，且空間和時間的一致性問題不可忽視。為此，我們提出了Delphi，一種基于擴(kuò)散模型的長視頻生成方法，通過跨多視角的共享噪聲建模機(jī)制來增加空間一致性，并通過特征對齊模塊實(shí)現(xiàn)精確的可控性和時間一致性。我們的方法能夠生成多達(dá)40幀的視頻而不失去一致性，約為現(xiàn)有最先進(jìn)方法的5倍。不同于隨機(jī)生成新數(shù)據(jù)的策略，我們進(jìn)一步設(shè)計(jì)了一個采樣策略，使Delphi生成與失敗案例相似的新數(shù)據(jù)，以提高采樣效率。這是通過借助預(yù)訓(xùn)練視覺語言模型建立一個failure-case driven framework實(shí)現(xiàn)的。我們的廣泛實(shí)驗(yàn)表明，Delphi生成的長視頻質(zhì)量更高，超越了現(xiàn)有最先進(jìn)的方法。因此，盡管只生成了訓(xùn)練數(shù)據(jù)集大小的4%，我們的框架首次超越了感知和預(yù)測任務(wù)，將端到端自動駕駛模型的規(guī)劃性能提升了25%。請參考項(xiàng)目主頁：https://westlake-autolab.github.io/delphi.github.io/

Demo示例

在nuScenes數(shù)據(jù)集上的長視頻生成（40幀）

精準(zhǔn)的控制能力

該文從兩方面來展示了Delphi的精準(zhǔn)控制能力。

首先，對于instance-level即物體級別的時序一致性，與現(xiàn)有最優(yōu)方法相比，Delphi可以在前后幀上保持同一車輛實(shí)例的外觀一致性：

除此之外，Delphi展示了優(yōu)秀的multi-level編輯能力。如下圖所示，通過編輯instance caption / scene caption, Delphi可以精準(zhǔn)地改變場景中實(shí)例的顏色屬性/整體的天氣屬性：

Scaleing up

除此之外，為了驗(yàn)證訓(xùn)練數(shù)據(jù)規(guī)模的影響，該文又做了一個額外的實(shí)驗(yàn)（注意：只有該處用了extra training data）。即通過在私有的多視角駕駛數(shù)據(jù)集 ? 上進(jìn)行額外訓(xùn)練（訓(xùn)練數(shù)據(jù)大約比 nuScenes 大 50 倍），Delphi 展示了生成多達(dá) 120 幀具有時空一致性的長視頻的有趣功能。這充分體現(xiàn)了Delphi的可擴(kuò)展性。

? 理想汽車股份有限公司版權(quán)所有。

應(yīng)用：可用于閉環(huán)評估的視覺渲染器

Delphi 可以用作具有逼真圖像生成能力的數(shù)據(jù)引擎，并進(jìn)一步支持端到端模型（如 UniAD）的閉環(huán)評估。下面我們展示了在 nuNcenes 上進(jìn)行閉環(huán)評估的視頻demo：

上面一排展示的是 nuNcenes 數(shù)據(jù)集采集到的一段開環(huán)評估場景：“自車以恒定速度行駛”，其中自車不能與真實(shí)環(huán)境交互。下排展示了我們使用 Delphi 在 nuNcenes 上的一段閉環(huán)評估場景：“自車加速，與前車的距離不斷減小，最終撞上前車”。以Delphi作為數(shù)據(jù)引擎，端到端算法可以自由地與真實(shí)環(huán)境交互，從而在仿真環(huán)境中就可實(shí)現(xiàn)上路實(shí)測的效果。

方法框架介紹

我們首先介紹Delphi，一種用于生成自動駕駛長多視角視頻的創(chuàng)新方法。然后介紹了一個failure-case driven framework，展示了如何利用長視頻生成能力，僅通過訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)，來自動增強(qiáng)端到端模型的泛化能力。

Delphi: A Controllable Long Video Generation Method

Delphi的整體框架如上圖所示?，F(xiàn)有方法往往忽略了時間和空間維度上的噪聲處理，導(dǎo)致長視頻生成質(zhì)量較差。相比之下，我們提出了兩個關(guān)鍵組件來解決這些問題：Noise Reinitialization Module（NRM）和 Feature-aligned Temporal Consistency（FTCM）。

Noise Reinitialization Module

多視角視頻自然在時間和視角維度上表現(xiàn)出相似性。然而，現(xiàn)有方法分為兩類：一類是并行單視角視頻生成方法，無法直接應(yīng)用于戶外多視角場景；另一類是多視角生成模型，它們添加的獨(dú)立噪聲未考慮視角間的一致性。我們通過引入跨這兩個維度的共享噪聲來解決這個問題。具體而言，如上圖(b)所示，我們在時間維度上引入共享運(yùn)動噪聲 m，在視角維度上引入共享全景噪聲 p。最終輸出的多視角視頻的噪聲版本在時間和視角維度上都具有相關(guān)性。其中引入共享噪聲的過程可以表示如下：

Feature-aligned Temporal Consistency

現(xiàn)有方法在生成當(dāng)前幀時，利用簡單的交叉注意力機(jī)制將前一幀的信息融合到當(dāng)前視角中。然而，它們往往忽略了不同網(wǎng)絡(luò)深度處的特征具有不同的感受野。結(jié)果是，這種粗略的特征交互方法未能捕捉到前一幀中不同層次的所有信息，導(dǎo)致視頻生成性能不理想。

為了解決這個問題，我們提出了一種更有效的結(jié)構(gòu)，旨在完全建立相鄰幀中相同網(wǎng)絡(luò)深度下的對齊特征之間的特征交互，如上圖(c)所示。我們的做法是確保全局一致性并優(yōu)化局部一致性，其中包含兩個主要設(shè)計(jì)：Scene-aware Attention 和 Instance-aware Attention。

Scene-aware Attention

為了充分利用前一幀中不同網(wǎng)絡(luò)深度的豐富信息，我們提出了一種場景級跨幀注意力機(jī)制。具體來說，該模塊在相鄰幀中相同網(wǎng)絡(luò)深度的特征上執(zhí)行注意力計(jì)算。其計(jì)算過程可以表示如下：

Instance-aware Attention

為了增強(qiáng)場景中移動物體的一致性，我們提出了一種實(shí)例感知跨幀注意力機(jī)制。與場景級注意力相比，該模塊使用前景邊界框作為注意力掩碼，在相鄰幀的局部區(qū)域中計(jì)算特征交互。其計(jì)算過程可以表示如下：

Failure-case Driven Framework

為了利用生成的數(shù)據(jù)，常見的方法是隨機(jī)抽取訓(xùn)練數(shù)據(jù)集的一個子集，然后應(yīng)用視頻生成模型來增強(qiáng)這些數(shù)據(jù)，從而提升下游任務(wù)的性能。我們假設(shè)這種隨機(jī)抽樣并未考慮現(xiàn)有的長尾案例分布，還有進(jìn)一步優(yōu)化的空間。因此，我們提出了一個簡單但有效的 failure-case driven framework，通過四個步驟來降低計(jì)算成本。如上圖所示，我們首先評估現(xiàn)有的失敗案例，然后采用一種 visual language-based 的方法來分析這些數(shù)據(jù)中的模式，并檢索相似的場景以更深入地理解上下文。接著，我們多樣化場景和實(shí)例的描述，以生成具有不同外觀的新數(shù)據(jù)。最后，我們用這些額外的數(shù)據(jù)對下游任務(wù)進(jìn)行訓(xùn)練，以提高泛化能力。

請注意，所有這些操作都是在訓(xùn)練集上進(jìn)行的，以避免任何驗(yàn)證信息的潛在泄漏。每個組件的詳細(xì)實(shí)現(xiàn)請參見補(bǔ)充材料。

實(shí)驗(yàn)結(jié)果

本文在大規(guī)模真實(shí)場景的nuScenes進(jìn)行實(shí)驗(yàn)，以評估生成模型的性能，實(shí)驗(yàn)結(jié)果如下。我們的評估指標(biāo)包括FID、FVD 和下游模型在新生成數(shù)據(jù)上的性能來評估 image、video和sim-to-real gap。

主要實(shí)驗(yàn)

將 Delphi 與最先進(jìn)的視頻生成方法進(jìn)行比較

如表1所示，Delphi 在短視頻生成任務(wù)上以明顯優(yōu)勢超越了現(xiàn)有的最先進(jìn)方法，并且可以生成長達(dá)40幀的視頻。

本文的 failure-case driven framework 增強(qiáng)了端到端規(guī)劃模型的泛化性能

為了證明我們框架的有效性，我們在表2中比較了三個因素：生成案例數(shù)量、數(shù)據(jù)引擎（視頻生成方法）和數(shù)據(jù)源選擇?？偟膩碚f，我們發(fā)現(xiàn)，通過僅生成訓(xùn)練集大小的4%數(shù)據(jù)，我們的方法可以將碰撞率從0.33降低到0.27，降低了25%。然而，在相同的設(shè)置下，如果我們使用其他數(shù)據(jù)引擎（如 Panacea）對 UniAD 進(jìn)行微調(diào)，碰撞率會增加。盡管如此，我們還是利用隨機(jī)抽樣對兩種數(shù)據(jù)引擎進(jìn)行了比較，我們的方法始終優(yōu)于基線。

我們在下圖中展示了我們的框架如何修復(fù)失敗案例：

如果我們從驗(yàn)證集中對layout進(jìn)行采樣，會發(fā)生什么？

由于 Delphi 只看到 nuScenes 的訓(xùn)練集，一個自然的問題是，我們是否可以包含驗(yàn)證集，看看是否可以進(jìn)一步提升下游任務(wù)的性能？在這里，我們收集了來自訓(xùn)練集和驗(yàn)證集的失敗案例。請注意，由于我們的框架只使用layout和caption，因此驗(yàn)證集中的原始視頻片段在任何訓(xùn)練過程中都不會被暴露。我們注意到，僅生成429個cases，僅占訓(xùn)練集大小的1.5%，碰撞率就從0.33降低到0.26。這個結(jié)果可能對工業(yè)從業(yè)者很有趣，即僅看到訓(xùn)練集視頻的diffusion-based方法可以通過layout和caption，來有效地提升驗(yàn)證集的性能。

消融實(shí)驗(yàn)

sim-to-real gap 的消融實(shí)驗(yàn)

為了進(jìn)一步評估 sim-to-real gap，我們使用不同比例的合成數(shù)據(jù)訓(xùn)練 UniAD。在表3 的第二行，我們用純生成的視頻片段訓(xùn)練 UniAD，碰撞率從0.34增加到0.50。這表明合成數(shù)據(jù)尚不能完全替代真實(shí)數(shù)據(jù)。相比之下，如果我們考慮增量學(xué)習(xí)的設(shè)置，即使用額外數(shù)據(jù)訓(xùn)練 UniAD 時，使用合成數(shù)據(jù)能夠顯著提升性能，而使用額外的真實(shí)數(shù)據(jù)則會使性能從0.34惡化到0.38。

場景和實(shí)例編輯的消融實(shí)驗(yàn)

表4 展示了數(shù)據(jù)多樣性對端到端模型的有效性。具體來說，我們通過兩種方法編輯現(xiàn)有場景：scene-level editing 和 instance-level editing。這一高級功能使我們能夠從有限的現(xiàn)有數(shù)據(jù)中生成大量的新數(shù)據(jù)。如表4所示，同時編輯場景和實(shí)例能取得最佳性能。利用強(qiáng)大的精確可控性，Delphi 通過生成更豐富和多樣的數(shù)據(jù)，最大化端到端模型的性能。

NRM 和 FTCM的消融實(shí)驗(yàn)

在表5 中，我們驗(yàn)證了兩個模塊NRM和FTCM。我們看到所有指標(biāo)均顯著提高，從而驗(yàn)證了我們提出方法的有效性。特別是，F(xiàn)TCM 結(jié)構(gòu)將 FID 從 22.85 提高到 19.81，而 NRM 則進(jìn)一步提升了這一指標(biāo)。

總結(jié)

本文提出了一種用于自動駕駛場景的新型視頻生成方法，可以在 nuScenes 數(shù)據(jù)集上合成多達(dá)40幀的視頻。令人驚訝的是，本文展示了以僅使用訓(xùn)練數(shù)據(jù)集訓(xùn)練的擴(kuò)散模型為數(shù)據(jù)引擎，并通過一個樣本高效的 failure-case driven framework，就能夠提升端到端規(guī)劃模型的planning性能。我們希望能為該領(lǐng)域的研究人員和實(shí)踐者在解決數(shù)據(jù)稀缺問題上提供一些啟示，并向確保自動駕駛車輛道路安全邁出堅(jiān)實(shí)的一步。

責(zé)任編輯：張燕妮來源：自動駕駛之心

模型端到端

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="tfdry"></style>

<cite id="tfdry"></cite>