自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

英偉達&斯坦福打破陳規(guī)!Gen-Drive:生成-評估的全新規(guī)劃范式,直接SOTA!

人工智能 新聞
在本文中,我們提出了Gen-Drive算法框架,標志著自動駕駛的決策向生成-評估的方式進行轉變。

寫在前面&筆者的個人理解

在復雜環(huán)境中導航需要自動駕駛代理能夠熟練地預測未來場景(比如其他代理的行為),同時做出明智的決策。一般而言,傳統(tǒng)的預測性和確定性規(guī)劃方法通常將預測和規(guī)劃過程分開,從而將自車與社會環(huán)境信息隔離開來,并常常導致不符合社會駕駛規(guī)范的行為。盡管目前工業(yè)界和學術界已經(jīng)提出了集成預測和規(guī)劃框架的算法模型來解決這一問題,但這類算法仍然依賴于確定性規(guī)劃,這對解決代理行為的不確定性、多模態(tài)性和相互作用的動態(tài)性提出了挑戰(zhàn)。

為了克服上述提到的這些挑戰(zhàn),我們建議在規(guī)劃任務中采用生成-評估的方法。這個方法的關鍵是將自車代理集成到社會互動環(huán)境中,為整個場景中的所有代理生成一系列可能的結果,并使用學習場景評估器來指導決策過程。同時,我們考慮到生成模型在自動駕駛的仿真和預測任務中得到了廣泛的應用,但它們在決策任務中的應用相對有限。我們認為是兩個主要限制阻礙了生成模型在規(guī)劃任務中的應用。

  • 評估生成的場景并選擇符合人類期望和價值觀的最佳決策場景非常復雜。為了解決這個問題,我們引入了一個場景評估(獎勵)模型,該模型基于從 VLM 反饋中得出的偏好數(shù)據(jù)進行訓練,從而實現(xiàn)更好的決策;
  • 與受益于樣本多樣性的仿真或者場景生成任務不同,使用生成模型進行規(guī)劃需要用更少的樣本生成更可能的未來場景,以最大限度地減少計算開銷和運行時延遲。我們通過引入強化學習 (RL) 微調框架來解決這個問題,該框架基于獲得的獎勵模型來提高擴散生成的質量;

考慮到上述提到的主要限制阻礙以及相應的解決措施,我們提出了Gen-Drive算法模型,一種擴散生成驅動策略以及相應的訓練框架。我們設計的基礎模型使用 nuPlan數(shù)據(jù)集進行訓練,并在nuPlan閉環(huán)規(guī)劃基準上進行評估。結果表明,我們的擴散驅動策略取得了良好的性能。

完整的Gen-Drive算法框架以及訓練過程如下圖所示。

圖片

Gen-Drive算法模型整體訓練框架圖

網(wǎng)絡模型的整體架構&細節(jié)梳理

在詳細介紹我們提出的Gen-Drive算法模型細節(jié)之前,下圖展示了我們提出的Gen-Drive算法模型的整體架構。

圖片提出的Gen-Drive框架的整體結構圖

通過上圖可以看出,整體而言,我們采用生成(擴散)模型來取代傳統(tǒng)范式中的預測規(guī)劃模型。二者之間的關鍵的區(qū)別在于,自車代理并不是孤立于場景之外的;相反,它被視為場景中不可或缺的一部分,所有代理的行為都相互依賴。為了利用該生成模型進行規(guī)劃,我們設計了一個場景評估(獎勵)模型。該模型使用精選的成對人類偏好數(shù)據(jù)集進行訓練,使其能夠直接對生成的場景(規(guī)劃)進行評分,并促進選擇最佳且符合上下文的決策。此外,我們利用獎勵模型來微調擴散生成過程,使其朝著生成高回報計劃的方向發(fā)展。RL微調步驟可以增強整體規(guī)劃性能并減少大量采樣的需要。

場景生成器

對于當前時間戳的初始駕駛場景,我們考慮N個目標(包括自車)和M個地圖元素,追蹤這些目標在個時間步內(nèi)的歷史軌跡。當前的場景輸入到編碼器中的包括目標的軌跡以及地圖線。其中,是路徑點的個數(shù),和是每個點的特征維度。

  • 編碼器部分:當前場景輸入最初通過時間軸自注意力Transformer層對目標軌的跡進行編碼,得到,然后通過多層感知機對地圖數(shù)據(jù)進行最大池化,得到。他們被拼接起來形成初始的編碼。我們采用以查詢?yōu)橹行牡腡ransformer編碼器來融合場景元素的特征并生成全面的場景條件編碼。
  • 去噪器部分:擴散過程在所有感興趣目標的聯(lián)合動作空間中進行,動作由加速度和偏航角比率組成。噪聲直接添加到動作序列中。給定噪聲輸入,其中是噪聲等級,是未來時間戳,此外場景條件為,我們采用具有自注意力和交叉注意力層的去噪Transformer來預測去噪后的動作序列。對于自車代理,額外的路線信息被提供,并采用了額外的交叉注意層來模擬自車的路線關系。
  • 生成:未來場景(聯(lián)合目標動作)是從隨機高斯噪聲開始生成的,隨后,每個擴散步驟k涉及從下面指定的過程進行采樣。其中,以及是根據(jù)預先確定的噪聲得到的。通過迭代地反轉擴散步驟,我們獲得最終的去噪聯(lián)合動作輸出。隨后,通過使用動態(tài)模型將目標動作轉換為狀態(tài)。該狀態(tài)包括目標的坐標、朝向和速度。

圖片

場景評估器

場景評估器將擴散生成器生成的個未來場景作為輸入,這些場景可以通過從一批高斯噪聲開始并行生成。這些生成的場景結構化為,評估器的另外一個輸入是矢量地圖。這些未來場景使用以查詢?yōu)橹行牡腡ransformer編碼器進行編碼,類似于歷史場景的編碼,從而產(chǎn)生場景特征表示。隨后,我們利用從場景編碼中提取的自車代理的未來或規(guī)劃編碼,以及將場景編碼作為Transformer解碼器中的鍵和值,得出未來場景中以規(guī)劃為中心的特征。需要注意的是,Transformer解碼器分別關注每個場景中的個元素。兩個多層感知機頭模塊附加到這個特征張量用于分別重建自車代理的規(guī)劃軌跡并輸出不同生成場景的分數(shù)。自車規(guī)劃重建的頭模塊作為輔助任務來增強穩(wěn)定性和有效性。

基于擴散模型的訓練

基礎的擴散模型經(jīng)過訓練,可以在各種噪聲水平和場景條件下從帶噪聲的軌跡輸入中恢復干凈的軌跡。在每個訓練步驟中,我們都會從噪聲級別和高斯噪聲中進行采樣來擾亂原始的動作軌跡。由于該模型預測場景級的軌跡,因此所有目標軌跡都受到相同噪聲水平的影響?;A擴散模型的訓練損失函數(shù)可以表示為:

圖片

其中,代表數(shù)據(jù)集,代表Smooth L1損失函數(shù),是動態(tài)模型,是目標的未來真值狀態(tài)。

訓練獎勵模型

  • 成對偏好數(shù)據(jù)收集:為了構建一個有效的獎勵模型,整理全面的數(shù)據(jù)集是非常有必要的。一種方法是利用人為設計的指標,例如PDM分數(shù)。但是,依賴此類指標存在很大的局限性,因為它們可能無法準確反映不同場景中的實際人類價值觀。此外,即使對于人類評估者來說,準確地用獎勵值標記場景也是一項挑戰(zhàn)。或者,我們可以讓人類標注員進行成對的比較,確定哪些場景更符合人類偏好。然而,整理大規(guī)模獎勵數(shù)據(jù)集會給人類標注員帶來巨大的工作量。為了解決這個問題,我們使用VLM來提高流程的效率和可擴展性。
    VLM輔助獎勵標記流程如下圖所示。為了增加規(guī)劃軌跡的多樣性,我們首先利用K-means聚類算法從數(shù)據(jù)中提取32個5秒錨定目標,并采用引導擴散策略為自車代理生成32條不同的規(guī)劃軌跡,以及模型對場景中其他物體的反應行為。隨后,我們對這些場景進行成對采樣。我們首先計算規(guī)劃軌跡之間的差異,然后檢查碰撞和過濾掉明顯的失敗情況。如果這些措施不足以區(qū)分,我們將使用GPT-4o提供結論性評估。如下圖所示,GPT-4o根據(jù)當前場景上下文對兩個生成的場景進行了合理的評估。

圖片

使用VLM收集規(guī)劃偏好數(shù)據(jù)的整體流程

  • 訓練過程:在每個訓練步驟中,我們從相同的初始條件中采樣一批成對比較結果,即接受的場景和拒絕的場景。訓練場景評估模型的損失函數(shù)如下,其中,是成對偏好獎勵數(shù)據(jù)集,表示預測生成場景得分的獎勵模型。

圖片

下圖顯示了一些獎勵模型輸出的示例,結果表明,我們訓練的獎勵模型為生成的計劃和場景產(chǎn)生了合理的分數(shù)。

圖片

場景評估輸出的示例

微調生成模型

為了提高擴散生成在規(guī)劃任務中的效率,我們建議使用訓練好的獎勵模型和RL對擴散模型進行微調。我們可以將擴散去噪過程公式化為多步驟的MDP,其中去噪器函數(shù)作為以每一步的噪聲輸入為條件的策略。軌跡包含K個時間戳,在擴散過程結束時發(fā)出獎勵信號。RL目標是最大化沿軌跡的累積獎勵,我們可以利用去噪擴散策略優(yōu)化來改進生成策略。微調損失公式如下,其中,是所有目標的去噪狀態(tài)軌跡,是真實軌跡。

圖片

需要注意的是,微調損失會在整個擴散軌跡上累積,并且只有去噪器是可學習的,而編碼器在微調期間是固定的。下圖展示了使用DDPO的RL微調算法流程。

圖片

實驗結果&評價指標

整體實驗結果分析

為了驗證我們提出的算法模型的有效性,我們實施了不同模型的閉環(huán)規(guī)劃實驗,結果如下表所示。

圖片

此外,為了更加直觀的展示生成過程中的一些典型場景,微調后的策略表現(xiàn)出更好的規(guī)劃性能,我們也進行了相關的可視化。

圖片規(guī)劃過程示意圖

通過相應的實驗和可視化結果可以看出,生成和評估優(yōu)于單樣本推理。多樣本規(guī)劃方法通過批處理并行生成 16 個場景,并使用學習到的獎勵模型選擇最佳場景。該方法增強了生成計劃的多樣性,從而提高了整體規(guī)劃得分。此外,具有我們學習到的獎勵模型的生成規(guī)劃器在規(guī)劃方面優(yōu)于基于 PDM 分數(shù)的評估器。此外,微調可提高性能。規(guī)劃效率仍然在很大程度上取決于生成質量,我們證明 RL 微調可以顯著提高質量和性能。值得注意的是,即使使用單樣本方法,微調策略的整體規(guī)劃得分也優(yōu)于沒有微調的多樣本方法。此外,使用我們學習到的獎勵模型進行微調比使用基于 PDM 的評分器效果更好。我們也注意到,與基于學習的預測規(guī)劃器相比,我們的模型通過使用先生成后評估的方法表現(xiàn)出卓越的性能。然而,使用基于規(guī)則的軌跡生成器和評分器的PDM-Closed規(guī)劃器獲得了最高分。值得注意的是,它針對 nuPlan 指標進行了優(yōu)化,這可能缺乏人類相似性和對現(xiàn)實世界場景的適應性。

消融實驗結果分析

首先,我們先分析了建模目標數(shù)量的影響。數(shù)量范圍從 1到 100,相關的實驗結果下表所示。我們在模型訓練中調整建模目標的數(shù)量,并在測試中使用單樣本生成。結果表明,僅生成自車的規(guī)劃會導致性能較差,主要是因為在某些情況下缺乏運動。相反,過多的建模目標(例如 100)也會導致性能和運行效率下降。因此,在保持運行效率的同時,對 50 個自車和周圍對象進行建模表現(xiàn)最佳。

圖片

此外,我們也對RL微調階段訓練步驟對結果的影響進行了實驗,并在測試中采用了多樣本生成和評分方法,相關實驗結果如下表所示。結果表明,1000 個微調步驟可實現(xiàn)最佳規(guī)劃指標,超過此指標,微調策略的性能就會下降。這是 RLHF 框架中的一個常見問題,因為策略可能會利用獎勵函數(shù)并產(chǎn)生不合理的行為。因此,我們將 RL 微調階段限制為 1000 個步驟,以防止性能下降。

圖片

結論

在本文中,我們提出了Gen-Drive算法框架,標志著自動駕駛的決策向生成-評估的方式進行轉變。實驗結果表明,與其他基于學習的規(guī)劃方法相比,我們的模型通過適當?shù)莫剟罱1憩F(xiàn)出更優(yōu)異的性能,并且通過 RL 微調得到了進一步的增強。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2021-07-06 10:37:37

模型人工智能深度學習

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2012-03-21 21:38:27

蘋果

2025-04-10 09:26:56

2024-09-26 10:23:46

2023-12-12 13:45:00

模型訓練

2009-05-19 09:06:41

Apple斯坦福iPhone

2019-12-16 14:33:01

AI人工智能斯坦福

2024-05-13 12:58:30

2024-11-25 08:20:00

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2017-11-28 14:18:29

2022-10-08 12:38:23

模型開源

2024-12-19 13:28:54

2024-04-24 09:47:36

2025-04-09 11:25:36

2022-12-29 16:41:10

PPT

2016-09-27 16:06:48

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2023-03-06 10:26:37

AI研究
點贊
收藏

51CTO技術棧公眾號