自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="v2hfg"></center>

<blockquote id="v2hfg"><p id="v2hfg"></p></blockquote>

<legend id="v2hfg"><abbr id="v2hfg"></abbr></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首創(chuàng)GRPO方案！AlphaDrive：VLM+RL破解自動駕駛長尾難題

作者：Bo Jiang等 2025-03-14 10:22:03

人工智能新聞

今天為大家分享華中科大&地平線機器人最新的工作！AlphaDrive：首創(chuàng)VLM強化學(xué)習(xí)框架，破解自動駕駛長尾難題！

寫在前面 & 筆者的個人理解

OpenAI o1 和 DeepSeek R1 在數(shù)學(xué)和科學(xué)等復(fù)雜領(lǐng)域達到了或甚至超越了人類專家的水平，強化學(xué)習(xí)（RL）和推理在其中發(fā)揮了關(guān)鍵作用。在自動駕駛領(lǐng)域，最近的端到端模型極大地提高了規(guī)劃性能，但由于常識和推理能力有限，仍然難以應(yīng)對長尾問題。

一些研究將視覺-語言模型（VLMs）集成到自動駕駛中，但它們通常依賴于預(yù)訓(xùn)練模型，并在駕駛數(shù)據(jù)上進行簡單的監(jiān)督微調(diào)（SFT），沒有進一步探索專門為規(guī)劃設(shè)計的訓(xùn)練策略或優(yōu)化方法。本文提出了 AlphaDrive，一個針對自動駕駛中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四個基于 GRPO 的 RL 獎勵，專門用于規(guī)劃，并采用結(jié)合 SFT 與 RL 的兩階段規(guī)劃推理訓(xùn)練策略。結(jié)果表明，與僅使用 SFT 或不進行推理相比，AlphaDrive 顯著提升了規(guī)劃性能和訓(xùn)練效率。此外，我們還興奮地發(fā)現(xiàn)，在 RL 訓(xùn)練之后，AlphaDrive 展現(xiàn)出了一些新興的多模態(tài)規(guī)劃能力，這對提高駕駛安全性和效率至關(guān)重要。據(jù)我們所知，AlphaDrive 是首個將基于 GRPO 的 RL 與規(guī)劃推理集成到自動駕駛中的框架。代碼將被發(fā)布以促進未來的研究。

論文鏈接：https://arxiv.org/abs/2503.07608
代碼鏈接：https://github.com/hustvl/AlphaDrive

引言

近年來，自動駕駛技術(shù)取得了快速進展，端到端自動駕駛成為最具代表性的模型之一。這些模型以傳感器數(shù)據(jù)為輸入，利用可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)規(guī)劃車輛未來軌跡。得益于大規(guī)模駕駛演示數(shù)據(jù)，端到端模型通過擴展訓(xùn)練數(shù)據(jù)和增加模型參數(shù)持續(xù)改進規(guī)劃能力。然而，由于其黑箱特性與常識推理能力的缺失，端到端模型在處理復(fù)雜和長尾駕駛場景時仍面臨重大挑戰(zhàn)。例如，當前方車輛攜帶交通錐行駛時，端到端模型可能無法理解前車與交通錐的關(guān)系，誤判道路施工不可通行，從而做出錯誤的制動決策。因此，僅依賴端到端模型實現(xiàn)高級別自動駕駛?cè)源嬖陲@著局限性。

隨著GPT的成功，大型語言模型（LLMs）展現(xiàn)出卓越的理解與推理能力，并逐步從單模態(tài)文本理解擴展到多模態(tài)視覺-語言處理。視覺-語言模型（VLMs）的常識與推理能力為緩解端到端模型的缺陷提供了潛在解決方案。

近期，OpenAI o1通過集成推理技術(shù)，在編程等領(lǐng)域達到甚至超越人類專家水平。DeepSeek R1則利用強化學(xué)習(xí)（RL），不僅展現(xiàn)出“涌現(xiàn)能力”并取得頂尖性能，且訓(xùn)練成本顯著低于其他模型。這些進展凸顯了推理技術(shù)與強化學(xué)習(xí)在大型模型開發(fā)中的巨大潛力。

現(xiàn)有將VLMs應(yīng)用于自動駕駛的研究可分為兩類：

駕駛場景理解：利用VLMs解析場景語義；
規(guī)劃決策：部分研究將VLMs作為端到端系統(tǒng)，直接根據(jù)輸入圖像生成軌跡。然而，與專為軌跡規(guī)劃設(shè)計的端到端模型不同，VLMs的輸出空間為離散語言符號，難以直接生成精確數(shù)值預(yù)測，可能導(dǎo)致性能不足或安全隱患。

部分研究嘗試通過自然語言描述高層動作（如“減速右轉(zhuǎn)”）規(guī)避上述問題，但仍缺乏對訓(xùn)練方法的深入探索。多數(shù)工作僅依賴監(jiān)督微調(diào)（SFT），忽視了不同訓(xùn)練策略對規(guī)劃性能與訓(xùn)練效率的影響。

本文探討以下核心問題：如何將強化學(xué)習(xí)與推理技術(shù)（在通用大模型中取得顯著成功的方法）應(yīng)用于自動駕駛規(guī)劃，以提升VLMs的性能并降低訓(xùn)練成本？

通過初步實驗，我們發(fā)現(xiàn)直接應(yīng)用現(xiàn)有RL與推理技術(shù)效果欠佳，主要歸因于以下三方面：

獎勵設(shè)計不匹配：通用任務(wù)的RL獎勵（如視覺計數(shù)任務(wù)的正確性判斷）難以適應(yīng)規(guī)劃需求。自動駕駛中，不同駕駛行為的重要性差異顯著（如制動與加速），需設(shè)計權(quán)重差異化的獎勵機制。
多解性挑戰(zhàn)：規(guī)劃問題通常存在多個合理解（如直行道路可選擇勻速或加速），需避免強制對齊單一真值標簽。
推理數(shù)據(jù)匱乏：自動駕駛?cè)狈ΜF(xiàn)成的規(guī)劃推理數(shù)據(jù)集，人工標注成本高昂，直接應(yīng)用現(xiàn)有推理技術(shù)困難。

針對上述挑戰(zhàn)，本文提出AlphaDrive——首個將基于GRPO的強化學(xué)習(xí)與規(guī)劃推理集成到自動駕駛的框架。具體貢獻如下：

GRPO強化學(xué)習(xí)策略：采用Group Relative Policy Optimization（GRPO），相比PPO和DPO，其組間相對優(yōu)化策略更適配規(guī)劃的多解性，實驗表明GRPO訓(xùn)練的模型展現(xiàn)出涌現(xiàn)的多模態(tài)規(guī)劃能力。
四維獎勵設(shè)計：

規(guī)劃準確性獎勵：基于F1分數(shù)評估橫向（方向）與縱向（速度）決策一致性；
動作加權(quán)獎勵：根據(jù)安全關(guān)鍵性為不同動作分配權(quán)重（如制動權(quán)重高于勻速）；
規(guī)劃多樣性獎勵：鼓勵生成多樣化可行解，防止模式坍縮；
格式規(guī)范獎勵：強制輸出結(jié)構(gòu)化格式（如<answer>標簽），提升訓(xùn)練穩(wěn)定性。

兩階段訓(xùn)練范式：
階段一（SFT知識蒸餾）：利用大模型（如GPT-4o）生成高質(zhì)量規(guī)劃推理數(shù)據(jù)，通過SFT實現(xiàn)推理過程蒸餾；
階段二（RL探索）：在SFT基礎(chǔ)上進行RL微調(diào)，緩解早期訓(xùn)練的不穩(wěn)定性和幻覺問題。

實驗表明，與僅使用SFT或無推理的模型相比，AlphaDrive在規(guī)劃準確率上提升25.52%，且在僅20%訓(xùn)練數(shù)據(jù)下性能超越SFT模型35.31%。此外，RL訓(xùn)練后模型涌現(xiàn)出多模態(tài)規(guī)劃能力（如復(fù)雜場景生成多個合理決策），為提升駕駛安全與效率提供了新方向。據(jù)我們所知，AlphaDrive是首個將GRPO-based RL與規(guī)劃推理結(jié)合的自動駕駛框架，代碼將開源以推動后續(xù)研究。

相關(guān)工作回顧

視覺-語言模型自GPT發(fā)布以來，大型模型的能力已從單模態(tài)擴展到多模態(tài)。大型視覺-語言模型（VLMs）在視覺理解與推理任務(wù)中展現(xiàn)出卓越性能。早期研究嘗試將視覺模型與大型語言模型（LLMs）結(jié)合：Flamingo通過視覺編碼器處理視覺信號，并在LLM解碼器中引入注意力層以實現(xiàn)跨模態(tài)交互；BLIP提出Q-Former架構(gòu)和跨模態(tài)對比學(xué)習(xí)任務(wù)，以橋接視覺編碼器與LLMs；LLaVA采用簡單的MLP作為視覺與語言模塊的連接器，僅用有限數(shù)據(jù)即實現(xiàn)強大的視覺理解能力。QwenVL系列進一步優(yōu)化了視覺模塊，支持高分辨率和動態(tài)分辨率圖像輸入，并在多語言任務(wù)和空間感知中表現(xiàn)優(yōu)異。

強化學(xué)習(xí)與推理自回歸學(xué)習(xí)是LLMs的主流預(yù)訓(xùn)練策略，而強化學(xué)習(xí)（RL）與推理技術(shù)進一步增強了模型能力。例如，GPT采用基于人類反饋的強化學(xué)習(xí)（RLHF），將人類意圖和偏好融入訓(xùn)練過程；直接偏好優(yōu)化（DPO）通過優(yōu)化偏好反饋提升模型性能。Group Relative Policy Optimization（GRPO）引入組間相對優(yōu)化策略，通過多組輸出的相對優(yōu)劣提升訓(xùn)練穩(wěn)定性和效果。

DeepSeek R1基于GRPO訓(xùn)練時經(jīng)歷了“頓悟時刻”（Aha Moment），模型在無顯式引導(dǎo)下自主增加問題思考并重新評估初始方案，展示了RL在推動模型從模仿轉(zhuǎn)向涌現(xiàn)智能中的潛力。本實驗中，我們同樣觀察到，經(jīng)過GRPO-based RL訓(xùn)練后，AlphaDrive展現(xiàn)出多模態(tài)規(guī)劃能力，可生成多組合理駕駛方案，為提升駕駛安全與效率提供了可能。在推理領(lǐng)域，Chain-of-thought通過分步分解復(fù)雜問題顯著提升解決能力。OpenAI o1基于該方法，結(jié)合推理時擴展（如蒙特卡洛樹搜索MCTS和集束搜索Beam Search），在科學(xué)和編程等需復(fù)雜推理的領(lǐng)域取得突破，表明除擴展模型參數(shù)與數(shù)據(jù)外，提升推理時計算量亦是重要方向。

自動駕駛規(guī)劃規(guī)劃是自動駕駛的核心任務(wù)。早期基于規(guī)則的算法通用性與效率受限。近期，端到端模型通過統(tǒng)一神經(jīng)網(wǎng)絡(luò)直接從傳感器數(shù)據(jù)輸出軌跡或控制信號，利用大規(guī)模駕駛演示數(shù)據(jù)驅(qū)動訓(xùn)練，顯著提升規(guī)劃性能。然而，端到端模型因缺乏常識與推理能力，仍難以應(yīng)對長尾場景。

VLM在自動駕駛中的應(yīng)用VLM的常識與推理能力可有效彌補端到端模型的不足。在機器人領(lǐng)域，視覺-語言-動作（VLA）模型通過理解指令執(zhí)行復(fù)雜動作，VLM生成規(guī)劃指令后由動作模型轉(zhuǎn)換為控制信號。

自動駕駛領(lǐng)域亦有相關(guān)探索：DriveGPT4以視頻為輸入，直接預(yù)測控制信號；ELM利用跨領(lǐng)域視頻數(shù)據(jù)提升VLM在駕駛?cè)蝿?wù)中的性能；OmniDrive提出稀疏3D令牌表征場景，輸入VLM進行理解與規(guī)劃。

部分研究結(jié)合VLM與端到端模型：DriveVLM首次將VLM用于低頻軌跡預(yù)測，端到端模型生成高頻軌跡；Senna提出VLM負責(zé)高層規(guī)劃、端到端模型執(zhí)行低層軌跡預(yù)測的框架。此外，多數(shù)據(jù)集與基準推動了VLM在自動駕駛中的應(yīng)用。然而，現(xiàn)有工作多依賴預(yù)訓(xùn)練模型與簡單SFT，缺乏針對規(guī)劃的訓(xùn)練策略探索，需進一步將RL與推理技術(shù)引入自動駕駛領(lǐng)域。

詳解AlphaDrive

概述

AlphaDrive 是專為自動駕駛規(guī)劃設(shè)計的視覺-語言模型（VLM）。與以往僅依賴監(jiān)督微調(diào)（SFT）的方法不同，我們探索了強化學(xué)習(xí)（RL）與推理技術(shù)的結(jié)合，以更好地適配駕駛規(guī)劃的獨特特性：

不同駕駛行為的重要性差異（如制動比勻速行駛更關(guān)鍵）；
多解性（如直行道路可選擇加速或保持速度）；
規(guī)劃推理數(shù)據(jù)的匱乏。

為此，我們提出四個基于GRPO的RL獎勵函數(shù)，并設(shè)計結(jié)合SFT與RL的兩階段規(guī)劃推理訓(xùn)練策略。實驗表明，與僅使用SFT或無推理的模型相比，AlphaDrive在規(guī)劃性能與訓(xùn)練效率上均顯著提升。以下詳細闡述各模塊的設(shè)計。

面向規(guī)劃的強化學(xué)習(xí)

強化學(xué)習(xí)算法

當前主流RL算法包括PPO、DPO和GRPO。給定查詢，GRPO從舊策略中采樣一組輸出，并通過最大化以下目標優(yōu)化新策略：

其中，，和為超參數(shù)，優(yōu)勢通過組內(nèi)獎勵歸一化計算。

選擇GRPO的原因：

DeepSeek R1[14]驗證了GRPO在通用領(lǐng)域的有效性，其訓(xùn)練穩(wěn)定性與效率優(yōu)于PPO和DPO；
GRPO的組間相對優(yōu)化策略天然適配規(guī)劃的多解性。實驗進一步表明，GRPO訓(xùn)練的模型展現(xiàn)出更強的規(guī)劃能力。

規(guī)劃獎勵建模

規(guī)劃準確性獎勵數(shù)學(xué)或編程領(lǐng)域可通過最終答案是否正確直觀判定獎勵，但規(guī)劃需同時考慮橫向（方向）與縱向（速度）決策。我們采用F1分數(shù)分別評估兩者的準確性。初期直接匹配真實標簽導(dǎo)致訓(xùn)練不穩(wěn)定，最終采用F1分數(shù)以避免模型學(xué)習(xí)“輸出所有可能動作”的捷徑策略。

動作加權(quán)獎勵不同動作對安全的重要性不同（如制動權(quán)重高于勻速）。為此，我們?yōu)閯幼鞣峙錂?quán)重，將其作為獎勵的加權(quán)分量。

規(guī)劃多樣性獎勵規(guī)劃本質(zhì)為多模態(tài)任務(wù)。為避免模型收斂到單一解，我們鼓勵生成多樣化可行解：當輸出差異較大時提高獎勵，反之降低獎勵。

規(guī)劃格式獎勵要求輸出嚴格遵循<answer>標簽格式（如<answer> decelerate, left_turn</answer>），未遵循則獎勵為0。

獎勵計算流程詳見算法1。最終，規(guī)劃質(zhì)量獎勵（準確性×權(quán)重×多樣性）與格式獎勵共同用于GRPO損失計算。

推理：大模型知識蒸餾

自動駕駛?cè)狈ΜF(xiàn)成的規(guī)劃推理數(shù)據(jù)，人工標注成本高昂。為此，我們利用大模型（如GPT-4o）從少量駕駛片段生成高質(zhì)量推理數(shù)據(jù)：

輸入：真實駕駛動作、車輛狀態(tài)與導(dǎo)航信息；
輸出：簡潔的決策過程（如“前方綠燈，但行人待穿行，故減速”）。

經(jīng)人工篩選后，通過SFT將推理過程蒸餾至AlphaDrive，顯著提升其推理能力。

訓(xùn)練：SFT預(yù)熱與RL探索

RL依賴稀疏獎勵信號，而SFT基于稠密監(jiān)督更適配知識蒸餾。此外，僅使用RL易導(dǎo)致訓(xùn)練初期不穩(wěn)定。因此，我們采用兩階段訓(xùn)練：

階段一（SFT預(yù)熱）：使用少量數(shù)據(jù)蒸餾大模型推理過程；
階段二（RL探索）：在全量數(shù)據(jù)上微調(diào)，提升模型魯棒性與多模態(tài)規(guī)劃能力。

實驗結(jié)果分析

實驗設(shè)置

數(shù)據(jù)集我們采用MetaAD作為訓(xùn)練與評估基準。該數(shù)據(jù)集包含12萬段真實駕駛片段（每段3秒），覆蓋多傳感器數(shù)據(jù)與感知標注，并保持各類駕駛環(huán)境與規(guī)劃動作的平衡分布。其中11萬段用于訓(xùn)練，1萬段用于驗證。此外，我們從訓(xùn)練集中采樣3萬段數(shù)據(jù)生成規(guī)劃推理過程。

訓(xùn)練細節(jié)以Qwen2VL-2B為基模型，輸入包括前視圖像與包含當前車速、導(dǎo)航信息的提示詞（如“直行100米后右轉(zhuǎn)”）。訓(xùn)練使用16塊NVIDIA A800 GPU。

評估指標

元動作規(guī)劃準確性：計算橫向（直行/左轉(zhuǎn)/右轉(zhuǎn)）與縱向（保持/加速/減速/停止）動作的F1分數(shù)，并綜合為整體規(guī)劃準確率；
推理質(zhì)量：通過BLEU-4、CIDEr、METEOR評估生成推理過程與標注的相似度。

主要結(jié)果

表1顯示，AlphaDrive在MetaAD上的規(guī)劃準確率達77.12%，較次優(yōu)模型Qwen2VL-7B提升25.5%。關(guān)鍵動作（如轉(zhuǎn)向與加減速）的F1分數(shù)顯著提高，推理質(zhì)量亦優(yōu)于其他模型，驗證了兩階段訓(xùn)練策略的有效性。

表2的消融實驗表明：

基礎(chǔ)準確性獎勵（ID1）因格式不匹配導(dǎo)致性能偏低；
格式獎勵（ID2）小幅提升穩(wěn)定性；
動作加權(quán)獎勵（ID3-4）顯著優(yōu)化關(guān)鍵決策；
多樣性獎勵（ID5-6）進一步防止模式坍縮。

表3對比不同訓(xùn)練策略：

SFT+RL在復(fù)雜動作（如減速）上的F1分數(shù)提升15%以上，推理能力優(yōu)于純SFT或RL模型；
RL訓(xùn)練在數(shù)據(jù)量有限時（如20K樣本）表現(xiàn)更優(yōu)，僅需20%數(shù)據(jù)即可超越SFT模型35.31%（表4）。

消融實驗

獎勵函數(shù)設(shè)計

規(guī)劃準確性獎勵（F1分數(shù)）避免模型學(xué)習(xí)“輸出所有動作”的捷徑策略；
動作加權(quán)獎勵提升安全關(guān)鍵動作（如制動）的權(quán)重；
多樣性獎勵通過懲罰重復(fù)輸出，鼓勵生成多組可行解；
格式獎勵確保輸出結(jié)構(gòu)化，提升訓(xùn)練穩(wěn)定性。

訓(xùn)練策略

SFT預(yù)熱緩解RL早期訓(xùn)練的不穩(wěn)定性；
RL探索通過GRPO優(yōu)化多解性與安全性，實驗顯示模型在復(fù)雜場景中涌現(xiàn)出多模態(tài)規(guī)劃能力（圖3）。

多模態(tài)規(guī)劃能力涌現(xiàn)

如圖3所示，AlphaDrive在復(fù)雜場景（如前方車輛緩慢行駛）中可生成多個合理決策（如減速左轉(zhuǎn)超車或停車等待），而SFT模型僅輸出單一動作。此能力可與下游動作模型結(jié)合，動態(tài)選擇最優(yōu)方案，提升駕駛安全性與效率。

結(jié)論與局限性

結(jié)論本研究提出了AlphaDrive——一種面向自動駕駛規(guī)劃的視覺-語言模型（VLM）。與以往僅依賴監(jiān)督微調(diào)（SFT）的方法不同，我們探索了強化學(xué)習(xí)（RL）與推理技術(shù)在規(guī)劃任務(wù)中的結(jié)合。具體而言，AlphaDrive引入了基于GRPO的規(guī)劃導(dǎo)向RL策略，并設(shè)計了兩階段規(guī)劃推理訓(xùn)練范式。據(jù)我們所知，AlphaDrive是首個將RL與推理技術(shù)應(yīng)用于自動駕駛規(guī)劃的框架，顯著提升了性能與訓(xùn)練效率。

局限性當前版本仍存在以下不足：

復(fù)雜行為標注數(shù)據(jù)不足：由于缺乏豐富的標注數(shù)據(jù)，AlphaDrive尚無法輸出車道變換或繞行等復(fù)雜駕駛行為；
偽標簽質(zhì)量依賴：規(guī)劃推理數(shù)據(jù)來自大模型基于真實駕駛動作生成的偽標簽，其感知準確性可能影響數(shù)據(jù)質(zhì)量，需進一步閉環(huán)驗證以提升性能上限。

未來工作將聚焦于通過數(shù)據(jù)增強與系統(tǒng)驗證優(yōu)化模型能力，推動自動駕駛規(guī)劃技術(shù)的實際應(yīng)用。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛 AI 強化學(xué)習(xí)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營