地平線提出AlphaDrive,首個基于GRPO強(qiáng)化學(xué)習(xí)和規(guī)劃推理實現(xiàn)自動駕駛大模型
OpenAI 的 o1 和 DeepSeek 的 R1 模型在數(shù)學(xué),科學(xué)等復(fù)雜領(lǐng)域達(dá)到甚至超過了人類專家的水平,強(qiáng)化學(xué)習(xí)訓(xùn)練和推理技術(shù)是其中的關(guān)鍵。而在自動駕駛,近年來端到端模型大幅提升了規(guī)劃控車的效果,但是由于端到端模型缺乏常識和推理能力,在處理長尾問題上仍然效果不佳。
此前的研究嘗試將視覺語言模型(VLM)引入自動駕駛,然而這些方法通?;陬A(yù)訓(xùn)練模型,然后在駕駛數(shù)據(jù)上簡單的采用有監(jiān)督微調(diào)(SFT),并沒有在訓(xùn)練策略和針對決策規(guī)劃這一最終目標(biāo)進(jìn)行更多探索。
針對上面的問題,我們提出了 AlphaDrive, 一種針對決策規(guī)劃的 VLM 的強(qiáng)化學(xué)習(xí)和推理訓(xùn)練框架。
- 項目主頁:https://github.com/hustvl/AlphaDrive
- 論文鏈接:https://arxiv.org/abs/2503.07608
具體而言,AlphaDrive 提出了四種針對規(guī)劃的強(qiáng)化學(xué)習(xí) GRPO rewards。另外,我們提出一種基于 SFT 和 RL 的兩階段規(guī)劃推理訓(xùn)練策略。在強(qiáng)化學(xué)習(xí)階段,AlphaDrive 展出的涌現(xiàn)的多模態(tài)規(guī)劃能力,和 DeepSeek R1 的「Aha Moment」有相似之處,也證明了強(qiáng)化學(xué)習(xí)在自動駕駛大模型的應(yīng)用潛力。據(jù)我們所知,AlphaDrive 實現(xiàn)了首次將基于 GRPO 強(qiáng)化學(xué)習(xí)和規(guī)劃推理引入自動駕駛規(guī)劃,在規(guī)劃性能和訓(xùn)練效率上都取得顯著的進(jìn)步。
AlphaDrive 解決的研究問題
當(dāng)前已有一些將 VLM 應(yīng)用于自動駕駛的研究,大致可以分為兩類,一類使用 VLM 實現(xiàn)對駕駛場景的感知理解,但是其主要關(guān)注感知任務(wù);另一類則是直接使用 VLM 實現(xiàn)決策規(guī)劃,但是不像端到端模型專門用于預(yù)測軌跡。大模型的輸出空間是語言空間,并不擅長精確的數(shù)值預(yù)測,因此使用大模型直接預(yù)測軌跡可能會導(dǎo)致次優(yōu)的結(jié)果,甚至有安全隱患;另一些工作則利用大模型做高維規(guī)劃,即通過自然語言的形式規(guī)劃自車未來的行為,例如「減速,向右變道」。這樣可以避免上述的缺陷,但是并沒有在訓(xùn)練方法上進(jìn)行更多探索。它們大多采用 SFT 的訓(xùn)練方式,忽視了不同的訓(xùn)練策略與規(guī)劃表現(xiàn)間的關(guān)系和訓(xùn)練開銷問題。因此 AlphaDrive 主要嘗試解決如下的問題:
如何進(jìn)一步提升大模型在自動駕駛決策規(guī)劃的效果?
采用推理技術(shù)的 OpenAI 的 o1 模型在數(shù)學(xué),編程等領(lǐng)域能力突出。另外,最近火爆的 DeepSeek 的 R1 模型采用的 GRPO 強(qiáng)化學(xué)習(xí)技術(shù),不僅讓大模型出現(xiàn)了 「涌現(xiàn)智能」的時刻,實現(xiàn)了頂級的性能,同時訓(xùn)練開銷遠(yuǎn)小于其他的同類模型。它們證明了推理技術(shù)和強(qiáng)化學(xué)習(xí)在大模型領(lǐng)域的巨大潛力。
因此,我們想要嘗試回答如下問題:如何將在通用大模型領(lǐng)域大放異彩的強(qiáng)化學(xué)習(xí)和推理技術(shù)應(yīng)用于自動駕駛,尤其是決策規(guī)劃,從而提升大模型在自動駕駛?cè)蝿?wù)上的表現(xiàn),并降低訓(xùn)練開銷。
如何設(shè)計針對駕駛規(guī)劃的大模型強(qiáng)化學(xué)習(xí)策略?
通過大量實驗,我們發(fā)現(xiàn)直接將現(xiàn)有的強(qiáng)化學(xué)習(xí)技術(shù)在自動駕駛規(guī)劃上效果不佳。我們認(rèn)為主要有如下原因,首先,針對通用任務(wù)的強(qiáng)化學(xué)習(xí) reward 設(shè)計并不適合于駕駛場景,例如對于視覺目標(biāo)計數(shù)任務(wù),reward 可以簡單的設(shè)計為判斷模型回答的正確與否。但是對于駕駛而言,雖然規(guī)劃也可以看作為多分類任務(wù),但是由于不同駕駛行為的重要性存在區(qū)別,因此不能對于所有駕駛行為都賦予相同權(quán)重。
另外,不像數(shù)學(xué)或者 counting,規(guī)劃可能并不存在唯一的正確解,例如在一段空曠的直道上,你可以選擇勻速前進(jìn),也可以選擇加速前進(jìn)。因此硬性的判斷模型規(guī)劃結(jié)果和實際的操作是否一致并不是最好的選擇。
如何將大模型 Reasoning 技術(shù)引入決策規(guī)劃?
在通用領(lǐng)域,像是數(shù)學(xué)或者編程,都擁有較多現(xiàn)成的 reasoning 數(shù)據(jù)可以利用,例如教科書的參考答案或者編程網(wǎng)站。但是在駕駛領(lǐng)域,目前幾乎沒有現(xiàn)成的決策推理過程的數(shù)據(jù),采集這種數(shù)據(jù)的成本非常高昂,需要大量人工標(biāo)注,因此推理技術(shù)的使用也很難直接復(fù)用現(xiàn)有方案。
AlphaDrive 的關(guān)鍵創(chuàng)新
- 我們提出了 AlphaDrive,一個用于自動駕駛高維規(guī)劃的視覺語言大模型,據(jù)我們所知,AlphaDrive 首次將基于 GRPO 的強(qiáng)化學(xué)習(xí)和規(guī)劃推理引入基于大模型的自動駕駛?cè)蝿?wù),大幅提升了模型的規(guī)劃表現(xiàn)和訓(xùn)練效率。
- AlphaDrive 提出了四種強(qiáng)化學(xué)習(xí) GRPO rewards,分別是規(guī)劃準(zhǔn)確率 reward,action 權(quán)重 reward,輸出多樣性 reward 和規(guī)劃格式 reward。這些優(yōu)化的 reward 設(shè)計讓 GRPO 更適合于自動駕駛規(guī)劃任務(wù)。
- 我們提出了基于知識蒸餾的 SFT 和 RL 的兩階段推理訓(xùn)練策略,通過使用云端大模型生成的少量高質(zhì)量規(guī)劃推理數(shù)據(jù),相比于僅使用 RL 進(jìn)行訓(xùn)練或者沒有推理過程,AlphaDrive 達(dá)到了更好的規(guī)劃效果。
AlphaDrive 的實驗及應(yīng)用效果
基于真實駕駛場景的大規(guī)模數(shù)據(jù)集上的實驗和消融驗證了 AlphaDrive 的先進(jìn)性。與 SFT 訓(xùn)練的模型相比,AlphaDrive 的規(guī)劃準(zhǔn)確率顯著提升了 26%,并且在僅使用 1/5 的訓(xùn)練數(shù)據(jù)的情況下,性能比 SFT 訓(xùn)練的模型高出 35%。另外,在強(qiáng)化學(xué)習(xí)階段,AlphaDrive 展出的涌現(xiàn)的多模態(tài)規(guī)劃能力,和 DeepSeek R1 的「Aha Moment」有相似之處,證明了強(qiáng)化學(xué)習(xí)在自動駕駛大模型的應(yīng)用潛力。
未來探索方向
AlphaDrive 初步探索了大模型強(qiáng)化學(xué)習(xí)和推理技術(shù)在自動駕駛領(lǐng)域的應(yīng)用。下一步,我們將嘗試將 AlphaDrive 從 VLM 拓展到 VLA,實現(xiàn)一個統(tǒng)一的理解、決策、規(guī)劃的自動駕駛大模型。