自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

閉環(huán)端到端精度暴漲19.61%!華科&小米汽車聯(lián)手打造自動(dòng)駕駛框架ORION,代碼將開(kāi)源

人工智能 新聞
本文提出了 ORION,這是一個(gè)通過(guò)視覺(jué)語(yǔ)言指令指導(dǎo)軌跡生成的端到端自動(dòng)駕駛框架。

近年來(lái),端到端(End-to-End,E2E)自動(dòng)駕駛技術(shù)不斷進(jìn)步,但在復(fù)雜的閉環(huán)交互環(huán)境中,由于其因果推理能力有限,仍然難以做出準(zhǔn)確決策。雖然視覺(jué) - 語(yǔ)言大模型(Vision-Language Model,VLM)憑借其卓越的理解和推理能力,為端到端自動(dòng)駕駛帶來(lái)了新的希望,但現(xiàn)有方法在 VLM 的語(yǔ)義推理空間和純數(shù)值軌跡的行動(dòng)空間之間仍然存在巨大鴻溝。

除此之外,現(xiàn)有的方法常常通過(guò)疊加多幀的圖像信息完成時(shí)序建模,這會(huì)受到 VLM 的 Token 長(zhǎng)度限制,并且會(huì)增加額外的計(jì)算開(kāi)銷。

為了解決上述問(wèn)題,本文提出了 ORION,這是一個(gè)通過(guò)視覺(jué)語(yǔ)言指令指導(dǎo)軌跡生成的端到端自動(dòng)駕駛框架。ORION 巧妙地引入了 QT-Former 用于聚合長(zhǎng)期歷史上下文信息,VLM 用于駕駛場(chǎng)景理解和推理,并啟發(fā)式地利用生成模型對(duì)齊了推理空間與動(dòng)作空間,實(shí)現(xiàn)了視覺(jué)問(wèn)答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。

圖片

圖 1:不同的端到端自動(dòng)駕駛范式的對(duì)比

ORION 在具有挑戰(zhàn)性的閉環(huán)評(píng)測(cè) Bench2Drive 數(shù)據(jù)集上實(shí)現(xiàn)了優(yōu)秀的性能,駕駛得分為 77.74 分,成功率為 54.62%,相比之前的 SOTA 方法分別高出 14.28分和 19.61% 的成功率。

此外,ORION 的代碼、模型和數(shù)據(jù)集將很快開(kāi)源。

圖片

  • 論文標(biāo)題:ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation
  • 論文地址:https://arxiv.org/abs/2503.19755
  • 項(xiàng)目地址:https://xiaomi-mlab.github.io/Orion/
  • 代碼地址:https://github.com/xiaomi-mlab/Orion
  • 單位:華中科技大學(xué)、小米汽車

我們來(lái)看一下 ORION 框架下的閉環(huán)駕駛能力:

ORION 檢測(cè)到騎自行車的人并向左變道避免了碰撞。

圖片

ORION 檢測(cè)到右前方的車輛,先執(zhí)行減速,然后再改變車道。

圖片

ORION 識(shí)別停車標(biāo)志并停車,等待一段時(shí)間,然后重新啟動(dòng)成功通過(guò)十字路口。

圖片

主要貢獻(xiàn)

本文提出了一個(gè)簡(jiǎn)單且有效的端到端自動(dòng)駕駛框架 ORION,主要包含如下幾方面的貢獻(xiàn):

  • VLM + 生成模型:利用生成模型彌補(bǔ)了 VLM 的推理空間與軌跡的動(dòng)作空間之間的差距,從而使 ORION 能夠理解場(chǎng)景并指導(dǎo)軌跡生成。
  • QT-Former:引入 QT-Former 聚合歷史場(chǎng)景信息,使模型能夠?qū)v史信息整合到當(dāng)前推理和動(dòng)作空間中。
  • 可擴(kuò)展性:ORION 可以與多種生成模型兼容,實(shí)驗(yàn)證明了所提出框架的靈活性。
  • 性能優(yōu)異:在仿真數(shù)據(jù)集 Bench2drive 的閉環(huán)測(cè)試上取得 SOTA 的性能。

研究動(dòng)機(jī)

經(jīng)典的 E2E 自動(dòng)駕駛方法通過(guò)多任務(wù)學(xué)習(xí)整合感知、預(yù)測(cè)和規(guī)劃模塊,在開(kāi)環(huán)評(píng)估中表現(xiàn)出優(yōu)秀的能力。然而,在需要自主決策和動(dòng)態(tài)環(huán)境交互的閉環(huán)基準(zhǔn)測(cè)試中,由于缺少因果推理能力,這些方法往往表現(xiàn)不佳。

近年來(lái),VLM 憑借其強(qiáng)大的理解和推理能力,為 E2E 自動(dòng)駕駛帶來(lái)了新的解決思路。但直接使用 VLM 進(jìn)行端到端自動(dòng)駕駛也面臨諸多挑戰(zhàn),例如,VLM 的能力主要集中在語(yǔ)義推理空間,而 E2E 方法的輸出是動(dòng)作空間中的數(shù)值規(guī)劃結(jié)果。

一些方法嘗試直接用 VLM 輸出基于文本的規(guī)劃結(jié)果,但 VLM 在處理數(shù)學(xué)計(jì)算和數(shù)值推理方面存在不足,且其自回歸機(jī)制導(dǎo)致只能推斷單一結(jié)果,無(wú)法適應(yīng)復(fù)雜場(chǎng)景。還有些方法通過(guò)設(shè)計(jì)接口,利用 VLM 輔助經(jīng)典 E2E 方法,但這種方式解耦了 VLM 的推理空間和輸出軌跡的動(dòng)作空間,阻礙了兩者的協(xié)同優(yōu)化。

除此之外,長(zhǎng)期記憶對(duì)于端到端自動(dòng)駕駛是必要的,因?yàn)闅v史信息通常會(huì)影響當(dāng)前場(chǎng)景中的軌跡規(guī)劃?,F(xiàn)有使用 VLM 進(jìn)行端到端自動(dòng)駕駛的方法通常通過(guò)拼接多幀圖像來(lái)進(jìn)行時(shí)間建模。但這會(huì)受到 VLM 的輸入 Token 的長(zhǎng)度限制,并且會(huì)增加額外的計(jì)算開(kāi)銷。

為了解決上述問(wèn)題,本文提出了 ORION。ORION 的結(jié)構(gòu)包括 QT-Former、VLM 和生成模型。 ORION 通過(guò) QT-Former 聚合長(zhǎng)時(shí)間上下文信息,并巧妙地結(jié)合了生成模型和 VLM,有效對(duì)齊了推理空間和動(dòng)作空間,實(shí)現(xiàn)了視覺(jué)問(wèn)答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。

方法概覽

具體來(lái)說(shuō),ORION 通過(guò)以下三大核心模塊,顯著提升了自動(dòng)駕駛系統(tǒng)的決策能力:

1. QT-Former:長(zhǎng)時(shí)序上下文聚合

ORION 引入了 QT-Former,通過(guò)引入歷史查詢和記憶庫(kù),有效聚合長(zhǎng)時(shí)視覺(jué)上下文信息,增強(qiáng)了模型對(duì)歷史場(chǎng)景的理解能力。相比現(xiàn)有方法,QT-Former 不僅減少了計(jì)算開(kāi)銷,還能更好地捕捉靜態(tài)交通元素和動(dòng)態(tài)物體的運(yùn)動(dòng)狀態(tài)。

2. VLM:場(chǎng)景推理與指令生成

ORION 利用 VLM 的強(qiáng)大推理能力,結(jié)合用戶指令、長(zhǎng)時(shí)和當(dāng)前的視覺(jué)信息,能夠?qū)︸{駛場(chǎng)景進(jìn)行多維度分析,包括場(chǎng)景描述、關(guān)鍵物體行為分析、歷史信息回顧和動(dòng)作推理,并且利用自回歸特性聚合整個(gè)場(chǎng)景信息以生成規(guī)劃 token,用來(lái)指導(dǎo)生成模型進(jìn)行軌跡預(yù)測(cè)。

3. 生成模型:推理與動(dòng)作空間對(duì)齊

ORION 通過(guò)生成模型,將 VLM 的推理空間與預(yù)測(cè)軌跡的動(dòng)作空間對(duì)齊。生成模型使用變分自編碼器(VAE)或擴(kuò)散模型,以規(guī)劃 token 作為條件去控制多模態(tài)軌跡的生成,確保模型在復(fù)雜場(chǎng)景中做出合理的駕駛決策。

圖片

圖 2:ORION 整體架構(gòu)圖

實(shí)驗(yàn)結(jié)果

本文在 Bench2Drive 數(shù)據(jù)集上進(jìn)行閉環(huán)評(píng)估測(cè)試,如表 1 所示,ORION 取得了卓越的性能,其駕駛得分(DS)和成功率(SR)分別達(dá)到了 77.74 和 54.62%,相比現(xiàn)在的 SOTA 方法提升了 14.28 DS 和 19.61% SR,展現(xiàn)了 ORION 強(qiáng)大的駕駛能力。

圖片

表 1:Bench2Drive 上閉環(huán)評(píng)估和開(kāi)環(huán)評(píng)估的性能對(duì)比

此外,如表 2 所示,ORION 還在 Bench2Drive 的多能力評(píng)估中表現(xiàn)優(yōu)異,特別是在超車(71.11%)、緊急剎車(78.33%)和交通標(biāo)志識(shí)別(69.15%)等場(chǎng)景中,ORION 的表現(xiàn)遠(yuǎn)超其他方法。這得益于 ORION 通過(guò) VLM 對(duì)駕駛場(chǎng)景的理解,能夠更好地捕捉駕駛場(chǎng)景之間的因果關(guān)系。

圖片

表 2:Bench2Drive 上多能力評(píng)估測(cè)試對(duì)比

可解釋性結(jié)果

下圖展示了 ORION 在 Bench2Drive 的閉環(huán)評(píng)估場(chǎng)景中的可解釋性結(jié)果。ORION 可以理解場(chǎng)景中正確的因果關(guān)系,并做出準(zhǔn)確的駕駛決策,然后根據(jù)推理信息指導(dǎo)規(guī)劃軌跡預(yù)測(cè)。

圖片

圖 3:可解釋性結(jié)果圖

總結(jié)

ORION 框架為端到端自動(dòng)駕駛提供了一種全新的解決方案。ORION 通過(guò)生成模型實(shí)現(xiàn)語(yǔ)義與動(dòng)作空間對(duì)齊,引入 QT-Former 模塊聚合長(zhǎng)時(shí)序場(chǎng)景上下文信息,并聯(lián)合優(yōu)化視覺(jué)理解與路徑規(guī)劃任務(wù),在閉環(huán)仿真中取得了卓越的性能。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-07 09:31:55

2023-12-18 10:15:30

自動(dòng)駕駛自然語(yǔ)言

2023-10-30 09:47:00

自動(dòng)駕駛技術(shù)

2023-08-05 13:08:54

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2024-01-23 13:32:53

地平線自動(dòng)駕駛

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2024-04-17 09:50:28

自動(dòng)駕駛端到端

2024-03-13 09:39:45

端到端自動(dòng)駕駛

2024-10-11 09:32:48

2023-10-18 09:40:25

自動(dòng)駕駛技術(shù)

2023-12-11 10:29:11

自動(dòng)駕駛系統(tǒng)

2025-04-07 03:00:00

自動(dòng)駕駛

2019-09-19 14:10:12

人工智能物聯(lián)網(wǎng)自動(dòng)駕駛

2023-10-13 09:43:36

自動(dòng)駕駛數(shù)據(jù)

2024-04-29 09:36:14

仿真器傳感器

2021-11-18 22:43:56

自動(dòng)駕駛技術(shù)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)