自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Hint-AD：面向可解釋端到端！語(yǔ)言與感知-預(yù)測(cè)-規(guī)劃全面對(duì)齊，助力多項(xiàng)任務(wù)SOTA

作者：Kairui Ding等 2024-09-12 10:00:23

人工智能新聞

今天為大家分享清華AIR&梅賽德斯-奔馳中國(guó)團(tuán)隊(duì)最新的端到端工作Hint-AD！

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫在前面&出發(fā)點(diǎn)

自動(dòng)駕駛中的端到端架構(gòu)在可解釋性方面面臨重大挑戰(zhàn)，這阻礙了人機(jī)之間的信任。為了執(zhí)行諸如駕駛解釋和3D字幕生成等任務(wù)，已探索過(guò)了人性化的自然語(yǔ)言。然而，以往的工作主要關(guān)注于聲明式可解釋性的范式，其中自然語(yǔ)言解釋并未以自動(dòng)駕駛系統(tǒng)的中間輸出為基礎(chǔ)，導(dǎo)致這些解釋僅具有聲明性質(zhì)。相比之下，對(duì)齊式可解釋性在語(yǔ)言與自動(dòng)駕駛系統(tǒng)的中間輸出之間建立了聯(lián)系。在此，我們介紹了Hint-AD，這是一個(gè)集成的自動(dòng)駕駛-語(yǔ)言系統(tǒng)，能夠生成與自動(dòng)駕駛模型的整體感知-預(yù)測(cè)-規(guī)劃輸出相對(duì)齊的語(yǔ)言。通過(guò)整合中間輸出和一個(gè)用于有效特征適應(yīng)的整體標(biāo)記混合子網(wǎng)，Hint-AD實(shí)現(xiàn)了理想的準(zhǔn)確性，在包括駕駛解釋、3D密集字幕生成和指令預(yù)測(cè)在內(nèi)的駕駛語(yǔ)言任務(wù)中取得了最先進(jìn)的成果。

為了促進(jìn)對(duì)nuScenes上駕駛解釋任務(wù)的進(jìn)一步研究，我們還引入了一個(gè)人工標(biāo)注的數(shù)據(jù)集Nu-X。代碼、數(shù)據(jù)集和模型均可在網(wǎng)上公開(kāi)獲取，網(wǎng)址為：https://air-discover.github.io/Hint-AD/

背景介紹

端到端的感知規(guī)劃架構(gòu)在自動(dòng)駕駛（AD）和一般具身智能中至關(guān)重要，因?yàn)樗哂欣么罅繑?shù)據(jù)進(jìn)行自監(jiān)督訓(xùn)練的潛力。然而，這些系統(tǒng)面臨著嚴(yán)峻的可解釋性挑戰(zhàn)，在具身智能問(wèn)題中，如自動(dòng)駕駛，可解釋性問(wèn)題尤為突出。當(dāng)自動(dòng)駕駛系統(tǒng)直接輸出控制信號(hào)時(shí)，人類乘客很難信任其決策。為了解決這個(gè)問(wèn)題，自然語(yǔ)言作為一種高度用戶友好的溝通媒介，已被探索用于通過(guò)諸如駕駛解釋、3D密集字幕和視覺(jué)問(wèn)答（VQA）等任務(wù)來(lái)增強(qiáng)可解釋性。雖然人類駕駛員認(rèn)識(shí)到BEV軌跡作為解釋正在發(fā)生什么（WHAT）的價(jià)值，但語(yǔ)言提供了為什么發(fā)生這種情況（WHY）的補(bǔ)充視角。這些方法可以根據(jù)單一標(biāo)準(zhǔn)分為聲明式可解釋性和對(duì)齊式可解釋性：即生成的語(yǔ)言是否與自動(dòng)駕駛系統(tǒng)的中間輸出對(duì)齊（圖1）。

聲明式可解釋性如近期在駕駛解釋、3D密集字幕和視覺(jué)問(wèn)答等方面的研究所示，它直接生成自然語(yǔ)言，而不依賴于自動(dòng)駕駛系統(tǒng)的中間輸入。這種方法經(jīng)常會(huì)產(chǎn)生幻覺(jué)，因?yàn)檎Z(yǔ)言沒(méi)有基于全面的中間輸出，只是駕駛行為的合理化解釋。
對(duì)齊式可解釋性要求語(yǔ)言與自動(dòng)駕駛模型的內(nèi)部狀態(tài)保持一致。據(jù)我們所知，這種方法首先由[14]提出，他們將自動(dòng)駕駛模型的注意力狀態(tài)與語(yǔ)言解碼器對(duì)齊，后來(lái)的工作將語(yǔ)言解碼器與內(nèi)部決策狀態(tài)對(duì)齊。

然而，現(xiàn)有研究忽視了語(yǔ)言解碼器與自動(dòng)駕駛流程中的完整感知-預(yù)測(cè)-規(guī)劃輸出之間的對(duì)應(yīng)關(guān)系，導(dǎo)致語(yǔ)言任務(wù)與自動(dòng)駕駛?cè)蝿?wù)之間存在差異。通過(guò)自動(dòng)駕駛流程的中間輸出來(lái)提高駕駛場(chǎng)景中語(yǔ)言任務(wù)準(zhǔn)確性的潛力尚未被探索。為此，這里提出了Hint-AD，一個(gè)集成的自動(dòng)駕駛-語(yǔ)言框架，旨在與自動(dòng)駕駛模型的感知-預(yù)測(cè)-規(guī)劃過(guò)程進(jìn)行全面對(duì)齊，并生成高精度的語(yǔ)言，以促進(jìn)自動(dòng)駕駛的可解釋性。

我們開(kāi)發(fā)了兩種方法來(lái)實(shí)現(xiàn)語(yǔ)言與自動(dòng)駕駛模型之間的全面對(duì)齊以及語(yǔ)言輸出的準(zhǔn)確性：

(a) 開(kāi)發(fā)了一個(gè)整體token混合模塊，該模塊將自動(dòng)駕駛模型的中間輸出token適應(yīng)于語(yǔ)言解碼器，重點(diǎn)在于穩(wěn)健的特征提取和融合；

(b) 引入了一個(gè)對(duì)齊任務(wù)作為在線數(shù)據(jù)集，以將語(yǔ)言輸出與自動(dòng)駕駛模型的中間輸出對(duì)齊，要求語(yǔ)言解碼器在整個(gè)訓(xùn)練過(guò)程中解釋自動(dòng)駕駛模型推理過(guò)程中生成的中間token。

在UniAD和VAD這兩個(gè)最先進(jìn)的自動(dòng)駕駛模型上實(shí)現(xiàn)了Hint-AD，這兩個(gè)模型分別采用了光柵化和矢量化表示，以證明Hint-AD的通用性。實(shí)驗(yàn)結(jié)果表明，Hint-AD在各種語(yǔ)言任務(wù)上均達(dá)到了最先進(jìn)的性能，包括駕駛解釋（CIDEr得分比基線高出20.4%）、3D密集字幕（CIDEr得分比基線高出185%）、視覺(jué)問(wèn)答（準(zhǔn)確率提高1.2%）和駕駛指令預(yù)測(cè)（準(zhǔn)確率提高1.2%）。對(duì)齊任務(wù)顯著提高了語(yǔ)言輸出與自動(dòng)駕駛模型中間表示之間的一致性。此外，我們還貢獻(xiàn)了一個(gè)基于nuScenes的人類標(biāo)注的駕駛解釋數(shù)據(jù)集Nu-X，以解決這個(gè)廣泛使用的自動(dòng)駕駛數(shù)據(jù)集上缺乏駕駛解釋數(shù)據(jù)的問(wèn)題。

相關(guān)工作介紹

端到端自動(dòng)駕駛系統(tǒng)旨在構(gòu)建一種能夠處理傳感器數(shù)據(jù)并直接輸出車輛控制信號(hào)的架構(gòu)。這些系統(tǒng)因能夠解決傳統(tǒng)模塊化設(shè)計(jì)中存在的誤差累積問(wèn)題而備受研究關(guān)注，傳統(tǒng)模塊化設(shè)計(jì)將感知和規(guī)劃分為不同的模塊。其中，UniAD和VAD等杰出例子將模塊化感知任務(wù)（如目標(biāo)跟蹤、地圖構(gòu)建、運(yùn)動(dòng)預(yù)測(cè)和軌跡規(guī)劃）集成在一個(gè)統(tǒng)一的框架內(nèi)。此外，還開(kāi)發(fā)了用于端到端自動(dòng)駕駛的離線數(shù)據(jù)集。

自動(dòng)駕駛的可解釋性，即為自動(dòng)駕駛規(guī)劃提供全面解釋的能力，對(duì)于自動(dòng)駕駛系統(tǒng)中的用戶信任和系統(tǒng)透明度至關(guān)重要。自然語(yǔ)言作為一種與用戶溝通的用戶友好型媒介，已被探索用于通過(guò)駕駛解釋、視覺(jué)問(wèn)答（VQA）和3D密集字幕等方式來(lái)提高自動(dòng)駕駛的可解釋性。以前的工作主要集中在聲明式可解釋性上，一些方法使用視覺(jué)信息實(shí)現(xiàn)了駕駛解釋任務(wù)。但是，自動(dòng)駕駛模型的中間輸出并未與語(yǔ)言輸出對(duì)齊。其它論文提出了語(yǔ)言輸出應(yīng)基于自動(dòng)駕駛系統(tǒng)內(nèi)部狀態(tài)的概念。也有人探索了將語(yǔ)言解碼器與自動(dòng)駕駛模型內(nèi)部決策狀態(tài)對(duì)齊的方法，但據(jù)我們所知，以前的工作尚未實(shí)現(xiàn)與自動(dòng)駕駛模型整個(gè)感知-預(yù)測(cè)-規(guī)劃過(guò)程的全面對(duì)齊。

Hint-AD方法

為了探索自然語(yǔ)言與端到端自動(dòng)駕駛框架中的中間結(jié)果之間的全面對(duì)齊，我們提出了一個(gè)名為Hint-AD的新型框架，該框架包含三個(gè)模塊：整體token混合器、語(yǔ)言解碼器和傳統(tǒng)自動(dòng)駕駛框架。Hint-AD的概覽如圖2所示。圖2中的現(xiàn)有自動(dòng)駕駛流程可以是任何將自動(dòng)駕駛分解為感知、預(yù)測(cè)和規(guī)劃的端到端自動(dòng)駕駛系統(tǒng)。為了不失一般性，在UniAD（作為Hint-UniAD）和VAD（作為Hint-VAD）的基礎(chǔ)上實(shí)現(xiàn)了我們的方法，它們分別使用光柵化和矢量化表示。

1）Hint-AD的整體框架

首先，從現(xiàn)有的感知-預(yù)測(cè)-規(guī)劃架構(gòu)的自動(dòng)駕駛模型中提取中間查詢token，生成跟蹤token、運(yùn)動(dòng)token和規(guī)劃token。其次，整體token混合器模塊將對(duì)token進(jìn)行適配，以作為語(yǔ)言解碼器的輸入。在此模塊中，設(shè)計(jì)了一個(gè)實(shí)例混合器來(lái)合并每個(gè)檢測(cè)實(shí)例的實(shí)例級(jí)跟蹤和運(yùn)動(dòng)信息。還引入了鳥(niǎo)瞰圖（BEV）block和實(shí)例block以進(jìn)行進(jìn)一步的特征提取，并將長(zhǎng)度可變的實(shí)例token轉(zhuǎn)換為固定長(zhǎng)度。所有處理過(guò)的token都被連接起來(lái)作為文本生成的上context tokens。最后，context tokens被格式化為prompt tokens，并與文本提示一起放入語(yǔ)言解碼器中。我們采用了一種杠鈴式適應(yīng)范式，以實(shí)現(xiàn)語(yǔ)言解碼器對(duì)context的高效理解。

為了在訓(xùn)練過(guò)程中使語(yǔ)言和自動(dòng)駕駛pipeline的中間結(jié)果對(duì)齊，加入了額外的訓(xùn)練數(shù)據(jù)，稱為對(duì)齊任務(wù)，這些數(shù)據(jù)在訓(xùn)練過(guò)程中在線構(gòu)建。

2）Holistic token mixer

從自動(dòng)駕駛pipeline中提取的查詢tokens對(duì)于語(yǔ)言解碼器來(lái)說(shuō)并不是直接可理解的。針對(duì)這一問(wèn)題，我們提出了一個(gè)整體token混合器架構(gòu)。Hint-UniAD和Hint-VAD的具體實(shí)現(xiàn)略有不同。主要遵循Hint-UniAD的設(shè)計(jì)，而Hint-VAD的小幅調(diào)整則在附錄中給出。

3） Language decoder with barbell adaptation

將適配器放置在前端和后端的理由是，前端適配器有助于理解context信息，而后端適配器則增強(qiáng)了語(yǔ)言的微調(diào)。這種設(shè)計(jì)平衡了對(duì)高級(jí)context理解和精確語(yǔ)言適應(yīng)的需求。在訓(xùn)練過(guò)程中，采用交叉熵?fù)p失作為字幕損失，僅對(duì)答案tokens進(jìn)行監(jiān)督。

4）Aligning language and intermediate outputs

為了使語(yǔ)言與自動(dòng)駕駛模型的中間輸出對(duì)齊，語(yǔ)言解碼器需要對(duì)自動(dòng)駕駛模型推理步驟中生成的每個(gè)token（即跟蹤tokens中目標(biāo)的位置）所包含的信息進(jìn)行基于context的理解。我們通過(guò)在訓(xùn)練過(guò)程中添加一個(gè)在線對(duì)齊任務(wù)數(shù)據(jù)集來(lái)實(shí)現(xiàn)這一點(diǎn)。

在對(duì)齊任務(wù)中，給定自動(dòng)駕駛模型的中間輸入，會(huì)生成一組提示-答案對(duì)（圖3）。該任務(wù)包括四種類型的對(duì)齊：（a）計(jì)數(shù)對(duì)齊，要求語(yǔ)言解碼器根據(jù)跟蹤tokens解釋幀中每種類型實(shí)例的數(shù)量；（b）位置對(duì)齊，要求模型根據(jù)特定實(shí)例token提供跟蹤實(shí)例的位置；（c）運(yùn)動(dòng)對(duì)齊，涉及解碼實(shí)例tokens中包含的速度信息；（d）規(guī)劃對(duì)齊，要求語(yǔ)言解碼器輸出規(guī)劃tokens中包含的未來(lái)軌跡點(diǎn)。

對(duì)齊任務(wù)中的所有問(wèn)答對(duì)都是在訓(xùn)練過(guò)程中在線生成的。對(duì)齊任務(wù)極大地提高了語(yǔ)言解碼器對(duì)中間令牌的上下文理解能力，從而大大提高了自動(dòng)駕駛字幕的準(zhǔn)確性。

5）Training pipeline

Hint-AD的整個(gè)訓(xùn)練流程包括兩個(gè)階段。在第一階段，端到端的自動(dòng)駕駛（AD）模型被獨(dú)立訓(xùn)練。在第二階段，凍結(jié)AD模型和大規(guī)模語(yǔ)言模型（MLLM）的所有參數(shù)，僅更新整體token混合器和適配器的參數(shù)。第二階段的總可訓(xùn)練參數(shù)為87M。

實(shí)驗(yàn)設(shè)置

1）數(shù)據(jù)集和baselines

數(shù)據(jù)集。解釋是人類學(xué)習(xí)和理解的重要指導(dǎo)工具。特別是在端到端自動(dòng)駕駛（AD）系統(tǒng)的背景下，人類用戶經(jīng)常尋求解釋來(lái)彌合傳感器輸入和AD行為之間的鴻溝。目前，在自動(dòng)駕駛研究中廣泛使用的nuScenes數(shù)據(jù)集沒(méi)有提供此類解釋。為了彌補(bǔ)這一空白并促進(jìn)針對(duì)nuScenes的可解釋性研究，我們引入了Nu-X，這是一個(gè)全面、大規(guī)模、經(jīng)過(guò)人工標(biāo)注的解釋性數(shù)據(jù)集。Nu-X為nuScenes中的每一個(gè)34,000個(gè)關(guān)鍵幀提供了詳細(xì)的contextual信息和多樣化的語(yǔ)言表述。

一個(gè)解釋性句子通常包括敘述和推理 ，例如：“<敘述>汽車正在并入右側(cè)車道。<推理>為了超過(guò)前面的紅色汽車。”在我們的數(shù)據(jù)集中，每個(gè)標(biāo)題都包含這兩個(gè)部分。

為了提供全面的分析，所有Hint-AD架構(gòu)和基線都在以下數(shù)據(jù)集上進(jìn)行了訓(xùn)練和評(píng)估：（1）對(duì)齊任務(wù)數(shù)據(jù)集，旨在通過(guò)要求語(yǔ)言解碼器解釋每個(gè)中間標(biāo)記來(lái)將語(yǔ)言與AD模型的中間輸出對(duì)齊，訓(xùn)練過(guò)程中在線生成真實(shí)答案；（2）TOD3Cap ，一個(gè)3D密集字幕數(shù)據(jù)集，為nuScenes中的64.3K個(gè)戶外目標(biāo)提供目標(biāo)描述，并標(biāo)注了外觀、運(yùn)動(dòng)、環(huán)境和目標(biāo)間空間關(guān)系；（3）NuScenesQA ，一個(gè)VQA數(shù)據(jù)集，覆蓋了nuScenes的34K幀，包含五種問(wèn)題類型，包括存在性、計(jì)數(shù)、查詢對(duì)象、查詢狀態(tài)和比較；（4）駕駛指令數(shù)據(jù)集，我們?cè)趎uScenes上進(jìn)行了標(biāo)注，由方向和速度指令組成。

基線模型。我們選擇了基準(zhǔn)方法，這些方法既包括了語(yǔ)言生成領(lǐng)域的關(guān)鍵里程碑，也包括了自動(dòng)駕駛背景下最先進(jìn)的方法：（1）ADAPT 采用自回歸方式，通過(guò)視覺(jué)-語(yǔ)言轉(zhuǎn)換器生成句子。在文本和視頻標(biāo)記上使用了交叉注意力和稀疏注意力掩碼；（2）BEV+Adapter 僅以鳥(niǎo)瞰圖（BEV）特征作為輸入，并使用LLaMA-Adapter-V2（與Hint-AD相同）作為語(yǔ)言解碼器；（3）BEVDet+MCAN 使用模塊化協(xié)同注意力網(wǎng)絡(luò)（MCAN），其中包含用于單獨(dú)的語(yǔ)言和視覺(jué)理解的自注意力層。堆疊的交叉注意力層用于跨模型特征交互。輸入采用了來(lái)自BEVDet 的檢測(cè)結(jié)果；（4）Vote2Cap-DETR 基于transformer架構(gòu)，具有兩個(gè)并行的特定于任務(wù)的頭。查詢被解耦為定位查詢和字幕查詢；（5）TOD3Cap 利用基于查詢的檢測(cè)頭從BEV特征中生成一組3D目標(biāo)proposal。然后，這些特征通過(guò)LLaMA-Adapter處理，作為語(yǔ)言模型的提示來(lái)生成密集字幕；（6）GPT-4o 是OpenAI開(kāi)發(fā)的多模態(tài)模型，具備最先進(jìn)的視覺(jué)能力，同時(shí)文本生成性能與其前身GPT-4相當(dāng)；（7）Gemini-1.5 是谷歌開(kāi)發(fā)的一款開(kāi)創(chuàng)性的大型語(yǔ)言模型，專為處理具有擴(kuò)展context長(zhǎng)度的多模態(tài)輸入而設(shè)計(jì)。

2）Comparing with baseline models

量化結(jié)果。在四個(gè)數(shù)據(jù)集上，針對(duì)不同類型的輸入和主干模塊分別展示了結(jié)果。對(duì)于Nu-X和TOD3Cap數(shù)據(jù)集，我們采用了四種標(biāo)準(zhǔn)的圖像字幕評(píng)估指標(biāo)，包括CIDEr (C) 、BLEU (B) 、METEOR (M) 和 Rouge (R) 。由于Nu-X中駕駛解釋的全面性，還采用了GPT-3.5評(píng)分（G）來(lái)評(píng)估Nu-X。在測(cè)試TOD3Cap時(shí)，為匹配預(yù)測(cè)和真實(shí)邊界框設(shè)置了0.25的閾值。對(duì)于NuScenes-QA和Command數(shù)據(jù)集，我們直接將生成的文本與真實(shí)文本進(jìn)行比較以獲得準(zhǔn)確率。根據(jù)推理復(fù)雜性，QA被分為zero-hop (H0) and one-hop (H1)。從表1中可以得出以下結(jié)論：

Hint-UniAD和Hint-VAD在多任務(wù)測(cè)試中均表現(xiàn)出高性能。兩個(gè)系統(tǒng)均在Nu-X數(shù)據(jù)集上取得了最先進(jìn)的結(jié)果，CIDEr分?jǐn)?shù)比最佳基線（BEV+Adapter）高出3.8分（20.4%）。值得注意的是，Hint-UniAD在TOD3Cap任務(wù)上表現(xiàn)出顯著優(yōu)越的性能，CIDEr分?jǐn)?shù)提高了222.3分（185%）。盡管HintVAD在該任務(wù)上的表現(xiàn)略低，但附錄C.3中討論了可能的解釋。此外，在NuScenes-QA和Command數(shù)據(jù)集上，Hint-VAD的總體準(zhǔn)確率分別比最佳基線高出0.6分和1.2分。這些結(jié)果凸顯了所提出的Hint-AD架構(gòu)的有效性。

定性結(jié)果。圖3展示了一些定性結(jié)果。Hint-AD生成的文本顯示出對(duì)場(chǎng)景的深刻理解，并且與自動(dòng)駕駛模型的中間結(jié)果恰當(dāng)?shù)乇３忠恢隆?/p>

3）language和模型的對(duì)齊分析

量化語(yǔ)言與自動(dòng)駕駛（AD）模型中間輸出之間的一致性，我們對(duì)語(yǔ)言解碼器的輸出與AD感知模塊的預(yù)測(cè)進(jìn)行了評(píng)估，這些預(yù)測(cè)是在驗(yàn)證集上實(shí)時(shí)生成的。我們?cè)O(shè)計(jì)了四種不一致性協(xié)議：（a）計(jì)數(shù)不一致性（CD），用于衡量解碼head和跟蹤模型給出的每個(gè)類別實(shí)例數(shù)量之間的差異；（b）位置不一致性（PD），用于衡量特定實(shí)例的位置差異；（c）運(yùn)動(dòng)不一致性（MD），用于衡量速度差異，計(jì)算為字幕中速度與感知系統(tǒng)預(yù)測(cè)速度之間的平均距離；（d）規(guī)劃不一致性（PLD），用于衡量軌跡點(diǎn)之間的差異。對(duì)Hint-AD進(jìn)行了測(cè)試，包括對(duì)齊可解釋性（原始設(shè)計(jì)）和聲明性可解釋性。與在聲明性可解釋性范式下運(yùn)行的模型相比，對(duì)齊語(yǔ)言解碼器的性能顯著更優(yōu)，這表明包括整體token混合器和對(duì)齊任務(wù)在內(nèi)的對(duì)齊設(shè)計(jì)是有效的。

4）消融實(shí)驗(yàn)

整體對(duì)齊的有效性。為了評(píng)估整體語(yǔ)言-自動(dòng)駕駛（AD）對(duì)齊在語(yǔ)言任務(wù)準(zhǔn)確性上的有效性，我們通過(guò)從語(yǔ)言解碼器的輸入中移除跟蹤、運(yùn)動(dòng)和規(guī)劃tokens來(lái)進(jìn)行了一項(xiàng)消融研究。表2中的結(jié)果表明，使用所有tokens可實(shí)現(xiàn)最高性能。跟蹤tokens通過(guò)位置信息增強(qiáng)了3D密集字幕，而規(guī)劃tokens則通過(guò)提供未來(lái)軌跡數(shù)據(jù)改進(jìn)了命令預(yù)測(cè)。

整體token混合器設(shè)計(jì)的消融研究。實(shí)例混合器和實(shí)例block增強(qiáng)了中間tokens的特征提取和適應(yīng)性。表3中的結(jié)果表明，移除實(shí)例block和實(shí)例混合器會(huì)顯著降低TOD3Cap和NuScenes-QA的性能，因?yàn)槲矬w的位置和運(yùn)動(dòng)信息沒(méi)有得到充分融合。

一些結(jié)論

本工作提出了Hint-AD，這是一個(gè)集成的自動(dòng)駕駛（AD）-語(yǔ)言框架，它將語(yǔ)言生成與自動(dòng)駕駛模型的整體感知-預(yù)測(cè)-規(guī)劃過(guò)程對(duì)齊，從而在多個(gè)自動(dòng)駕駛字幕任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。同時(shí)，作為對(duì)齊可解釋性實(shí)現(xiàn)的一項(xiàng)探索性研究，以下限制仍有待進(jìn)一步研究解決：

由于其針對(duì)特定流程的性質(zhì)，中間輸出格式的任何更改都需要對(duì)令牌混合器的設(shè)計(jì)進(jìn)行修改。對(duì)于純端到端模型（如黑盒模型），則需要進(jìn)行調(diào)整以有效處理潛在輸出。
基于LLaMA的語(yǔ)言解碼器相對(duì)耗時(shí)。有必要進(jìn)一步研究更小的模型替代方案，如MiniChat-1.5-3B和StableLM-3B-4E1T。

隨著大型語(yǔ)言模型（LLM）理解自動(dòng)駕駛模型中間輸出的潛力日益顯現(xiàn)，未來(lái)研究可以進(jìn)一步深入這一領(lǐng)域，并通過(guò)對(duì)齊可解釋性增強(qiáng)用戶對(duì)自動(dòng)駕駛模型的信任。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

端到端自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="tc4ig"></sub>

<var id="tc4ig"></var>