自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="utlag"><menu id="utlag"><video id="utlag"></video></menu></pre>

<blockquote id="utlag"></blockquote>

<legend id="utlag"><track id="utlag"><dfn id="utlag"></dfn></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

都在搞端到端，試問端到端自動(dòng)駕駛的基石到底是什么？

作者：Haoxiang Gao 2024-02-21 09:14:32

人工智能智能汽車

深度學(xué)習(xí)（DL）與自動(dòng)駕駛（AD）的融合標(biāo)志著該領(lǐng)域的重大飛躍，吸引了學(xué)術(shù)界和工業(yè)界的關(guān)注。

本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

基礎(chǔ)模型的出現(xiàn)徹底改變了自然語言處理和計(jì)算機(jī)視覺領(lǐng)域，為其在自動(dòng)駕駛（AD）中的應(yīng)用鋪平了道路。這項(xiàng)調(diào)查對40多篇研究論文進(jìn)行了全面回顧，展示了基礎(chǔ)模型在增強(qiáng)AD中的作用。大型語言模型有助于AD的規(guī)劃和模擬，特別是通過其在推理、代碼生成和翻譯方面的熟練程度。與此同時(shí)，視覺基礎(chǔ)模型越來越適用于關(guān)鍵任務(wù)，如3D目標(biāo)檢測和跟蹤，以及為仿真和測試創(chuàng)建逼真的駕駛場景。多模態(tài)基礎(chǔ)模型，集成了不同的輸入，顯示了非凡的視覺理解和空間推理，對端到端AD至關(guān)重要。這項(xiàng)調(diào)查不僅提供了一個(gè)結(jié)構(gòu)化的分類法，根據(jù)基礎(chǔ)模型在AD領(lǐng)域的模式和功能對其進(jìn)行分類，還深入研究了當(dāng)前研究中使用的方法。它確定了現(xiàn)有基礎(chǔ)模型和尖端AD方法之間的差距，從而規(guī)劃了未來的研究方向，并提出了彌合這些差距的路線圖。

簡介

深度學(xué)習(xí)（DL）與自動(dòng)駕駛（AD）的融合標(biāo)志著該領(lǐng)域的重大飛躍，吸引了學(xué)術(shù)界和工業(yè)界的關(guān)注。配備了攝像頭和激光雷達(dá)的AD系統(tǒng)模擬了類似人類的決策過程。這些系統(tǒng)基本上由三個(gè)關(guān)鍵組成部分組成：感知、預(yù)測和規(guī)劃。Perception利用DL和計(jì)算機(jī)視覺算法，專注于物體檢測和跟蹤。預(yù)測預(yù)測交通代理的行為及其與自動(dòng)駕駛汽車的相互作用。規(guī)劃通常是分層結(jié)構(gòu)的，包括做出戰(zhàn)略性駕駛決策、計(jì)算最佳軌跡和執(zhí)行車輛控制命令?；A(chǔ)模型的出現(xiàn)，特別是在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域，為AD研究引入了新的維度。這些模型是不同的，因?yàn)樗鼈冊趶V泛的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練，并且參數(shù)大小巨大?？紤]到自動(dòng)駕駛汽車服務(wù)產(chǎn)生的大量數(shù)據(jù)和人工智能的進(jìn)步，包括NLP和人工智能生成內(nèi)容（AIGC），人們對基礎(chǔ)模型在AD中的潛力越來越好奇。這些模型可能有助于執(zhí)行一系列AD任務(wù)，如物體檢測、場景理解和決策，具有與人類駕駛員相似的智力水平。

基礎(chǔ)模型解決了AD中的幾個(gè)挑戰(zhàn)。傳統(tǒng)上，AD模型是以監(jiān)督的方式訓(xùn)練的，依賴于手動(dòng)注釋的數(shù)據(jù)，這些數(shù)據(jù)往往缺乏多樣性，限制了它們的適應(yīng)性。然而，基礎(chǔ)模型由于在不同的網(wǎng)絡(luò)規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練，顯示出卓越的泛化能力。它們可以用從廣泛的預(yù)訓(xùn)練中獲得的推理能力和知識，潛在地取代規(guī)劃中復(fù)雜的啟發(fā)式基于規(guī)則的系統(tǒng)。例如，LLM具有從預(yù)訓(xùn)練數(shù)據(jù)集中獲得的推理能力和常識性駕駛知識，這可能會取代啟發(fā)式基于規(guī)則的規(guī)劃系統(tǒng)，后者需要在軟件代碼中手工制定規(guī)則并在角落案例中進(jìn)行調(diào)試的復(fù)雜工程工作。該領(lǐng)域中的生成模型可以為模擬創(chuàng)建真實(shí)的交通場景，這對于在罕見或具有挑戰(zhàn)性的情況下測試安全性和可靠性至關(guān)重要。此外，基礎(chǔ)模型有助于使AD技術(shù)更加以用戶為中心，語言模型可以用自然語言理解和執(zhí)行用戶命令。

盡管在將基礎(chǔ)模型應(yīng)用于AD方面進(jìn)行了大量研究，但在實(shí)際應(yīng)用中仍存在顯著的局限性和差距。我們的調(diào)查旨在提供一個(gè)系統(tǒng)的重新審視，并提出未來的研究方向。LLM4Drive更側(cè)重于大型語言模型。我們在現(xiàn)有調(diào)查的基礎(chǔ)上，涵蓋了視覺基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型，分析了它們在預(yù)測和感知任務(wù)中的應(yīng)用。這種綜合方法包括對技術(shù)方面的詳細(xì)檢查，如預(yù)先訓(xùn)練的模型和方法，并確定未來的研究機(jī)會。創(chuàng)新性地，我們提出了一種基于模式和功能對AD中的基礎(chǔ)模型進(jìn)行分類的分類法，如圖1所示。以下部分將探討各種基礎(chǔ)模型在AD環(huán)境中的應(yīng)用，包括大型語言模型、視覺基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型。

Large Language Models in AD

概述

LLM最初在NLP中具有變革性，現(xiàn)在正在推動(dòng)AD的創(chuàng)新。BERT開創(chuàng)了NLP中的基礎(chǔ)模型，利用轉(zhuǎn)換器架構(gòu)來理解語言語義。這種預(yù)先訓(xùn)練的模型可以在特定的數(shù)據(jù)集上進(jìn)行微調(diào)，并在廣泛的任務(wù)中實(shí)現(xiàn)最先進(jìn)的結(jié)果。在此之后，OpenAI的生成預(yù)訓(xùn)練轉(zhuǎn)換器（GPT）系列，包括GPT-4，由于在廣泛的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，展示了非凡的NLP能力。后來的GPT模型，包括ChatGPT、GPT-4，使用數(shù)十億個(gè)參數(shù)和數(shù)萬億個(gè)單詞的爬行網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訓(xùn)練，并在許多NLP任務(wù)上取得了強(qiáng)大的性能，包括翻譯、文本摘要、問題回答。它還展示了從上下文中學(xué)習(xí)新技能的一次性和少量推理能力。越來越多的研究人員已經(jīng)開始應(yīng)用這些推理、理解和上下文學(xué)習(xí)能力來應(yīng)對AD中的挑戰(zhàn)。

AD中的應(yīng)用

推理與規(guī)劃

AD的決策過程與人類推理密切相似，因此必須對環(huán)境線索進(jìn)行解釋，才能做出安全舒適的駕駛決策。LLM通過對各種網(wǎng)絡(luò)數(shù)據(jù)的培訓(xùn)，吸收了與駕駛相關(guān)的常識性知識，這些知識來自包括網(wǎng)絡(luò)論壇和政府官方網(wǎng)站在內(nèi)的眾多來源。這些豐富的信息使LLM能夠參與AD所需的細(xì)微決策。在AD中利用LLM的一種方法是向他們提供駕駛環(huán)境的詳細(xì)文本描述，促使他們提出駕駛決策或控制命令。如圖2所示，這個(gè)過程通常包括全面的提示，詳細(xì)說明代理狀態(tài)，如坐標(biāo)、速度和過去的軌跡，車輛的狀態(tài)，即速度和加速度，以及地圖細(xì)節(jié)，包括紅綠燈、車道信息和預(yù)定路線）。為了增強(qiáng)對交互的理解，LLM還可以被引導(dǎo)在其響應(yīng)的同時(shí)提供推理。例如，GPT駕駛員不僅建議車輛行動(dòng)，還闡明了這些建議背后的理由，大大提高了自動(dòng)駕駛決策的透明度和可解釋性。這種方法，以LLM駕駛為例，增強(qiáng)了自動(dòng)駕駛決策的可解釋性。同樣，“接收、推理和反應(yīng)”方法指示LLM代理人評估車道占用情況并評估潛在行動(dòng)的安全性，從而促進(jìn)對動(dòng)態(tài)駕駛場景的更深入理解。這些方法不僅利用LLM理解復(fù)雜場景的固有能力，還利用它們的推理能力來模擬類似人類的決策過程。通過整合詳細(xì)的環(huán)境描述和戰(zhàn)略提示，LLM對AD的規(guī)劃和推理方面做出了重大貢獻(xiàn)，提供了反映人類判斷和專業(yè)知識的見解和決策。

預(yù)測

Prediction預(yù)測交通參與者未來的軌跡、意圖以及可能與自車交通工具的互動(dòng)。常見的基于深度學(xué)習(xí)的模型基于交通場景的光柵化或矢量圖像，對空間信息進(jìn)行編碼。然而，準(zhǔn)確預(yù)測高度互動(dòng)的場景仍然具有挑戰(zhàn)性，這需要推理和語義信息，例如路權(quán)、車輛的轉(zhuǎn)向信號和行人的手勢。場景的文本表示可以提供更多的語義信息，并更好地利用LLM的推理能力和預(yù)訓(xùn)練數(shù)據(jù)集中的公共知識。將LLM應(yīng)用于軌跡預(yù)測的研究還不多。與僅使用圖像編碼或文本編碼的基線相比，他們的評估顯示出顯著的改進(jìn)。

用戶界面和個(gè)性化

自動(dòng)駕駛汽車應(yīng)便于用戶使用，并能夠遵循乘客或遠(yuǎn)程操作員的指示。當(dāng)前的Robotaxi遠(yuǎn)程輔助界面僅用于執(zhí)行一組有限的預(yù)定義命令。然而，LLM的理解和交互能力使自動(dòng)駕駛汽車能夠理解人類的自由形式指令，從而更好地控制自動(dòng)駕駛汽車，滿足用戶的個(gè)性化需求。LLM代理還能夠基于預(yù)定義的業(yè)務(wù)規(guī)則和系統(tǒng)要求來接受或拒絕用戶命令。

仿真和測試

LLM可以從現(xiàn)有的文本數(shù)據(jù)中總結(jié)和提取知識，并生成新的內(nèi)容，這有助于仿真和測試。ADEPT系統(tǒng)使用GPT使用QA方法從NHTSA事故報(bào)告中提取關(guān)鍵信息，并能夠生成用于模擬和測試的各種場景代碼。TARGET系統(tǒng)能夠使用GPT將流量規(guī)則從自然語言轉(zhuǎn)換為特定領(lǐng)域的語言，用于生成測試場景。LCTGen使用LLM作為強(qiáng)大的解釋器，將用戶的文本查詢轉(zhuǎn)換為交通模擬場景中地圖車道和車輛位置的結(jié)構(gòu)化規(guī)范。

方法和技巧

研究人員在自然語言處理中使用類似的技術(shù)，將LLM用于自動(dòng)駕駛?cè)蝿?wù)，如即時(shí)工程、上下文和少鏡頭學(xué)習(xí)，以及來自人類反饋的強(qiáng)化學(xué)習(xí)。

Prompt Engineering

Prompt engineering采用復(fù)雜的輸入提示和問題設(shè)計(jì)來指導(dǎo)大型語言模型生成我們想要的答案。

一些論文增加了交通規(guī)則作為前置提示，以使LLM代理符合法律。Driving with LLMs有交通規(guī)則，涵蓋紅綠燈過渡和左側(cè)或右側(cè)駕駛等方面。

LanguageMPC采用自上而下的決策系統(tǒng)：給定不同的情況，車輛有不同的可能動(dòng)作。LLM代理還被指示識別場景中的重要代理，并輸出注意力、權(quán)重和偏差矩陣，以從預(yù)先定義的動(dòng)作中進(jìn)行選擇。

Fine-tuning v.s. In-context Learning

微調(diào)和上下文學(xué)習(xí)都用于使預(yù)先訓(xùn)練的模型適應(yīng)自動(dòng)駕駛。微調(diào)在較小的特定領(lǐng)域數(shù)據(jù)集上重新訓(xùn)練模型參數(shù)，而上下文學(xué)習(xí)或少鏡頭學(xué)習(xí)利用LLM的知識和推理能力，在輸入提示中從給定的例子中學(xué)習(xí)。大多數(shù)論文都專注于上下文學(xué)習(xí)，但只有少數(shù)論文使用微調(diào)。研究人員對哪一個(gè)更好的結(jié)果喜憂參半：GPT-Driver有一個(gè)不同的結(jié)論，即使用OpenAI微調(diào)比少鏡頭學(xué)習(xí)表現(xiàn)得更好。

強(qiáng)化學(xué)習(xí)和人類反饋

DILU提出了反射模塊，通過人工校正來存儲好的駕駛示例和壞的駕駛示例，以進(jìn)一步增強(qiáng)其推理能力。通過這種方式，LLM可以學(xué)會思考什么行動(dòng)是安全的和不安全的，并不斷反思過去的大量駕駛經(jīng)驗(yàn)。Surreal Driver采訪了24名駕駛員，并將他們對駕駛行為的描述作為思維鏈提示，開發(fā)了一個(gè)“教練-代理”模塊，該模塊可以指導(dǎo)LLM模型具有類似人類的駕駛風(fēng)格。

限制和未來方向

幻覺與危害

幻覺是LLM中的一大挑戰(zhàn)，最先進(jìn)的大型語言模型仍然會產(chǎn)生誤導(dǎo)和虛假信息?，F(xiàn)有論文中提出的大多數(shù)方法仍然需要從LLM的響應(yīng)中解析驅(qū)動(dòng)動(dòng)作。當(dāng)給定一個(gè)看不見的場景時(shí)，LLM模型仍然可能產(chǎn)生無益或錯(cuò)誤的駕駛決策。自動(dòng)駕駛是一種安全關(guān)鍵應(yīng)用程序，其可靠性和安全性要求遠(yuǎn)高于聊天機(jī)器人。根據(jù)評估結(jié)果，用于自動(dòng)駕駛的LLM模型的碰撞率為0.44%，高于其他方法。經(jīng)過預(yù)先培訓(xùn)的LLM也可能包括有害內(nèi)容，例如，激烈駕駛和超速行駛。更多的人在環(huán)訓(xùn)練和調(diào)整可以減少幻覺和有害的駕駛決策。

耗時(shí)和效率

大型語言模型通常存在高延遲，生成詳細(xì)的駕駛決策可能會耗盡車內(nèi)有限計(jì)算資源的延遲預(yù)算。推理需要幾秒鐘的時(shí)間。具有數(shù)十億個(gè)參數(shù)的LLM可能會消耗超過100GB的內(nèi)存，這可能會干擾自動(dòng)駕駛汽車中的其他關(guān)鍵模塊。在這一領(lǐng)域還需要做更多的研究，如模型壓縮和知識提取，以使LLM更高效、更容易部署。

對感知系統(tǒng)的依賴

盡管LLM具有最高的推理能力，但環(huán)境描述仍然依賴于上游感知模塊。駕駛決策可能會出錯(cuò)，并在環(huán)境輸入中出現(xiàn)輕微錯(cuò)誤，從而導(dǎo)致重大事故。LLM還需要更好地適應(yīng)感知模型，并在出現(xiàn)錯(cuò)誤和不確定性時(shí)做出更好的決策。

Sim to Real Gap

大多數(shù)研究都是在仿真環(huán)境中進(jìn)行的，駕駛場景比真實(shí)世界的環(huán)境簡單得多。為了覆蓋現(xiàn)實(shí)世界中的所有場景，需要進(jìn)行大量的工程和人類詳細(xì)的注釋工作，例如，該模型知道如何向人類屈服，但可能不擅長處理與小動(dòng)物的互動(dòng)。

視覺基礎(chǔ)模型

視覺基礎(chǔ)模型在多個(gè)計(jì)算機(jī)視覺任務(wù)中取得了巨大成功，如物體檢測和分割。DINO使用ViT架構(gòu)，并以自監(jiān)督的方式進(jìn)行訓(xùn)練，在給定局部圖像塊的情況下預(yù)測全局圖像特征。DINOV2利用10億個(gè)參數(shù)和12億幅圖像的多樣化數(shù)據(jù)集對訓(xùn)練進(jìn)行了擴(kuò)展，并在多任務(wù)中取得了最先進(jìn)的結(jié)果。Segment-anything模型是圖像分割的基礎(chǔ)模型。該模型使用不同類型的提示（點(diǎn)、框或文本）進(jìn)行訓(xùn)練，以生成分割掩碼。在數(shù)據(jù)集中使用數(shù)十億分割掩碼進(jìn)行訓(xùn)練后，該模型顯示了零樣本傳遞能力，可以在適當(dāng)?shù)奶崾鞠路指钚履繕?biāo)。

擴(kuò)散模型是一種廣泛應(yīng)用于圖像生成的生成基礎(chǔ)模型。擴(kuò)散模型迭代地將噪聲添加到圖像，并應(yīng)用反向擴(kuò)散過程來恢復(fù)圖像。為了生成圖像，我們可以從學(xué)習(xí)的分布中進(jìn)行采樣，并從隨機(jī)噪聲中恢復(fù)高度逼真的圖像。穩(wěn)定擴(kuò)散模型使用VAE將圖像編碼為潛在表示，并使用UNet將潛在變量解碼為逐像素圖像。它還有一個(gè)可選的文本編碼器，并應(yīng)用交叉注意力機(jī)制生成基于提示的圖像（文本描述或其他圖像）。DALL-E模型使用數(shù)十億對圖像和文本進(jìn)行訓(xùn)練，并使用穩(wěn)定的擴(kuò)散來生成高保真圖像和遵循人類指令的創(chuàng)造性藝術(shù)。

人們對視覺基礎(chǔ)模型在自動(dòng)駕駛中的應(yīng)用越來越感興趣，主要用于3D感知和視頻生成任務(wù)。

感知

SAM3D將SAM應(yīng)用于自動(dòng)駕駛中的3D物體檢測。激光雷達(dá)點(diǎn)云被投影到BEV（鳥瞰圖）圖像中，它使用32x32網(wǎng)格生成點(diǎn)提示，以檢測前景目標(biāo)的遮罩。它利用SAM模型的零樣本傳輸能力來生成分割掩模和2D盒。然后，它使用2D box內(nèi)的激光雷達(dá)點(diǎn)的垂直屬性來生成3D box。然而，Waymo開放數(shù)據(jù)集評估顯示，平均精度指標(biāo)與現(xiàn)有最先進(jìn)的3D目標(biāo)檢測模型仍有很大差距。他們觀察到，SAM訓(xùn)練的基礎(chǔ)模型不能很好地處理那些稀疏和有噪聲的點(diǎn)，并且經(jīng)常導(dǎo)致對遠(yuǎn)處物體的假陰性。

SAM應(yīng)用于3D分割任務(wù)的領(lǐng)域自適應(yīng)，利用SAM模型的特征空間，該特征空間包含更多的語義信息和泛化能力。

SAM和Grounding DINO用于創(chuàng)建一個(gè)統(tǒng)一的分割和跟蹤框架，利用視頻幀之間的時(shí)間一致性。Grounding DINO是一個(gè)開放集目標(biāo)檢測器，它從目標(biāo)的文本描述中獲取輸入并輸出相應(yīng)的邊界框。給定與自動(dòng)駕駛相關(guān)的目標(biāo)類的文本提示，它可以檢測視頻幀中的目標(biāo)，并生成車輛和行人的邊界框。SAM模型進(jìn)一步將這些框作為提示，并為檢測到的目標(biāo)生成分割掩碼。然后將生成的目標(biāo)掩碼傳遞給下游跟蹤器，后者比較連續(xù)幀中的掩碼，以確定是否存在新目標(biāo)。

視頻生成和世界模型

基礎(chǔ)模型，特別是生成模型和世界模型可以生成逼真的虛擬駕駛場景，用于自動(dòng)駕駛仿真。許多研究人員已經(jīng)開始將擴(kuò)散模型應(yīng)用于真實(shí)場景生成的自動(dòng)駕駛。視頻生成問題通常被公式化為一個(gè)世界模型：給定當(dāng)前世界狀態(tài)，以環(huán)境輸入為條件，該模型預(yù)測下一個(gè)世界狀態(tài)，并使用擴(kuò)散來解碼高度逼真的駕駛場景。

GAIA-1由Wayve開發(fā)，用于生成逼真的駕駛視頻。世界模型使用相機(jī)圖像、文本描述和車輛控制信號作為輸入標(biāo)記，并預(yù)測下一幀。本文利用預(yù)訓(xùn)練的DINO模型的嵌入和余弦相似性損失提取更多的語義知識用于圖像標(biāo)記嵌入。他們使用視頻擴(kuò)散模型從預(yù)測的圖像標(biāo)記中解碼高保真駕駛場景。有兩個(gè)單獨(dú)的任務(wù)來訓(xùn)練擴(kuò)散模型：圖像生成和視頻生成。圖像生成任務(wù)幫助解碼器生成高質(zhì)量的圖像，而視頻生成任務(wù)使用時(shí)間注意力來生成時(shí)間一致的視頻幀。生成的視頻遵循高級真實(shí)世界約束，并具有逼真的場景動(dòng)力學(xué)，例如目標(biāo)的位置、交互、交通規(guī)則和道路結(jié)構(gòu)。視頻還展示了多樣性和創(chuàng)造力，這些都有現(xiàn)實(shí)的可能結(jié)果，取決于不同的文本描述和自我載體的行動(dòng)。

DriveDreamer還使用世界模型和擴(kuò)散模型為自動(dòng)駕駛生成視頻。除了圖像、文本描述和車輛動(dòng)作，該模型還使用了更多的結(jié)構(gòu)性交通信息作為輸入，如HDMap和目標(biāo)3D框，使模型能夠更好地理解交通場景的更高層結(jié)構(gòu)約束。模型訓(xùn)練分為兩個(gè)階段：第一階段是使用基于結(jié)構(gòu)化交通信息的擴(kuò)散模型生成視頻。

限制和未來方向

目前最先進(jìn)的基礎(chǔ)模型（如SAM）對于3D自動(dòng)駕駛感知任務(wù)（如物體檢測和分割）沒有足夠好的零樣本泛化能力。自動(dòng)駕駛感知依賴于多個(gè)攝像頭、激光雷達(dá)和傳感器融合來獲得最高精度的物體檢測結(jié)果，這與從網(wǎng)絡(luò)上隨機(jī)收集的圖像數(shù)據(jù)集大不相同。當(dāng)前用于自動(dòng)駕駛感知任務(wù)的公共數(shù)據(jù)集的規(guī)模仍然不足以訓(xùn)練基礎(chǔ)模型并覆蓋所有可能的長尾場景。盡管存在局限性，現(xiàn)有的2D視覺基礎(chǔ)模型可以作為有用的特征提取器進(jìn)行知識提取，這有助于模型更好地結(jié)合語義信息。在視頻生成和預(yù)測任務(wù)領(lǐng)域，我們已經(jīng)看到了利用現(xiàn)有擴(kuò)散模型進(jìn)行視頻生成和點(diǎn)云預(yù)測的有希望的進(jìn)展，這可以進(jìn)一步應(yīng)用于創(chuàng)建自動(dòng)駕駛模擬和測試的高保真場景。

多模態(tài)基礎(chǔ)模型

多模態(tài)基礎(chǔ)模型通過從多種模態(tài)（如聲音、圖像和視頻）獲取輸入數(shù)據(jù)來執(zhí)行更復(fù)雜的任務(wù)，例如從圖像生成文本、使用視覺輸入進(jìn)行分析和推理，從而受益更多。

最著名的多模態(tài)基礎(chǔ)模型之一是CLIP。使用對比預(yù)訓(xùn)練方法對模型進(jìn)行預(yù)訓(xùn)練。輸入是有噪聲的圖像和文本對，并且訓(xùn)練模型來預(yù)測給定的圖像和文字是否是正確的對。訓(xùn)練該模型以最大化來自圖像編碼器和文本編碼器的嵌入的余弦相似性。CLIP模型顯示了其他計(jì)算機(jī)視覺任務(wù)的零樣本轉(zhuǎn)移能力，如圖像分類，以及在沒有監(jiān)督訓(xùn)練的情況下預(yù)測類的正確文本描述。

LLaVA、LISA和CogVLM等多模態(tài)基礎(chǔ)模型可用于通用視覺人工智能代理，它在視覺任務(wù)中表現(xiàn)出優(yōu)異的性能，如目標(biāo)分割、檢測、定位和空間推理。

將通用知識從大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集轉(zhuǎn)移到自動(dòng)駕駛中，多模態(tài)基礎(chǔ)模型可用于目標(biāo)檢測、視覺理解和空間推理，從而在自動(dòng)駕駛中實(shí)現(xiàn)更強(qiáng)大的應(yīng)用。

視覺理解和推理

傳統(tǒng)的物體檢測或分類模型對于自動(dòng)駕駛來說是不夠的，因?yàn)槲覀冃枰玫乩斫鈭鼍暗恼Z義和視覺推理，例如識別危險(xiǎn)物體，了解交通參與者的意圖?，F(xiàn)有的基于深度學(xué)習(xí)的預(yù)測和規(guī)劃模型大多是暗箱模型，當(dāng)事故或不適事件發(fā)生時(shí)，這些模型的可解釋性和可調(diào)試性較差。在多模態(tài)基礎(chǔ)模型的幫助下，我們可以生成模型的解釋和推理過程，以更好地研究問題。

Talk2BEV提出了一種融合視覺和語義信息的場景創(chuàng)新鳥瞰圖（BEV）表示。該管道首先從圖像和激光雷達(dá)數(shù)據(jù)中生成BEV地圖，并使用通用視覺語言基礎(chǔ)模型添加對物體裁剪圖像的更詳細(xì)的文本描述。然后，BEV映射的JSON文本表示被傳遞給通用LLM，以執(zhí)行Visual QA，其中包括空間和視覺推理任務(wù)。結(jié)果表明，它很好地理解了詳細(xì)的實(shí)例屬性和目標(biāo)的更高層次意圖，并能夠就自我載體的行為提供自由形成的建議。

統(tǒng)一感知和規(guī)劃

Wen對GPT-4Vision在感知和規(guī)劃任務(wù)中的應(yīng)用進(jìn)行了早期探索，并評估了其在幾個(gè)場景中的能力。它表明GPT-4Vision可以了解天氣、交通標(biāo)志和紅綠燈，并識別場景中的交通參與者。它還可以提供這些目標(biāo)的更詳細(xì)的語義描述，如車輛尾燈、U型轉(zhuǎn)彎等意圖和詳細(xì)的車輛類型（如水泥攪拌車、拖車和SUV）。它還顯示了基礎(chǔ)模型理解點(diǎn)云數(shù)據(jù)的潛力，GPT-4V可以從BEV圖像中投影的點(diǎn)云輪廓識別車輛。他們還評估了模型在規(guī)劃任務(wù)中的性能?？紤]到交通場景，GPT4-V被要求描述其對車輛行動(dòng)的觀察和決定。結(jié)果顯示，與其他交通參與者的互動(dòng)良好，遵守了交通規(guī)則和常識，例如在安全距離內(nèi)跟車，在人行橫道上向騎自行車的人讓行，在綠燈變綠之前保持停車。它甚至可以很好地處理一些長尾場景，比如門控停車場。

限制和未來方向

多模態(tài)基礎(chǔ)模型顯示了自動(dòng)駕駛?cè)蝿?wù)所需的空間和視覺推理能力。與傳統(tǒng)的目標(biāo)檢測相比，在閉集數(shù)據(jù)集上訓(xùn)練的分類模型、視覺推理能力和自由形式的文本描述可以提供更豐富的語義信息，可以解決許多長尾檢測問題，如特種車輛的分類、警察和交通管制員對手勢的理解。多模態(tài)基礎(chǔ)模型具有良好的泛化能力，可以很好地利用常識處理一些具有挑戰(zhàn)性的長尾場景，例如在受控訪問的門口停車。進(jìn)一步利用其規(guī)劃任務(wù)的推理能力，視覺語言模型可用于統(tǒng)一感知規(guī)劃和端到端自動(dòng)駕駛。

多基礎(chǔ)模型在自動(dòng)駕駛中仍然存在局限性。GPT-4V模型仍然存在幻覺，并在幾個(gè)例子中產(chǎn)生不清楚的反應(yīng)或錯(cuò)誤的答案。該模型還顯示出在利用多視圖相機(jī)和激光雷達(dá)數(shù)據(jù)進(jìn)行精確的3D物體檢測和定位方面的無能，因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)集只包含來自網(wǎng)絡(luò)的2D圖像。需要更多特定領(lǐng)域的微調(diào)或預(yù)訓(xùn)練來訓(xùn)練多模態(tài)基礎(chǔ)模型，以更好地理解點(diǎn)云數(shù)據(jù)和傳感器融合，從而實(shí)現(xiàn)最先進(jìn)的感知系統(tǒng)的可比性能。

結(jié)論和未來方向

我們對最近將基礎(chǔ)模型應(yīng)用于自動(dòng)駕駛的論文進(jìn)行了總結(jié)和分類。我們基于自動(dòng)駕駛中的模態(tài)和功能建立了一個(gè)新的分類法。我們詳細(xì)討論了使基礎(chǔ)模型適應(yīng)自動(dòng)駕駛的方法和技術(shù)，例如上下文學(xué)習(xí)、微調(diào)、強(qiáng)化學(xué)習(xí)和視覺教學(xué)調(diào)整。我們還分析了自動(dòng)駕駛基礎(chǔ)模型的局限性，如幻覺、延遲和效率，以及數(shù)據(jù)集中的領(lǐng)域差距，從而提出了以下研究方向：

在自動(dòng)駕駛數(shù)據(jù)集上進(jìn)行特定領(lǐng)域的預(yù)訓(xùn)練或微調(diào)；
強(qiáng)化學(xué)習(xí)和人在環(huán)對齊，以提高安全性并減少幻覺；
2D基礎(chǔ)模型對3D的適應(yīng)，例如語言引導(dǎo)的傳感器融合、微調(diào)或3D數(shù)據(jù)集上的few-shot學(xué)習(xí)；
用于將基礎(chǔ)模型部署到車輛的延遲和內(nèi)存優(yōu)化、模型壓縮和知識提取。

我們還注意到，數(shù)據(jù)集是自動(dòng)駕駛基礎(chǔ)模型未來發(fā)展的最大障礙之一。現(xiàn)有的1000小時(shí)規(guī)模的自動(dòng)駕駛開源數(shù)據(jù)集遠(yuǎn)遠(yuǎn)少于最先進(jìn)的LLM所使用的預(yù)訓(xùn)練數(shù)據(jù)集。用于現(xiàn)有基礎(chǔ)模型的網(wǎng)絡(luò)數(shù)據(jù)集并沒有利用自動(dòng)駕駛所需的所有模式，如激光雷達(dá)和環(huán)視攝像頭。網(wǎng)絡(luò)數(shù)據(jù)域也與真實(shí)的駕駛場景大不相同。

我們在圖5中提出了長期的未來路線圖。在第一階段，我們可以收集一個(gè)大規(guī)模的2D數(shù)據(jù)集，該數(shù)據(jù)集可以覆蓋真實(shí)世界環(huán)境中駕駛場景的所有數(shù)據(jù)分布、多樣性和復(fù)雜性，用于預(yù)訓(xùn)練或微調(diào)。大多數(shù)車輛都可以配備前置攝像頭，在一天中的不同時(shí)間收集不同城市的數(shù)據(jù)。在第二階段，我們可以使用激光雷達(dá)使用更小但質(zhì)量更高的3D數(shù)據(jù)集來改善基礎(chǔ)模型的3D感知和推理，例如，我們可以作為教師使用現(xiàn)有最先進(jìn)的3D目標(biāo)檢測模型來微調(diào)基礎(chǔ)模型。最后，我們可以在規(guī)劃和推理中利用人類駕駛示例或注釋來進(jìn)行對齊，從而達(dá)到自動(dòng)駕駛的最大安全目標(biāo)。

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

端到端自動(dòng)駕駛

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營