自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

主流自動(dòng)駕駛方案的庖丁解牛,商用車和乘用車的本質(zhì)需求到底有什么異同?

人工智能 智能汽車
本文對商用車、乘用車主流自動(dòng)駕駛技術(shù)分傳感器配置、系統(tǒng)架構(gòu)、感知、預(yù)測、規(guī)劃控制等模塊進(jìn)行了分析總結(jié)。

本文經(jīng)自動(dòng)駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人總結(jié)

本文對商用車、乘用車主流自動(dòng)駕駛技術(shù)分傳感器配置、系統(tǒng)架構(gòu)、感知、預(yù)測、規(guī)劃控制等模塊進(jìn)行了分析總結(jié)。分析了商用車、乘用車對于自動(dòng)駕駛技術(shù)需求的異同。并結(jié)合代表性科技公司如特斯拉、百度、毫末智行、小鵬等對當(dāng)前自動(dòng)駕駛系統(tǒng)主要技術(shù)進(jìn)行了分析總結(jié)。

典型乘用車商用車自動(dòng)駕駛技術(shù)方案分析:贏徹,毫末智行,特斯拉,百度Apollo。

當(dāng)前世界范圍內(nèi)自動(dòng)駕駛公司雖然歷經(jīng)退市、裁員風(fēng)波,受到技術(shù)完備性、安全性、盈利模式等多方面質(zhì)疑,但仍是各車企、科技公司角逐的熱門方向。不過,當(dāng)前全社會及資本對自動(dòng)駕駛的關(guān)注也已從前兩年的嘗鮮、新奇、未來屬性轉(zhuǎn)變?yōu)榱藢ψ詣?dòng)駕駛商業(yè)模式何時(shí)能大規(guī)模落地,其盈利模式應(yīng)該怎么搭建、怎么推廣的思考。而自動(dòng)駕駛落地、盈利模式又與承載自動(dòng)駕駛方案的車倆類型息息相關(guān),不同類型自動(dòng)駕駛車型其落地、營運(yùn)模式差別很大。

1.商用車、乘用車區(qū)別

按車倆用途分,當(dāng)前自動(dòng)駕駛公司可分乘用車自動(dòng)駕駛和商用車自動(dòng)駕駛兩大類。乘用車自動(dòng)駕駛以robotaxi和前裝量產(chǎn)為主要目標(biāo),客戶群體較明確,自動(dòng)駕駛方案通用性更強(qiáng)。乘用車自動(dòng)駕駛賽道科技公司較多,目前處于第一梯隊(duì)的有華為、小鵬、百度Apollo、AutoX、文遠(yuǎn)知行、滴滴、小馬智行、Momenta、毫末智行等,乘用車主機(jī)廠自研自動(dòng)駕駛的有一汽、東風(fēng)、廣汽、極氪等。乘用車自動(dòng)駕駛方案目前基本確定以BEV+Transformer,重感知、輕地圖方案為主,部分特殊場景如高速遠(yuǎn)距離感知考慮目標(biāo)級后融合方案作為BEV遠(yuǎn)距感知缺陷的補(bǔ)充。商用車由于其營運(yùn)屬性復(fù)雜,目標(biāo)客戶不固定,其中既有物流運(yùn)輸公司,也有個(gè)人車主,且商用車車型種類非常之多,工況差別也較大,因此商用車自動(dòng)駕駛方案更偏定制。商用車自動(dòng)駕駛賽道的有智加、摯途、贏徹、圖森未來、千掛科技、三一海星智駕、陜汽、德創(chuàng)未來等。千掛科技、摯途能查到公開資料較少,摯途內(nèi)部技術(shù)開發(fā)人員稱也有預(yù)研BEV+多任務(wù)學(xué)習(xí)方案,但目前還沒量產(chǎn)上車。智加據(jù)CICV報(bào)告及其他演講資料,推測其自動(dòng)駕駛方案既有BEV方案,也有傳統(tǒng)后融合方案。圖森未來當(dāng)前主要布局高速物流,方案以BEV為主,其他商用車賽道自動(dòng)駕駛公司技術(shù)方案均以第一代多傳感器目標(biāo)級后融合方案為主,整體上技術(shù)棧落后乘用車近一代。

2.商用車、乘用車自動(dòng)駕駛方案分析目標(biāo)選擇

為簡要介紹當(dāng)前自動(dòng)駕駛技術(shù)方案構(gòu)成與趨勢,本文精選了三個(gè)代表性的自動(dòng)駕駛公司介紹其技術(shù)方案及其商用化布局,其中乘用車自動(dòng)駕駛方案選擇了極具代表性的特斯拉和毫末智行,特斯拉技術(shù)方案資料完善,是典型的第二代BEV+Transformer為主的自動(dòng)駕駛方案。毫末智行技術(shù)預(yù)研超前,屬于最早一批在量產(chǎn)自動(dòng)駕駛方案中引入基于大模型的通用自動(dòng)駕駛控制器DriveGPT、部分端到端技術(shù)的科技公司(上海人工智能實(shí)驗(yàn)室在端到端、部分端到端自動(dòng)駕駛技術(shù)研究方面較為超強(qiáng),感興趣讀者可以UniAD為線索進(jìn)行查閱)。

商用車自動(dòng)駕駛方案本文選擇了贏徹,贏徹具體資料參考其于2022年9月發(fā)布的《自動(dòng)駕駛卡車量產(chǎn)白皮書》,但該材料具體方案欠缺,大部分方案只是常識性介紹,可參考性不大,但贏徹材料勝在完整性較高,所以本文以贏徹為例簡要介紹下商用車自動(dòng)駕駛系統(tǒng)方案。贏徹重卡自動(dòng)駕駛滿配采用7V3L5R(V代表相機(jī),L代表激光雷達(dá),R代表毫米波,7V3L5R代表車輛配備了7個(gè)相機(jī),3個(gè)激光雷達(dá),5個(gè)毫米波雷達(dá)),但這種方案目前缺少掛車角度測量傳感器,基本不能進(jìn)行倒車控制相關(guān)的應(yīng)用開發(fā),因此不適合實(shí)際大多數(shù)園區(qū)落地場景,因?yàn)閳@區(qū)實(shí)際落地場景基本上都包含倒車場景(進(jìn)出倉庫、裝卸貨廠房等)。此外,受商用車車型、尺寸限制,贏徹方案相機(jī)重疊區(qū)域較小,至少在視覺上難以實(shí)現(xiàn)BEV感知框架。

3.商用車、乘用車自動(dòng)駕駛方案分析

本文將分控制器、傳感器配置,系統(tǒng)架構(gòu),感知、定位模塊,規(guī)控模塊四個(gè)部分進(jìn)行介紹,同時(shí)也會介紹一些當(dāng)前較為前沿且實(shí)車效果較好的學(xué)術(shù)方案,如UniAD。

3.1 傳感器配置

圖1 贏徹自動(dòng)駕駛重卡采用3激光雷達(dá),7攝像頭,5毫米波雷達(dá)(7V3L5R)傳感器配置

贏徹傳感器采用7V3L5R配置(圖1),較適合干線物流智能駕駛輔助,贏徹也在推廣其自動(dòng)駕駛方案時(shí)側(cè)重其在高速、干線上的表現(xiàn),其線下經(jīng)常舉辦干線智駕體驗(yàn)活動(dòng)。但如上文所說贏徹這套傳感器方案不適合園區(qū)L4級自動(dòng)駕駛落地,也不適合BEV感知框架,更像是傳統(tǒng)基于目標(biāo)級后融合的傳感器配置方案,根據(jù)實(shí)際商用車特點(diǎn),若要比較符合BEV框架,其大概要用到11V的方案。而若要適應(yīng)商用車大多數(shù)園區(qū)落地場景,最小傳感器配置應(yīng)為3V4L4R(采用后融合方案)或11V2L4R(采用BEV方案),這兩個(gè)方案里均考慮了對主掛夾角的測量(使用1激光雷達(dá))。贏徹當(dāng)前自動(dòng)駕駛方案硬件成本初步估計(jì)在5-7萬之間。乘用車由于車型尺寸較固定,且相對較小,其傳感器配置相對較統(tǒng)一,業(yè)界周知的特斯拉是采用8V純視覺的方案(圖2)。根據(jù)毫末智行2023年10月第九屆毫末AI Day資料,毫末目前包括跨層記憶泊車、高速/城市NOH、全場景避障、全場景輔助功能的最高配的自動(dòng)駕駛方案采用11V1L1R12S(11相機(jī),1激光雷達(dá)可選,1個(gè)毫米波,12個(gè)超聲波)的傳感器配置(圖3)。據(jù)毫末方面稱該套方案包括控制器總成本可控制在1萬元以內(nèi),這相比商用車,或者說后融合方案相比BEV方案即第一代自動(dòng)駕駛方案相較于第二代自動(dòng)駕駛方案成本具有巨大優(yōu)勢,這也是為什么廣大乘用車車企都不惜重金研發(fā)第二代自動(dòng)駕駛方案的原因。

其他感知方案,如小鵬G6傳感器方案為11V2L5R12S,問界M5 EV智駕版采用11V1L3R12S方案??傮w上,自動(dòng)駕駛傳感器均以相機(jī)為主,一般7V-11V,純視覺方案較少,以相機(jī)+毫米波(1-5R)+激光雷達(dá)(1-3L)多傳感器融合為主其中基于BEV+Transformer技術(shù)框架的自動(dòng)駕駛方案可減少激光雷達(dá)到1顆或完全不需要激光雷達(dá),在成本上具有較大優(yōu)勢。

圖2 特斯拉純視覺(9V)傳感器方案

圖3 毫末智行高配自動(dòng)駕駛傳感器方案及功能

3.2 控制器方案

圖4 左:贏徹控制器效果圖;中:特斯拉HW4.0控制器實(shí)物圖;右:毫末智行8000元級控制器效果圖

圖4為贏徹、特斯拉、毫末智行三家當(dāng)前自動(dòng)駕駛控制器半實(shí)物效果圖(特斯拉為實(shí)物圖)。特斯拉HW4.0控制器包含20個(gè)CPU核心3個(gè)NPU,信息娛樂模塊APU和GPU集成在了一塊PCB板上。其控制器提供兩塊FSD芯片,其中一塊可以作為備份算力。信息娛樂和智能駕駛分別部署在兩個(gè)處理器上,實(shí)現(xiàn)了功能隔離和安全保障。從特斯拉控制器CPU配置可以看出當(dāng)前特斯拉自動(dòng)駕駛系統(tǒng)對CPU的算力需求仍比較大。根據(jù)筆者實(shí)際開發(fā)經(jīng)驗(yàn),即使intel 8700 CPU,操作系統(tǒng)使用ubuntu,在處理4路激光雷達(dá),4路以上相機(jī),3路以上毫米波,再加上當(dāng)前較多依賴CPU算力的SLAM算法,其CPU占用便會達(dá)到90%以上,系統(tǒng)也會卡頓,因此目前CPU算力也是自動(dòng)駕駛系統(tǒng)必須關(guān)注的性能參數(shù)之一,當(dāng)前Nvidia的Orin 254TOPS算力SOC自帶12個(gè)A78核,其中11核可用,CPU算力228K DMIPS,目前基本滿足7V4L3R傳感器配置下的功能開發(fā)。

毫末智行毫末控制器基于高通Snapdragon Ride平臺,采用SA8540P SoC+SA9000的組合,其中SOC芯片8540包括CPU+GPU,深度學(xué)習(xí)異構(gòu)芯片9000??刂破髦С纸尤?路千兆以太網(wǎng),12路800萬像素?cái)z像頭,5路毫米波雷達(dá),3路激光雷達(dá),單片功耗75w,單板算力360Tops,4板聯(lián)合支持升級到1440TOPS. 安全冗余芯片為英飛凌TC397,可以做 L1/L2級別的降級控制,也可以滿足當(dāng)前L3以及后續(xù)L4/L5等全場景自動(dòng)駕駛功能的實(shí)現(xiàn)。

圖5 贏徹自動(dòng)駕駛控制器架構(gòu)

綜合各家量產(chǎn)自動(dòng)駕駛控制器硬件配置、軟件架構(gòu),以贏徹控制架構(gòu)(圖5)為例,可得出當(dāng)前量產(chǎn)自動(dòng)駕駛控制器一般具備以下特征:

量產(chǎn)自動(dòng)駕駛控制一般包括通用計(jì)算域(CPU),模型加速域(NPU,GPU等支持深度學(xué)習(xí)模型加速的運(yùn)算處理單元),安區(qū)冗余控制域,及各模塊間的通信模塊(一般為交換機(jī)芯片)。如圖6為天準(zhǔn)科技(TZTEK)一款面向L2+/L3的自動(dòng)駕駛域控制器,其通用計(jì)算域采用國產(chǎn)E3+X9U處理器,模型加速域采用地平線J5 SOC,J5、E3、X9U各模塊間通過一顆RTL9068 和一顆 RTL9072 交換機(jī)進(jìn)行連接,該控制器同樣支持安區(qū)冗余控制功能。

圖6 天準(zhǔn)L2+/L3全國產(chǎn)自動(dòng)駕駛控制器(右上角為連接拓?fù)鋱D)

3.3 系統(tǒng)架構(gòu)

當(dāng)前自動(dòng)駕駛系統(tǒng)由于大算力、高吞吐量、多平臺適應(yīng)需求增強(qiáng),逐步在借鑒云計(jì)算領(lǐng)域較為成熟的框架或技術(shù),如硬件虛擬化、容器化,但這些技術(shù)一般為基礎(chǔ)支撐技術(shù),所以在各大科技公司的自動(dòng)駕駛系統(tǒng)一般不會著重介紹,但包括華為、百度在內(nèi)的大批公司都已經(jīng)在使用相關(guān)技術(shù)以提升自動(dòng)駕駛系統(tǒng)多平臺適應(yīng)能力,實(shí)現(xiàn)算力與硬件分離,整車軟件系統(tǒng)服務(wù)化,提高系統(tǒng)功能或服務(wù)動(dòng)態(tài)部署能力。

贏徹科技的自動(dòng)駕駛系統(tǒng)架構(gòu)較為典型(圖7),其自動(dòng)駕駛系統(tǒng)采用硬件層、系統(tǒng)軟件層、應(yīng)用軟件層三層架構(gòu)。硬件層即包括物理層的控制器、傳感器實(shí)體、車端執(zhí)行器等部分。系統(tǒng)軟件層則提供中間件支持,不同算力平臺的硬件虛擬化,不同理想傳感器抽象及車輛抽象,并且提供包括進(jìn)程監(jiān)控、數(shù)據(jù)記錄等在內(nèi)的安全管理服務(wù)。應(yīng)用層則負(fù)責(zé)實(shí)現(xiàn)感知、定位、規(guī)劃、控制等上層功能。

贏徹科技自動(dòng)駕駛系統(tǒng)采用第二代自動(dòng)駕駛方案,傳感器采用7V3L5R配置,感知系統(tǒng)采用基于BEV框架的多任務(wù)感知模型,地圖與定位系統(tǒng)采用慣導(dǎo)等硬件融合定位和基于算法的多特征融合定位方法,具有重感知輕地圖的特征。決策控制也引入了結(jié)合神經(jīng)網(wǎng)絡(luò)和模型預(yù)測控制的方法。

圖7 贏徹科技自動(dòng)駕駛系統(tǒng)架構(gòu)

總體上贏徹自動(dòng)駕駛系統(tǒng)架構(gòu)雖然已較為完善,但仍沒有解決不同業(yè)務(wù)系統(tǒng)環(huán)境依賴和干擾的問題。理想的自動(dòng)駕駛系統(tǒng)架構(gòu)應(yīng)如圖8所示,架構(gòu)采用分布式云計(jì)算框架,基于硬件虛擬化和傳感器抽象,實(shí)現(xiàn)功能開發(fā)和底層軟硬件分離、算力和硬件分離。為實(shí)現(xiàn)自動(dòng)駕駛功能不同平臺快速移植、適配、部署及自動(dòng)化刷寫、部署,自動(dòng)駕駛各業(yè)務(wù)模塊采用基于容器化的開發(fā)方法,以實(shí)現(xiàn)批量部署、自動(dòng)化運(yùn)維、各業(yè)務(wù)系統(tǒng)服務(wù)更新、OTA。

圖8 理想自動(dòng)駕駛量產(chǎn)框架

自動(dòng)駕駛底層系統(tǒng)框架其實(shí)本質(zhì)解決的問題類似,無非實(shí)現(xiàn)軟硬件分離,算力硬件分離,以及解決各業(yè)務(wù)系統(tǒng)環(huán)境依賴和干擾的問題,因此其系統(tǒng)框架是具有共通性的,但自動(dòng)駕駛應(yīng)用層算法的系統(tǒng)架構(gòu)則各家方案里區(qū)別較大,有傳統(tǒng)的目標(biāo)級后融合框架,也有當(dāng)前使用最為廣泛的多任務(wù)學(xué)習(xí)BEV框架,也有較為前沿的端到端或部分端到端自動(dòng)駕駛框架。

目標(biāo)級后融合框架最為經(jīng)典,實(shí)現(xiàn)也較為容易,各模塊間耦合較松,感知模塊融合相機(jī)、激光雷達(dá)、毫米波雷達(dá)檢測或聚類算法,輸出目標(biāo)動(dòng)靜態(tài)類別、目標(biāo)物類型、位置、速度等信息,送入預(yù)測模塊對動(dòng)態(tài)目標(biāo)的軌跡、意圖進(jìn)行預(yù)測,決策規(guī)劃模塊接收預(yù)測結(jié)果、感知結(jié)果、定位、高精度地圖信息,根據(jù)目標(biāo)信息和局部環(huán)境信息輸出位置、速度規(guī)劃,控制模塊根據(jù)輸入的軌跡速度,控制線控底盤執(zhí)行器實(shí)現(xiàn)軌跡、速度跟蹤,最終達(dá)成任務(wù)關(guān)于位置和姿態(tài)的要求,目前后融合框架由于成本較高、性能一般,只有極少數(shù)公司或有特殊場景需求的軍方單位在使用,如慧拓、千掛、陜汽、小米等。

特斯拉作為第二代多任務(wù)BEV學(xué)習(xí)的自動(dòng)駕駛框架變革的發(fā)起者(2021年),其技術(shù)框架較為典型,當(dāng)下仍具有較大參考價(jià)值(圖9)。2021年特斯拉自動(dòng)駕駛以多任務(wù)感知模型為基礎(chǔ),后接基于動(dòng)態(tài)交互樹的無碰撞軌跡生成算法,再基于規(guī)則和優(yōu)化的方法從舒適性、人類偏好角度出發(fā)對軌跡進(jìn)行優(yōu)選,再通過控制器進(jìn)行軌跡跟蹤。該框架的主要貢獻(xiàn)是實(shí)現(xiàn)了基于共享backbone進(jìn)行目標(biāo)檢測、車道線預(yù)測等多任務(wù)感知模型的實(shí)車。

圖9 特斯拉2021公布的基于共享backbone多任務(wù)感知的自動(dòng)駕駛技術(shù)框架

特斯拉在2022-2023又進(jìn)一步公布了其第二代基于BEV的自動(dòng)駕駛技術(shù)框架(圖10),該框架取消了傳統(tǒng)自動(dòng)駕駛運(yùn)動(dòng)預(yù)測相關(guān)模塊,而以O(shè)ccupancy預(yù)測即一般障礙物占用預(yù)測(體素占用預(yù)測)模塊取代。該技術(shù)為后續(xù)各科技公司、研究機(jī)構(gòu)最先進(jìn)的自動(dòng)駕駛框架都提供了參考,如2023年CVPR Best Paper中也將occupancy作為部分端到端自動(dòng)駕駛框架規(guī)控模塊的輸入特征之一,并在數(shù)據(jù)集上取得了SOTA的成績,實(shí)車也取得了不錯(cuò)的效果。

圖10 特斯拉2022/2023采用Occupancy預(yù)測模型的自動(dòng)駕駛系統(tǒng)技術(shù)框架

而隨著大模型技術(shù)在行業(yè)內(nèi)的應(yīng)用加深,也有如毫末智行、百度、上海人工智能實(shí)驗(yàn)室等先行者對基于大模型的通用自動(dòng)駕駛框架、端到端或部分端到端自動(dòng)駕駛框架技術(shù)進(jìn)行了探索,圖11為毫末智行DriveGPT的技術(shù)框架,其先將不同視角的相機(jī)圖像通過基于share backbone提取特征,再通過transformer模型生成BEV視角下的時(shí)空融合BEV特征(4D Encoder),后續(xù)Decoder通過語義地圖重建、3D目標(biāo)檢測、運(yùn)動(dòng)預(yù)測等基于transformer的多任務(wù)感知頭輸出環(huán)境感知結(jié)果,系統(tǒng)再結(jié)合自動(dòng)駕駛?cè)蝿?wù)目標(biāo)、車輛CAN反饋的車輛狀態(tài)信息輸入基于提示詞和具有背景知識的大語言模型LLM和駕駛策略生成模型生成車輛的控制序列,最后通過大量的人類駕駛數(shù)據(jù)訓(xùn)練DriveGPT模型實(shí)現(xiàn)模型性能的提高。最終實(shí)現(xiàn)效果是基于DriveGPT不僅可以生成車輛的控制序列,也可以同步以自然語言的形式輸出系統(tǒng)是基于哪些交通元素或事件生成的當(dāng)前控制序列,該思路在UniAD工作中也有所體現(xiàn)。

圖11 毫末智行通用自動(dòng)駕駛控制系統(tǒng)框架-DriveGPT

3.4 感知、建圖與定位

當(dāng)前自動(dòng)駕駛方案感知部分共同點(diǎn)很多,一般都是share backbone后接多任務(wù)感知頭,share backbone網(wǎng)絡(luò)以RegNet/ResNet+FPN類網(wǎng)絡(luò)居多,F(xiàn)PN主要是為了輸出不同尺度特征圖,增強(qiáng)后續(xù)模型對于尺度不同目標(biāo)的適應(yīng)能力。贏徹多任務(wù)感知框架信息有限只有基本框架(圖12),特斯拉感知框架則展示了其多任務(wù)感知模型的主要技術(shù)。

圖12 贏徹多任務(wù)感知框架

圖13 特斯拉HydraNets多任務(wù)感知模型架構(gòu)

特斯拉多任務(wù)感知模型-HydraNets(圖13)的share backbone使用了RegNet,RegNet是一種新型的神經(jīng)網(wǎng)絡(luò),由何愷明團(tuán)隊(duì)提出,RegNet相對于ResNet的優(yōu)勢在于其設(shè)計(jì)更加簡單易懂,同時(shí)可以應(yīng)對高計(jì)算量的情況。RegNet在性能上表現(xiàn)突出,比如在ImageNet數(shù)據(jù)集上,RegNet在所有復(fù)雜度指標(biāo)下,都有了較大的改進(jìn)。在類似的條件下,性能優(yōu)于EfficientNet,在GPU上的速度還提高了5倍。

特斯拉多任務(wù)感知模型的Neck網(wǎng)絡(luò)采用了BiFPN(Bidirectional Feature Pyramid Network)網(wǎng)絡(luò),BiFPN是一種特征金字塔網(wǎng)絡(luò),可以實(shí)現(xiàn)簡單而快速的多尺度特征融合。BiFPN結(jié)合了EfficientNet的模型縮放技術(shù),可以用于檢測器的backbone等網(wǎng)絡(luò)。

Decoder Trunk接受來自Neck網(wǎng)絡(luò)輸出的不同尺度特征后,根據(jù)不同的任務(wù),有不同的任務(wù)Head。Decoder通常包含upsampling部分和通常使用基于卷積層的模型如ResNet/RegNet的Trunk部分,當(dāng)然當(dāng)前即2023年多任務(wù)感知模型的decoder部分均已采用基于Transformer的網(wǎng)絡(luò)模型。decoder之后cls、reg和attr是多任務(wù)head。cls head負(fù)責(zé)圖像目標(biāo)檢測、分類。reg head負(fù)責(zé)預(yù)測圖像中物體的位置。attr head負(fù)責(zé)檢測和分類物體的屬性,例如顏色、形狀和大小。HydraNets中不同任務(wù)heads可以單獨(dú)微調(diào),具有較高靈活性。

2022年末時(shí),特斯拉在HydraNets基礎(chǔ)上增加了一般障礙物預(yù)測模型即Occupancy Network(圖14),模型輸入為多視角的相機(jī)圖像序列,同樣經(jīng)過share backbone網(wǎng)絡(luò),模型輸出時(shí)空間體素的占用概率即Occupancy Volume,體素占用趨勢預(yù)測即Occupancy Flow,該方法無需識別障礙物,可以有效應(yīng)對一般障礙物、異性障礙物情況,實(shí)際測試效果較好,目前國內(nèi)各車企也均已跟進(jìn)。

圖14 特斯拉Occupancy Network模型

圖15 小鵬汽車的XNet感知框架

同樣國內(nèi)具有代表性的自動(dòng)駕駛技術(shù)汽車公司-小鵬汽車的感知架構(gòu)XNet(圖14),也采用了類似特斯拉的架構(gòu),區(qū)別是,

(1)小鵬XNet針對動(dòng)靜態(tài)目標(biāo)采用了兩種模型進(jìn)行多種類目標(biāo)的識別,沒有像不同類別采用多個(gè)任務(wù)head。此外,小鵬多任務(wù)感知模型輸入為圖像,意味著XNet之外還有激光雷達(dá)、毫米波信息的融合,以增加尺寸、速度估計(jì)的準(zhǔn)確度,所以小鵬技術(shù)架構(gòu)是視覺BEV+激光雷達(dá)、毫米波雷達(dá)多傳感器融合的技術(shù)框架。當(dāng)然還存在另一種可能性,即BEV框架下處理的路徑長度一般在100m,對于150m以上的感知需求需要通過其他傳感器進(jìn)行特殊處理(如與BEV感知結(jié)果進(jìn)行目標(biāo)級后融合),如遠(yuǎn)距激光雷達(dá)、毫米波雷達(dá)、長焦相機(jī)等。

(2)XNet1.0大概率還沒有增加Occupancy預(yù)測模型,使用Occupancy模型意味著后續(xù)規(guī)控的技術(shù)框架也會有較大的變動(dòng)。因?yàn)镺ccupancy的輸出結(jié)果(圖16)與獲取目標(biāo)種類、速度等信息的感知方法輸出結(jié)果相差較大,其更利于無碰撞軌跡的生成,而不利于傳統(tǒng)規(guī)控方法。

圖16 Occupancy模型輸出體素占用結(jié)果

國內(nèi)目前毫末智行對于新技術(shù)的跟進(jìn)速度較快,但其自動(dòng)駕駛方案量產(chǎn)進(jìn)度一直表現(xiàn)不佳。毫末智行感知方案相較于XNet更接近特斯拉總體感知方案,特斯拉當(dāng)前推測其FSD已是完全基于無高精地圖的方案,毫末智行在其AI Day上的相關(guān)材料(圖17)也表明毫末智行的感知框架在進(jìn)行目標(biāo)感知和運(yùn)動(dòng)預(yù)測同時(shí),也在進(jìn)行語義地圖的實(shí)時(shí)重建。毫末感知方案采用了視覺圖像和激光雷達(dá)點(diǎn)云融合生成BEV特征的方案,其首先對激光雷達(dá)數(shù)據(jù)進(jìn)行體素化處理,相當(dāng)于對數(shù)據(jù)進(jìn)行降采樣,然后再通過點(diǎn)云特征處理的經(jīng)典模型pointPilars模型提取點(diǎn)云特征,然后和基于BEV Transformer處理的視覺BEV特征相加后作為某些某時(shí)刻輸入,通過構(gòu)建多個(gè)歷史時(shí)刻的輸入豐富模型對于上下文關(guān)聯(lián)特征的學(xué)習(xí),從而優(yōu)化模型模板檢測、長時(shí)長語義地圖生成及運(yùn)動(dòng)預(yù)測的輸出,輸出模型均采用基于transformer的decoder模型實(shí)現(xiàn)輸入到目標(biāo)輸出特征的映射學(xué)習(xí)。

圖17 毫末智行感知、地圖生成多任務(wù)模型

建圖、定位方面方面,目前國內(nèi)多數(shù)車企還是以高精地圖方案為主,贏徹自動(dòng)駕駛已量產(chǎn)方案極大概率完全依賴高精度地圖,可能采用圖商地圖盒子方案提供主要干線地圖信息。華為、毫末、元戎啟行有資料介紹其基于無圖的智駕方案,無圖智駕方案也是目前各大公司競爭的焦點(diǎn),主要體現(xiàn)再智駕開城的速度上,一般對于高精地圖依賴越小,其智駕方案開城速度則越快。但鑒于在線高精地圖實(shí)時(shí)生成技術(shù)仍未普及,為了確保安全與智駕功能道路覆蓋率,目前所有已量產(chǎn)的智駕方案仍對高精地圖依賴較重,高速、干線、主要城區(qū)路段仍以高精地圖為主,只有在特定功能,如代客泊車、自動(dòng)泊車等小區(qū)域場景下才會使用實(shí)時(shí)建圖的方案,或者以實(shí)時(shí)生成的地圖作為高精地圖的補(bǔ)充,以避免高精地圖和實(shí)際道路不符的情況,如B站有測評視頻顯示小鵬在開啟城區(qū)領(lǐng)航時(shí)不能識別道路邊沿,或出現(xiàn)車身即將剮蹭橋梁支撐柱等情況,這表明當(dāng)前小鵬自動(dòng)駕駛還是以高精地圖為主,并沒有通過實(shí)時(shí)地圖生成技術(shù)對高精地圖進(jìn)行修正,而相比較華為ADS系統(tǒng)則能夠很大程度避免此類情況,也證明了華為在基于高精地圖進(jìn)行規(guī)控的同時(shí)還會基于在線生成的地圖對規(guī)控進(jìn)行調(diào)整。特斯拉FSD則是目前唯一完全不基于高精地圖的智駕方案。

特斯拉在線地圖生成主要包括車道線生成(識別)模型和車道線拓?fù)浣Y(jié)構(gòu)預(yù)測兩部分。模型基本結(jié)構(gòu)與感知部分模型近似,均為原始圖像輸入接share backbone,即RegNet,再接FPN以產(chǎn)生不同尺度特征圖,之后再接基于transformer的decoder以實(shí)現(xiàn)車道線生成,車道線拓?fù)浣Y(jié)構(gòu)預(yù)測。

圖18 特斯拉車道線生成、道路拓?fù)浣Y(jié)構(gòu)預(yù)測方法

在生成車道線后,在動(dòng)態(tài)交互場景仍不足以支撐決策系統(tǒng),如在路口處需要避讓行人,在車道合并(fork)處需要執(zhí)行匯車操作等,因此還需要對車道線的拓?fù)浣Y(jié)構(gòu)語義進(jìn)行識別或預(yù)測(圖19)。特斯拉對每一個(gè)車道線片段Vector序列,通過由粗略到精細(xì)的兩個(gè)級聯(lián)預(yù)測head預(yù)測特定功能車道線起始位置,再通過拓?fù)浣Y(jié)構(gòu)預(yù)測head預(yù)測當(dāng)前后繼車道線片段是start(起點(diǎn)),continue(延續(xù)點(diǎn)),fork(合并點(diǎn)),還是end(終止點(diǎn)),生成該車道線片段的拓?fù)湔Z義描述序列即“Language of Lanes”。

圖19 特斯拉道路拓?fù)漕A(yù)測/識別的LANGUAGE COMPONENT模塊

百度Apollo 團(tuán)隊(duì)2022年也介紹了其基于在線感知和多源地圖融合的在線地圖生成技術(shù),其通過車端感知輸出道路可行使區(qū)域分割、地圖要素實(shí)例、地圖要素分割、地圖要素矢量化等結(jié)果,結(jié)合多源地圖如高精地圖、眾源地圖,實(shí)現(xiàn)實(shí)時(shí)在線地圖實(shí)時(shí)生成,以避免高精地圖更新慢、部分路段高精地圖與實(shí)際不符等情況。其主要技術(shù)棧也是基于BEV Transformer方法對視覺、激光雷達(dá)輸入進(jìn)行特征提取,再通過基于Decoder模型學(xué)習(xí)生成相應(yīng)的地圖元素。

圖20 百度基于車端感知數(shù)據(jù)和多源地圖融合的在線地圖生成技術(shù)(2022年)

自動(dòng)駕駛定位技術(shù)目前各家方案相似,均是在GNSS+IMU+輪速計(jì)基礎(chǔ)上,增加基于特征定位或SLAM,實(shí)現(xiàn)多源融合定位。根據(jù)贏徹定位系統(tǒng)基本框架(圖21),其采用了基于特征和GNSS/IMU的融合定位方法,一般車企也都采用類似方法。GNSS(GPS、北斗)可以提供絕對位置定位,但在遮擋環(huán)境下如隧道內(nèi)、廠房內(nèi)存在信號不穩(wěn)定或丟失問題?;贗MU、輪速計(jì)、特征定位則會隨著定位時(shí)長誤差會產(chǎn)生累計(jì),因此一般定位系統(tǒng)均需要定期基于GNSS定位校準(zhǔn)總體定位準(zhǔn)確度,在GNSS信號不好位置采用基于慣導(dǎo)和特征融合的定位。毫末智行OverlapTransformer 即是面向LiDAR-Based Place Recognition的基于特征和transformer模型的定位方法(圖22)。

圖21 贏徹定位系統(tǒng)基本框架

圖22 毫末智行面向激光雷達(dá)位置識別的OverlapTransformer模型

目前感知和建圖、定位的界限變得更加模糊,部分在線HDMap生成模型和感知模型共用一種框架,而Occupancy的出現(xiàn)則提供了另一種對于異形未知障礙物處理的方法,總體上感知、建圖、定位具有以下三個(gè)趨勢:

(1). 統(tǒng)一BEV框架,基于share backbone的多任務(wù)感知、端到端地圖生成等模型,基于transformer的編碼器-解碼器架構(gòu)是目前千億車企自動(dòng)駕駛通解。

(2). 一般障礙物預(yù)測即Occupancy占用預(yù)測正在取代傳統(tǒng)軌跡、語義預(yù)測,成為感知模塊重要部分。

(3). 重感知、輕地圖、實(shí)時(shí)地圖生成方案因?yàn)闊o需高精度地圖,靈活度更高,成為毫末、特斯拉、華為等頭部車企自動(dòng)駕駛系統(tǒng)首選方案。

3.5 決策規(guī)劃與控制

截至到2022年,規(guī)控系統(tǒng)一直都是優(yōu)化、搜索方法占主導(dǎo)地位,路徑搜索有A* ,D* , 混合A* 等,軌跡生成有EM Planner、Lattice Planner、貝塞爾曲線等。后面隨著大模型技術(shù)和端到端/部分端到端技術(shù)的發(fā)展,規(guī)控系統(tǒng)在原有優(yōu)化、搜索方法基礎(chǔ)上也引入了更多基于transformer大模型方法、部分端到端方法。

贏徹?fù)?jù)稱采用了規(guī)劃控制一體化架構(gòu)(圖23左側(cè)),采用基于模型控制的方法實(shí)現(xiàn)卡車橫縱向控制,采用神經(jīng)網(wǎng)絡(luò)對交通參與者的行為進(jìn)行長時(shí)預(yù)測(圖23右上)。架構(gòu)中也提到了通過模型辨識方法來獲得車輛加速度響應(yīng)、轉(zhuǎn)向響應(yīng)等車輛特性描述模型,規(guī)控系統(tǒng)在感知結(jié)果、車輛模型基礎(chǔ)上進(jìn)行車輛橫向位置、縱向速度的控制。

圖23 贏徹規(guī)控系統(tǒng)架構(gòu)

特斯拉第一代FSD的規(guī)劃與控制部分接收感知模塊動(dòng)靜態(tài)信息,Occupancy信息,采用一種動(dòng)態(tài)交互式行為樹加軌跡優(yōu)化方法生成滿足避障,舒適等約束的軌跡,再將生成軌跡輸入軌跡評分模塊,從碰撞、舒適性、以及人類偏好角度對軌跡進(jìn)行優(yōu)選(圖25)。

一般自動(dòng)駕駛對于軌跡的表征包括8個(gè)維度,即:

位置,Heading, 速度,橫縱向加速度,橫縱向jerk(位置的3階導(dǎo))。

傳統(tǒng)多物體聯(lián)合軌跡優(yōu)化方法需要找到自車和他車、行人等各自的軌跡,使得所有物體都能盡可能的抵達(dá)goal,同時(shí)橫縱向jerk盡可能小(舒適度),并滿足所有軌跡最近距離大于安全距離約束,及早到約束和遲到約束(早到約束是指車輛不能在交叉口的前方等待,以避免阻塞交通。遲到約束是指車輛不能太晚進(jìn)入交叉口,以避免與其他車輛發(fā)生碰撞)。特斯拉嘗試了基于歐式距離啟發(fā)式A* 和基于歐式距離加導(dǎo)航的A* 傳統(tǒng)方法,所能實(shí)現(xiàn)最短規(guī)劃耗時(shí)為50ms(20Hz),即圖24中的A,B方法,右側(cè)同時(shí)可視化了A,B方法的搜索結(jié)果。20Hz很難滿足高速場景自動(dòng)駕駛需求,為此,特斯拉采用了結(jié)合交互式MCTS(蒙特卡洛樹搜索)和神經(jīng)網(wǎng)絡(luò)的方法,即圖24中的C,算法迭代次數(shù)相較傳統(tǒng)方法下降了兩個(gè)數(shù)量級。一次軌跡生成約100us,推測其規(guī)劃部分總用時(shí)小于10ms,可以滿足各種駕駛場景下實(shí)時(shí)性需求。特斯拉具體做法如下:

(1). 根據(jù)道路拓?fù)溥x定目標(biāo)點(diǎn)(goal),或者根據(jù)自然人駕駛數(shù)據(jù)先驗(yàn)得到goal點(diǎn)概率分布;

(2). 根據(jù)goal點(diǎn),生成候選軌跡(優(yōu)化算法+神經(jīng)網(wǎng)絡(luò));

(3). 沿著候選軌跡rollout,得到終點(diǎn)狀態(tài),再基于碰撞檢測、舒適性分析、介入概率以及與人類駕駛軌跡相似度給節(jié)點(diǎn)打分(圖25底部),選擇滿足約束的最優(yōu)軌跡。

圖24 特斯拉路徑路徑搜索求解的三種方法

圖24 特斯拉基于MCTS和Neural Planner的軌跡生成、選擇方法

特斯拉控制算法沒有看到相關(guān)介紹,推測應(yīng)該以傳統(tǒng)算法為主,如基于模型的MPC、串級PID等??傮w上特斯拉方法更貼近量產(chǎn)和落地,但在最新技術(shù)的應(yīng)用上,特斯拉并非響應(yīng)最快的,當(dāng)然特斯拉最新的FSD V12據(jù)稱從感知到規(guī)控模塊基本完全采用神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn),但國內(nèi)其實(shí)也有一些在新技術(shù)和自動(dòng)駕駛結(jié)合方面探索的更為激進(jìn)一些,如毫末智行、百度等。圖11展示了毫末智行結(jié)合LLM即大語言模型實(shí)現(xiàn)的從駕駛場景自然語言推理,到車輛控制信號輸出的通用的可解釋自動(dòng)駕駛控制器DriveGPT,該架構(gòu)包含兩個(gè)核心模型即多模態(tài)感知大模型(圖25)、駕駛常識認(rèn)知大語言模型(圖26)。DriveGPT基于通用語義感知大模型提供的“萬物識別”能力,通過構(gòu)建駕駛語言(Drive Language)來描述駕駛環(huán)境和駕駛意圖,再結(jié)合導(dǎo)航引導(dǎo)信息以及自車歷史動(dòng)作,并借助外部大語言模型LLM的海量知識來輔助給出并解釋駕駛決策。

圖25 毫末智行的多模態(tài)感知大模型

圖26 毫末智行駕駛常識認(rèn)知大語言模型

圖27 DriveGPT駕駛場景理解、駕駛行為解釋測試效果

圖27給出了一個(gè)實(shí)際駕駛場景DriveGPT測試,通過感知大模型實(shí)現(xiàn)道路元素的分割和識別,然后通過大語言LLM模型推理當(dāng)前場景的特征,各個(gè)車輛動(dòng)作的含義。毫末通過引入大語言模型來解釋駕駛環(huán)境,讓AI自己解釋自己的駕駛決策。通過構(gòu)建自動(dòng)駕駛描述數(shù)據(jù),來對大語言模型進(jìn)行微調(diào),讓大語言模型能夠像駕校教練或者陪練一樣,對駕駛行為做出更詳細(xì)的解釋。

國內(nèi)也有一些結(jié)合傳統(tǒng)方法和感知神經(jīng)網(wǎng)絡(luò)模型、規(guī)控神經(jīng)網(wǎng)絡(luò)模型的探索(圖28),如小鵬的XPlanner,感知模型輸出道路元素分割、識別結(jié)果,加上導(dǎo)航信息輸入神經(jīng)網(wǎng)絡(luò)規(guī)劃器以生成軌跡規(guī)劃,最后再結(jié)合規(guī)則知識對軌跡進(jìn)行選擇或優(yōu)化,最后輸出到車輛控制模塊。

圖28 小鵬汽車的XPlanner架構(gòu)(圖中綠色為神經(jīng)網(wǎng)絡(luò)模型,灰色為基于規(guī)則的模塊)

總結(jié),當(dāng)前規(guī)控方案的特點(diǎn)如下:

(1). 目前多數(shù)規(guī)控方案結(jié)合端到端神經(jīng)網(wǎng)絡(luò)方法、基于知識的決策樹或其他搜索、優(yōu)化方法來簡化建模等理論復(fù)雜度,并提升模型性能-數(shù)據(jù)量和數(shù)據(jù)質(zhì)量關(guān)聯(lián)度。

(2). BEV框架+大模型+人反饋強(qiáng)化學(xué)習(xí)(RLHF)+圖像推理、自然語義理解 能夠構(gòu)建一種數(shù)據(jù)依賴較強(qiáng)的新一代自動(dòng)駕駛規(guī)控架構(gòu)。

3.6 部分端到端感知、規(guī)控一體模型

通過端到端方式實(shí)現(xiàn)更復(fù)雜的控制技巧學(xué)習(xí)其實(shí)早在19年谷歌就嘗試過,在“Learning Hand-Eye Coordination for Robotic Grasping with Deep Learning and Large-Scale Data Collection”一文中,Sergey Levine等人即提出一種基于機(jī)器人視覺輸入和執(zhí)行機(jī)構(gòu)控制量到多目標(biāo)抓取成功率的端到端學(xué)習(xí)框架(圖29),當(dāng)時(shí)業(yè)內(nèi)戲稱“機(jī)器人農(nóng)場”,實(shí)際上也取得不錯(cuò)的效果,后續(xù)相關(guān)的工作還有Dex-Net 1.0/2.0系列工作,但這些工作由于本身應(yīng)用場景單一,數(shù)據(jù)量較小,而且不同機(jī)器人間機(jī)構(gòu)、作業(yè)任務(wù)又差異很大,因此很難獲得大量高質(zhì)量數(shù)據(jù)以助力模型表征能力突破,影響較小,基本僅限于機(jī)器人行業(yè)從業(yè)者之間。而自動(dòng)駕駛,尤其是乘用車自動(dòng)駕駛,由于其具有規(guī)模極大、駕駛?cè)蝿?wù)高度相似,自動(dòng)駕駛車輛結(jié)構(gòu)及傳感器配置又比較相似,再加上資本的關(guān)注,恰恰解決了上述機(jī)器人場景的所有痛點(diǎn),因此以特斯拉為代表的科技公司,才能完成數(shù)據(jù)-模型飛輪的閉環(huán),在全社會形成廣泛的影響。

圖29 谷歌機(jī)器人農(nóng)場(左)和基于深度學(xué)習(xí)模型的感知輸入、控制量輸入到抓取成功率評價(jià)的端到端學(xué)習(xí)框架(右)

UniAD也是在這樣的背景下誕生的,UniAD的誕生實(shí)際上具有比較多的突破,UniAD是近十年來CVPR唯一一篇來自中國的Best Paper。UniAD并非完全端到端的感知-控制量的框架,其人為設(shè)計(jì)了包括TrackFormer、MapFormer、MotionFormer、OccFormer等在內(nèi)的多個(gè)中間過程,其最終Planner模塊接收的輸入也包括Track、Motion的Query特征,以及OccFormer輸出的占用網(wǎng)格,同時(shí)Planner也接受自然語言控制指令的輸入,如圖中的“turn left”,模型最終輸出的為最優(yōu)的免碰撞軌跡。

圖30 UniAD總體框架,最右側(cè)引出圖為Planner內(nèi)部的框架原理圖

UniAD與經(jīng)典序貫?zāi)P筒煌谟?,?jīng)典序貫?zāi)P透鱾€(gè)模塊有自己的評價(jià)指標(biāo),如目標(biāo)檢測模型優(yōu)化目標(biāo)包括類別準(zhǔn)確率及IOU等,追蹤模型優(yōu)化目標(biāo)包括MOTA、Mostly Tracked tracklets (MT)等,預(yù)測模塊評價(jià)指標(biāo)包括minADE、minFDE等,軌跡生成模塊同時(shí)要考慮安全、舒適性(速度,加速度,及加速度一階導(dǎo)等)等指標(biāo),控制部分需要考慮軌跡跟蹤實(shí)時(shí)性、收斂速度等,因此各模塊都會按照自己的評價(jià)指標(biāo)對模型進(jìn)行優(yōu)化、改進(jìn),而UniAD不強(qiáng)調(diào)各個(gè)模塊的評價(jià)指標(biāo)最優(yōu),UniAD集成了感知、預(yù)測和規(guī)劃等關(guān)鍵任務(wù),并將這些任務(wù)整合到一個(gè)基于 Transformer 的端到端網(wǎng)絡(luò)框架中,建立了一個(gè)由任務(wù)最終目標(biāo)和Track、Map、Occ及控制指令構(gòu)成的優(yōu)化函數(shù),通過標(biāo)注數(shù)據(jù)優(yōu)化各個(gè)模塊的模型參數(shù),這樣模型就是始終以最終目標(biāo)為優(yōu)化對象而進(jìn)行訓(xùn)練的。UniAD框架是業(yè)界首個(gè)將全棧關(guān)鍵任務(wù)整合到一個(gè)深度神經(jīng)網(wǎng)絡(luò)中的自動(dòng)駕駛模型。實(shí)際基于不同方法、原理的端到端的自動(dòng)駕駛技術(shù)工作其實(shí)也比較多(圖31,End-to-end Autonomous Driving: Challenges and Frontiers),其中包括基于模仿學(xué)習(xí)方法(CNN E2E)、強(qiáng)化學(xué)習(xí)方法(Drive in A Day)等的工作,UniAD屬于模塊化端到端規(guī)劃方法。

圖31 端到端自動(dòng)駕駛相關(guān)工作。圖中按順序列出了關(guān)鍵的里程碑工作,藍(lán)色字體標(biāo)識了不同類方法(Imitation Learning, Reinforcement Learning etc.)。其中代表性工作用粗體、插圖進(jìn)行了展示。頂部為CARLA Autonomous Driving Leaderboard中的Driving Score的評分,nuPlan Score類似。

4.總結(jié)

4.1 三代自動(dòng)駕駛系統(tǒng)特點(diǎn)分析總結(jié)

三代自動(dòng)駕駛系統(tǒng)在之前文章已系統(tǒng)介紹過了(B站,ID:不優(yōu)秀博仕Hanker,文章題目:三代自動(dòng)駕駛系統(tǒng)及主流科技公司自動(dòng)駕駛技術(shù)方案簡介),因?yàn)榭偨Y(jié)里要分析三代自動(dòng)駕駛系統(tǒng)的優(yōu)缺點(diǎn),因此這里簡要回顧下三代自動(dòng)駕駛系統(tǒng)。第一代自動(dòng)駕駛技術(shù)以后融合感知技術(shù),高精度地圖,基于慣導(dǎo)、GPS定位系統(tǒng),預(yù)測模塊,基于優(yōu)化、搜索的規(guī)控等組成。第二代自動(dòng)駕駛技術(shù)在第一代自動(dòng)駕駛方案基礎(chǔ)上,算法框架統(tǒng)一為BEV框架,感知采用了基于共享主干網(wǎng)(share backbone)的Transformer多任務(wù)感知模型,在輸出目標(biāo)感知的同時(shí),幾乎所有框架也都包含Occupancy預(yù)測,同時(shí)基于本地實(shí)時(shí)地圖生成方法降低了系統(tǒng)對高精度地圖的依賴,規(guī)控部分仍以搜索和優(yōu)化方法為主。第三代自動(dòng)駕駛系統(tǒng)和第二代框架相同,均是基于BEV框架,但感知、規(guī)控算法開始采用端到端的方式,并在訓(xùn)練通用自動(dòng)駕駛控制器的同時(shí),利用大規(guī)模語料數(shù)據(jù)訓(xùn)練模型的自動(dòng)駕駛場景描述能力,實(shí)現(xiàn)系統(tǒng)在輸出控制量的同時(shí)解釋系統(tǒng)為什么要執(zhí)行對應(yīng)的操作,即對駕駛行為進(jìn)行解釋。代表性工作如前文介紹的DriveGPT。第一代自動(dòng)駕駛系統(tǒng)主要模型參數(shù)量約百萬級,算力需求在100TOPS量級;第二代自動(dòng)駕駛系統(tǒng)主要模型規(guī)模突破千萬級,部分基于Transformer的模型參數(shù)量接近億級,算力需求約200-500TOPS;第三代自動(dòng)駕駛系統(tǒng)由于引入大模型技術(shù),初步估算參算量會達(dá)到百億、千億水平,算力需求最終則會達(dá)到2000TOPS。

圖32 三代自動(dòng)駕駛系統(tǒng)特征,當(dāng)前主要科技公司自動(dòng)駕駛系統(tǒng)架構(gòu)估計(jì),及三代自動(dòng)駕駛系統(tǒng)對應(yīng)模型參數(shù)與硬件需求估計(jì)。

第一代后融合串聯(lián)自動(dòng)駕駛系統(tǒng)具有以下問題:

(1).目標(biāo)檢測、行駛區(qū)域分割等模型均獨(dú)立訓(xùn)練,存在特征提取重復(fù)問題;
(2).感知、定位、預(yù)測、規(guī)控等各模塊針對不同的目標(biāo)優(yōu)化,而非最終駕駛目標(biāo);
(3).感知、預(yù)測、規(guī)控前后串連,會導(dǎo)致誤差累積、傳遞。
(4).傳統(tǒng)二維視角由于透視效應(yīng),物體可能出現(xiàn)遮擋和比例問題。
(5).時(shí)序信息缺少,遮擋處理、速度估計(jì)難度大。

第二代基于BEV多任務(wù)學(xué)習(xí)的自動(dòng)駕駛系統(tǒng)的出現(xiàn)解決了特征重復(fù)提取、視角不統(tǒng)一、激光雷達(dá)和高精度地圖依賴問題,但仍沒有解決系統(tǒng)各模塊未基于最終駕駛目標(biāo)進(jìn)行各模塊優(yōu)化問題,總體上第二代自動(dòng)駕駛系統(tǒng)具有以下特點(diǎn):

(1).檢測、分割、障礙物預(yù)測等多個(gè)任務(wù)共享模型主干,特征復(fù)用、多任務(wù)并行出結(jié)果,容易擴(kuò)展到額外任務(wù),提升效率;
(2).BEV 3D視角,跨攝像頭融合容易,時(shí)序融合容易,易預(yù)測、補(bǔ)全遮擋目標(biāo);
(3).模型結(jié)構(gòu)單一,易優(yōu)化,多平臺部署難度??;
(4).純視覺BEV方案在功能不降級前提下,可極大降成本,個(gè)人根據(jù)實(shí)際系統(tǒng)開發(fā)經(jīng)驗(yàn),單傳感器配置一項(xiàng)即可降本至少20%。
(5).地圖方面根據(jù)元戎啟行數(shù)據(jù),采用在線生成地圖(SD Map具備道路幾何拓?fù)?、車道等信息,總體精度5-10cm,支持隧道、橋梁等路況),對比HD Map,在線SD Map成本為 100RMB每年,HD Map成本則在1000RMB每年;
(6).降低激光雷達(dá)依賴后,自動(dòng)駕駛系統(tǒng)整體易支持國產(chǎn)域控平臺,如前文提到的天準(zhǔn)雙J5域控,即可支持11V2L4R的BEV方案;

第三代端到端或部分端到端自動(dòng)駕駛系統(tǒng)根據(jù)chatGPT的經(jīng)驗(yàn)看,大概率是最優(yōu)解,可能未來也是不同場景自動(dòng)駕駛公司根據(jù)通用模型訓(xùn)練針對性的智駕DriveGPT。第三代自動(dòng)駕駛系統(tǒng)兩種類型具有以下特點(diǎn):

(1).完全端到端

  1. 直接從感知輸入中學(xué)習(xí)駕駛策略;
  2. 結(jié)構(gòu)簡單,在模擬器中表現(xiàn)良好;
  3. 現(xiàn)實(shí)世界中缺乏可解釋性。

(2).部分端到端

  1. 引入實(shí)時(shí)地圖生成、一般障礙物預(yù)測等中間任務(wù),以協(xié)助規(guī)劃;
  2. 引入自然語言駕駛場景推理,提高可解釋性;
  3. 以最終任務(wù)協(xié)調(diào)所有子模塊任務(wù)以實(shí)現(xiàn)安全、高效的駕駛?cè)蝿?wù)學(xué)習(xí)。

4.2 基于自動(dòng)駕駛各模塊的分析總結(jié)

  • (1).在系統(tǒng)硬件架構(gòu)上,多核CPU,GPU,深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)單元,安全冗余芯片為控制器四個(gè)必要組成部分。
  • (2).感知和地圖:基于BEV+Transformer構(gòu)建共享主干多任務(wù)感知模型,實(shí)現(xiàn)目標(biāo)檢測、運(yùn)動(dòng)預(yù)測、地圖實(shí)時(shí)生成的重感知輕地圖方案是未來2-3年內(nèi)自動(dòng)駕駛量產(chǎn)的核心框架。
  • (3).定位:基于消費(fèi)級導(dǎo)航地圖、定位設(shè)備,融合多傳感器特征定位是降低基于高精度地圖和高精度慣導(dǎo)成本的重要方式。
  • (4).規(guī)劃:結(jié)合語言、知識大模型,結(jié)合端到端自動(dòng)駕駛大模型和基于強(qiáng)化學(xué)習(xí)的反饋學(xué)習(xí)機(jī)制,構(gòu)建能以自然語言方式實(shí)時(shí)描述、推理駕駛場景,能夠基于駕駛目標(biāo)整體優(yōu)化的方案是未來重要方向。
  • (5).控制:基于模型預(yù)測控制,基于模型作為先驗(yàn),基于實(shí)際駕駛數(shù)據(jù)的無模型強(qiáng)化學(xué)習(xí)控制可能是解決多場景自適應(yīng)控制的方向。
  • (6.)算法架構(gòu):含部分人為設(shè)計(jì)的中間過程,結(jié)合自然語言場景理解,基于人反饋強(qiáng)化學(xué)習(xí)(RLHF)大模型架構(gòu)的偽端到端自動(dòng)駕駛框架會是未來重要方向。

原文鏈接:https://mp.weixin.qq.com/s/h4UCkF2sasuYZ5PExAIiGw

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2021-11-03 09:48:08

智能自動(dòng)駕駛汽車

2019-02-14 08:00:30

大數(shù)據(jù)商用車市場分析

2021-11-18 18:21:18

智能自動(dòng)駕駛汽車

2024-07-26 16:12:35

火山引擎豆包大模型上汽乘用車

2021-01-20 14:06:54

華為云

2011-12-14 18:28:10

惠普

2021-07-02 13:16:56

自動(dòng)駕駛無人駕駛人工智能

2021-06-28 11:40:50

賀雄松無人駕駛無人配送

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2021-09-10 11:12:50

開發(fā)技能代碼

2023-03-14 13:01:05

職能汽車

2022-12-30 12:10:41

L4自動(dòng)駕駛破產(chǎn)

2021-09-14 09:35:34

MySQL查詢解析優(yōu)化器

2015-04-27 15:42:24

英特爾中交興路星航道

2021-12-30 10:53:01

自動(dòng)駕駛毫末智行

2023-02-17 15:15:53

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號