數(shù)據(jù)為王!如何通過數(shù)據(jù)一步步構(gòu)建高效的自動駕駛算法?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
下一代自動駕駛技術(shù)期望依賴于智能感知、預(yù)測、規(guī)劃和低級別控制之間的專門集成和交互。自動駕駛算法性能的上限一直存在巨大的瓶頸,學(xué)術(shù)界和業(yè)界一致認(rèn)為,克服瓶頸的關(guān)鍵在于以數(shù)據(jù)為中心的自動駕駛技術(shù)。AD仿真、閉環(huán)模型訓(xùn)練和AD大數(shù)據(jù)引擎近期已經(jīng)獲得了一些寶貴的經(jīng)驗(yàn)。然而,對于如何構(gòu)建高效的以數(shù)據(jù)為中心的AD技術(shù)來實(shí)現(xiàn)AD算法的自進(jìn)化和更好的AD大數(shù)據(jù)積累,缺乏系統(tǒng)的知識和深刻的理解。為了填補(bǔ)這一研究空白,這里將密切關(guān)注最新的數(shù)據(jù)驅(qū)動自動駕駛技術(shù),重點(diǎn)是自動駕駛數(shù)據(jù)集的全面分類,主要包括里程碑、關(guān)鍵特征、數(shù)據(jù)采集設(shè)置等。此外我們從產(chǎn)業(yè)前沿對現(xiàn)有的基準(zhǔn)閉環(huán)AD大數(shù)據(jù)pipeline進(jìn)行了系統(tǒng)的回顧,包括閉環(huán)框架的過程、關(guān)鍵技術(shù)和實(shí)證研究。最后討論了未來的發(fā)展方向、潛在應(yīng)用、局限性和關(guān)注點(diǎn),以引起學(xué)術(shù)界和工業(yè)界的共同努力,推動自動駕駛的進(jìn)一步發(fā)展。
總結(jié)來說,主要貢獻(xiàn)如下:
- 介紹了第一個(gè)按里程碑代、模塊化任務(wù)、傳感器套件和關(guān)鍵功能分類的自動駕駛數(shù)據(jù)集綜合分類法;
- 基于深度學(xué)習(xí)和生成人工智能模型,對最先進(jìn)的閉環(huán)數(shù)據(jù)驅(qū)動自動駕駛pipeline和相關(guān)關(guān)鍵技術(shù)進(jìn)行系統(tǒng)回顧;
- 給出了閉環(huán)大數(shù)據(jù)驅(qū)動pipeline在自動駕駛工業(yè)應(yīng)用中如何工作的實(shí)證研究;
- 討論了當(dāng)前pipeline和解決方案的優(yōu)缺點(diǎn),以及以數(shù)據(jù)為中心的自動駕駛未來的研究方向。
SOTA自動駕駛數(shù)據(jù)集:分類和發(fā)展
自動駕駛數(shù)據(jù)集的演變反映了該領(lǐng)域的技術(shù)進(jìn)步和日益增長的雄心。20世紀(jì)末的早期進(jìn)展院的AVT研究和加州大學(xué)伯克利分校的PATH計(jì)劃,為基本的傳感器數(shù)據(jù)奠定了基礎(chǔ),但受到時(shí)代技術(shù)水平的限制。在過去的二十年里,在傳感器技術(shù)、計(jì)算能力和復(fù)雜的機(jī)器學(xué)習(xí)算法的進(jìn)步的推動下,出現(xiàn)了重大的飛躍。2014年,美國汽車工程師學(xué)會(SAE)向公眾公布了一個(gè)系統(tǒng)化的六級(L0-L5)自動駕駛系統(tǒng),該系統(tǒng)得到了自動駕駛研發(fā)進(jìn)展的廣泛認(rèn)可。在深度學(xué)習(xí)的推動下,基于計(jì)算機(jī)視覺的方法已經(jīng)主導(dǎo)了智能感知。深度強(qiáng)化學(xué)習(xí)及其變體為智能規(guī)劃和決策提供了至關(guān)重要的改進(jìn)。最近,大型語言模型(LLM)和視覺語言模型(VLM)展示了它們強(qiáng)大的場景理解、駕駛行為推理和預(yù)測以及智能決策能力,為自動駕駛的未來發(fā)展開辟了新的可能性。
自動駕駛數(shù)據(jù)集的里程碑式發(fā)展
圖2按照時(shí)間順序展示了開源自動駕駛數(shù)據(jù)集的里程碑式開發(fā)。顯著的進(jìn)步導(dǎo)致主流數(shù)據(jù)集被分為三代,其特點(diǎn)是數(shù)據(jù)集的復(fù)雜性、數(shù)量、場景多樣性和標(biāo)注粒度都有了顯著的飛躍,將該領(lǐng)域推向了技術(shù)成熟的新前沿。具體而言,橫軸表示開發(fā)時(shí)間軸。每行的側(cè)頭包括數(shù)據(jù)集名稱、傳感器模態(tài)、合適的任務(wù)、數(shù)據(jù)收集地點(diǎn)和相關(guān)挑戰(zhàn)。為了進(jìn)一步比較不同世代的數(shù)據(jù)集,我們使用不同顏色的條形圖來可視化感知和預(yù)測/規(guī)劃數(shù)據(jù)集規(guī)模。早期階段,即2012年開始的第一代,由KITTI和Cityscapes牽頭,為感知任務(wù)提供了高分辨率圖像,是視覺算法基準(zhǔn)進(jìn)度的基礎(chǔ)。推進(jìn)到第二代,NuScenes、Waymo、Argoverse 1等數(shù)據(jù)集引入了一種多傳感器方法,將車載攝像頭、高精地圖(HD Map)、激光雷達(dá)、雷達(dá)、GPS、IMU、軌跡、周圍物體的數(shù)據(jù)集成在一起,這對于全面的駕駛環(huán)境建模和決策過程至關(guān)重要。最近,NuPlan、Argoverse 2和Lyft L5顯著提高了影響標(biāo)準(zhǔn),提供了前所未有的數(shù)據(jù)規(guī)模,并培育了一個(gè)有利于尖端研究的生態(tài)系統(tǒng)。這些數(shù)據(jù)集以其龐大的規(guī)模和多模態(tài)傳感器集成為特點(diǎn),在開發(fā)感知、預(yù)測和規(guī)劃任務(wù)的算法方面發(fā)揮了重要作用,為先進(jìn)的End2End或混合自動駕駛模型鋪平了道路。2024年,我們迎來了第三代自動駕駛數(shù)據(jù)集。在VLM、LLM和其他第三代人工智能技術(shù)的支持下,第三代數(shù)據(jù)集強(qiáng)調(diào)了行業(yè)致力于應(yīng)對自動駕駛?cè)找鎻?fù)雜的挑戰(zhàn),如數(shù)據(jù)長尾分布問題、分布外檢測、角點(diǎn)案例分析等。
數(shù)據(jù)集采集、設(shè)置和關(guān)鍵功能
表1總結(jié)了具有高度影響力的感知數(shù)據(jù)集的數(shù)據(jù)采集和標(biāo)注設(shè)置,包括駕駛場景、傳感器套件和標(biāo)注,我們報(bào)告了數(shù)據(jù)集場景下天氣/時(shí)間/駕駛條件類別的總數(shù),其中天氣通常包括晴天/多云/霧天/下雨/雪/其他(極端條件);一天中的時(shí)間通常包括上午、下午和晚上;駕駛條件通常包括城市街道、主干道、小街、農(nóng)村地區(qū)、高速公路、隧道、停車場等。場景越多樣化,數(shù)據(jù)集就越強(qiáng)大。我們還報(bào)告了數(shù)據(jù)集收集的區(qū)域,表示為as(亞洲)、EU(歐洲)、NA(北美)、SA(南美)、AU(澳大利亞)、AF(非洲)。值得注意的是,Mapillary是通過AS/EU/NA/SA/AF/AF收集的,DAWN是從谷歌和必應(yīng)圖像搜索引擎收集的。對于傳感器套件,我們研究了相機(jī)、激光雷達(dá)、GPS和IMU等。表1中的FV和SV分別是前視圖相機(jī)和街景相機(jī)的縮寫。360°全景攝像頭設(shè)置,通常由多個(gè)前視圖攝像頭、罕見視圖攝像頭和側(cè)視圖攝像頭組成。我們可以觀察到,隨著AD技術(shù)的發(fā)展,數(shù)據(jù)集中包含的傳感器類型和數(shù)量正在增加,數(shù)據(jù)模式也越來越多樣化。關(guān)于數(shù)據(jù)集標(biāo)注,早期的數(shù)據(jù)集通常采用手動標(biāo)注方法,而最近的NuPlan、Argoverse 2和DriveLM對AD大數(shù)據(jù)采用了自動標(biāo)注技術(shù)。我們認(rèn)為,從傳統(tǒng)的手動標(biāo)注到自動標(biāo)注的轉(zhuǎn)變是未來以數(shù)據(jù)為中心的自動駕駛的一大趨勢。
對于預(yù)測和規(guī)劃任務(wù),我們在表2中總結(jié)了主流數(shù)據(jù)集的輸入/輸出分量、傳感器套件、場景長度和預(yù)測長度。對于運(yùn)動預(yù)測/預(yù)測任務(wù),輸入組件通常包括自車歷史軌跡、周圍代理歷史軌跡、高精地圖和交通狀態(tài)信息(即交通信號狀態(tài)、道路ID、停車標(biāo)志等)。目標(biāo)輸出是自車和/或周圍主體在短時(shí)間內(nèi)的幾個(gè)最可能的軌跡(例如前5或前10軌跡)。運(yùn)動預(yù)測任務(wù)通常采用滑動時(shí)間窗口設(shè)置,將整個(gè)場景劃分為幾個(gè)較短的時(shí)間窗口。例如,NuScenes采用過去2秒的GT據(jù)和高精地圖來預(yù)測下一個(gè)6秒的軌跡,而Argoverse 2采用歷史5秒的地面真相和高精地圖預(yù)測未來6秒的軌道。NuPlan、CARLA和ApoloScape是最受歡迎的規(guī)劃任務(wù)數(shù)據(jù)集。輸入組件包括自我/周圍車輛歷史軌跡、自我車輛運(yùn)動狀態(tài)和駕駛場景表示。雖然NuPlan和ApoloScape是在現(xiàn)實(shí)世界中獲得的,但CARLA是一個(gè)模擬數(shù)據(jù)集。CARLA包含在不同城鎮(zhèn)的模擬駕駛過程中拍攝的道路圖像。每個(gè)道路圖像都帶有一個(gè)轉(zhuǎn)向角,它表示保持車輛正常行駛所需的調(diào)整。規(guī)劃的預(yù)測長度可以根據(jù)不同算法的要求而變化。
閉環(huán)數(shù)據(jù)驅(qū)動的自動駕駛系統(tǒng)
我們現(xiàn)在正從以前的軟件和算法定義的自動駕駛時(shí)代轉(zhuǎn)向新的鼓舞人心的大數(shù)據(jù)驅(qū)動和智能模型協(xié)同自動駕駛時(shí)代。閉環(huán)數(shù)據(jù)驅(qū)動系統(tǒng)旨在彌合AD算法訓(xùn)練與其現(xiàn)實(shí)世界應(yīng)用/部署之間的差距。與傳統(tǒng)的開環(huán)方法不同,在傳統(tǒng)開環(huán)方法中,模型是在從人類客戶駕駛或道路測試中收集的數(shù)據(jù)集上被動訓(xùn)練的,閉環(huán)系統(tǒng)與真實(shí)環(huán)境動態(tài)交互。這種方法解決了分布變化的挑戰(zhàn)——從靜態(tài)數(shù)據(jù)集學(xué)習(xí)的行為可能無法轉(zhuǎn)化為真實(shí)世界駕駛場景的動態(tài)性質(zhì)。閉環(huán)系統(tǒng)允許AV從互動中學(xué)習(xí)并適應(yīng)新的情況,通過行動和反饋的迭代循環(huán)進(jìn)行改進(jìn)。
然而,由于幾個(gè)關(guān)鍵問題,構(gòu)建現(xiàn)實(shí)世界中以數(shù)據(jù)為中心的閉環(huán)AD系統(tǒng)仍然具有挑戰(zhàn)性:第一個(gè)問題與AD數(shù)據(jù)收集有關(guān)。在現(xiàn)實(shí)世界的數(shù)據(jù)采集中,大多數(shù)數(shù)據(jù)樣本是常見/正常駕駛場景,而彎道和異常駕駛場景的數(shù)據(jù)幾乎無法采集。其次,需要進(jìn)一步努力探索準(zhǔn)確高效的AD數(shù)據(jù)自動標(biāo)注方法。第三,為了緩解AD模型在城市環(huán)境中某些場景中表現(xiàn)不佳的問題,應(yīng)該強(qiáng)調(diào)場景數(shù)據(jù)挖掘和場景理解。
SOTA閉環(huán)自動駕駛pipeline
自動駕駛行業(yè)正在積極構(gòu)建集成的大數(shù)據(jù)平臺,以應(yīng)對大量AD數(shù)據(jù)積累帶來的挑戰(zhàn)。這可以被恰當(dāng)?shù)胤Q為數(shù)據(jù)驅(qū)動自動駕駛時(shí)代的新基礎(chǔ)設(shè)施。在我們對頂級AD公司/研究機(jī)構(gòu)開發(fā)的數(shù)據(jù)驅(qū)動閉環(huán)系統(tǒng)的調(diào)查中,我們發(fā)現(xiàn)了幾個(gè)共性:
- 這些pipeline通常遵循一個(gè)工作流循環(huán),包括:(I)數(shù)據(jù)采集,(II)數(shù)據(jù)存儲,(III)數(shù)據(jù)選擇和預(yù)處理,(IV)數(shù)據(jù)標(biāo)注,(V)AD模型訓(xùn)練,(VI)模擬/測試驗(yàn)證,以及(VII)真實(shí)世界部署。
- 系統(tǒng)內(nèi)閉環(huán)的設(shè)計(jì),現(xiàn)有的解決方案要么選擇單獨(dú)設(shè)置的“數(shù)據(jù)閉環(huán)”和“模型閉環(huán)”,要么分別設(shè)置不同階段的周期:“研發(fā)階段閉環(huán)”、“部署階段閉環(huán)”。
- 之外,該行業(yè)還強(qiáng)調(diào)了真實(shí)世界AD數(shù)據(jù)集的長期分布問題以及處理角落案例時(shí)的挑戰(zhàn)。特斯拉和英偉達(dá)是這一領(lǐng)域的行業(yè)先驅(qū),其數(shù)據(jù)系統(tǒng)架構(gòu)為該領(lǐng)域的發(fā)展提供了重要參考。
NVIDIA MagLev AV平臺圖3(左))遵循“收集→ 選擇→ 標(biāo)簽→ 馴龍”作為程序,它是一個(gè)可復(fù)制的工作流程,可以實(shí)現(xiàn)SDC的主動學(xué)習(xí),并在循環(huán)中進(jìn)行智能標(biāo)注。MagLev主要包括兩條閉環(huán)pipeline。第一個(gè)循環(huán)是以自動駕駛數(shù)據(jù)為中心,從數(shù)據(jù)攝入和智能選擇開始,通過標(biāo)注和標(biāo)注,然后是模型搜索和訓(xùn)練。然后對經(jīng)過訓(xùn)練的模型進(jìn)行評估、調(diào)試,并最終部署到現(xiàn)實(shí)世界中。第二個(gè)閉環(huán)是平臺的基礎(chǔ)設(shè)施支持系統(tǒng),包括數(shù)據(jù)中心骨干和硬件基礎(chǔ)設(shè)施。此循環(huán)包括安全的數(shù)據(jù)處理、可擴(kuò)展的DNN和系統(tǒng)KPI、用于跟蹤和調(diào)試的儀表板。它支持AV開發(fā)的全周期,確保在開發(fā)過程中不斷改進(jìn)和整合真實(shí)世界的數(shù)據(jù)和模擬反饋。
特斯拉自動駕駛數(shù)據(jù)平臺(圖3(右))是另一個(gè)具有代表性的AD平臺,它強(qiáng)調(diào)使用大數(shù)據(jù)驅(qū)動的閉環(huán)pipeline來顯著提高自動駕駛模型的性能。pipeline從源數(shù)據(jù)收集開始,通常來自特斯拉的車隊(duì)學(xué)習(xí)、事件觸發(fā)車端數(shù)據(jù)收集和陰影模式。收集到的數(shù)據(jù)將由數(shù)據(jù)平臺算法或人類專家進(jìn)行存儲、管理和檢查。無論何時(shí)發(fā)現(xiàn)角落案例/不準(zhǔn)確性,數(shù)據(jù)引擎都將從現(xiàn)有數(shù)據(jù)庫中檢索并匹配與角落案例/不準(zhǔn)確事件高度相似的數(shù)據(jù)樣本。同時(shí),將開發(fā)單元測試,以復(fù)制場景并嚴(yán)格測試系統(tǒng)的響應(yīng)。之后,檢索到的數(shù)據(jù)樣本將由自動標(biāo)注算法或人類專家進(jìn)行標(biāo)注。然后,標(biāo)注良好的數(shù)據(jù)將反饋給AD數(shù)據(jù)庫,數(shù)據(jù)庫將被更新以生成用于AD感知/預(yù)測/規(guī)劃/控制模型的新版本的訓(xùn)練數(shù)據(jù)集。經(jīng)過模型訓(xùn)練、驗(yàn)證、仿真和真實(shí)世界測試,具有更高性能的新AD模型將發(fā)布并部署。
基于Generative AI的高保真AD數(shù)據(jù)生成與仿真
從真實(shí)世界采集的大多數(shù)AD數(shù)據(jù)樣本都是常見/正常駕駛場景,其中我們在數(shù)據(jù)庫中已經(jīng)有大量類似的樣本。然而,要從真實(shí)世界的采集中收集某種類型的AD數(shù)據(jù)樣本,我們需要駕駛指數(shù)級的長時(shí)間,這在工業(yè)應(yīng)用中是不可行的。因此,高保真自動駕駛數(shù)據(jù)生成和仿真方法引起了學(xué)術(shù)界的極大關(guān)注。CARLA是一款用于自動駕駛研究的開源模擬器,能夠在用戶指定的各種設(shè)置下生成自動駕駛數(shù)據(jù)。CARLA的優(yōu)勢在于其靈活性,允許用戶創(chuàng)建不同的道路條件、交通場景和天氣動態(tài),這有助于全面的模型訓(xùn)練和測試。然而,作為模擬器,其主要缺點(diǎn)在于領(lǐng)域差距。CARLA生成的AD數(shù)據(jù)無法完全模擬真實(shí)世界的物理和視覺效果;真實(shí)駕駛環(huán)境的動態(tài)和復(fù)雜特征也沒有被表現(xiàn)出來。
最近,世界模型以其更先進(jìn)的內(nèi)在概念和更有前景的性能,已被用于高保真度AD數(shù)據(jù)生成。世界模型可以被定義為一個(gè)人工智能系統(tǒng),它構(gòu)建其感知的環(huán)境的內(nèi)部表示,并使用學(xué)習(xí)到的表示來模擬環(huán)境中的數(shù)據(jù)或事件。一般世界模型的目標(biāo)是表示和模擬各種情況和互動,就像成熟的人類在現(xiàn)實(shí)世界中遇到的一樣。在自動駕駛領(lǐng)域,GAIA-1和DriveDreamer是基于世界模型的數(shù)據(jù)生成的代表作。GAIA-1是一個(gè)生成型人工智能模型,通過將原始圖像/視頻以及文本和動作提示作為輸入,實(shí)現(xiàn)圖像/視頻到圖像/視頻的生成。GAIA-1的輸入模態(tài)被編碼成統(tǒng)一的令牌序列。這些標(biāo)注由世界模型內(nèi)的自回歸變換器處理,以預(yù)測后續(xù)的圖像標(biāo)注。然后,視頻解碼器將這些標(biāo)注重建為具有增強(qiáng)的時(shí)間分辨率的連貫視頻輸出,從而實(shí)現(xiàn)動態(tài)和上下文豐富的視覺內(nèi)容生成。DriveDreamer在其架構(gòu)中創(chuàng)新地采用了擴(kuò)散模型,專注于捕捉現(xiàn)實(shí)世界駕駛環(huán)境的復(fù)雜性。它的兩階段訓(xùn)練pipeline首先使模型能夠?qū)W習(xí)結(jié)構(gòu)化的交通約束,然后預(yù)測未來的狀態(tài),確保為自動駕駛應(yīng)用程序量身定制的強(qiáng)大的環(huán)境理解。
自動駕駛數(shù)據(jù)集的自動標(biāo)注方法
高質(zhì)量的數(shù)據(jù)標(biāo)注成功和可靠性是必不可少的。到目前為止,數(shù)據(jù)標(biāo)注pipeline可以分為三種類型,從傳統(tǒng)的手工標(biāo)注到半自動標(biāo)注,再到最先進(jìn)的全自動標(biāo)注方法,如圖4所示AD數(shù)據(jù)標(biāo)注通常被視為特定于任務(wù)/模型。工作流程從仔細(xì)準(zhǔn)備標(biāo)注任務(wù)和原始數(shù)據(jù)集的需求開始。然后,下一步是使用人工專家、自動標(biāo)注算法或End2End大型模型生成初始標(biāo)注結(jié)果。之后,標(biāo)注質(zhì)量將由人工專家或自動質(zhì)量檢查算法根據(jù)預(yù)定義的要求進(jìn)行檢查。如果本輪標(biāo)注結(jié)果未能通過質(zhì)量檢查,它們將再次發(fā)送回標(biāo)注循環(huán)并重復(fù)此標(biāo)注作業(yè),直到它們滿足預(yù)定義的要求。最后,我們可以獲得現(xiàn)成的標(biāo)注AD數(shù)據(jù)集。
自動標(biāo)注方法是閉環(huán)自動駕駛大數(shù)據(jù)平臺緩解人工標(biāo)注勞動密集、提高AD數(shù)據(jù)閉環(huán)循環(huán)效率、降低相關(guān)成本的關(guān)鍵。經(jīng)典的自動標(biāo)記任務(wù)包括場景分類和理解。最近,隨著BEV方法的普及,AD數(shù)據(jù)標(biāo)注的行業(yè)標(biāo)準(zhǔn)也在不斷提高,自動標(biāo)注任務(wù)也變得更加復(fù)雜。在當(dāng)今工業(yè)前沿的場景中,3D動態(tài)目標(biāo)自動標(biāo)注和3D靜態(tài)場景自動標(biāo)注是兩種常用的高級自動標(biāo)注任務(wù)。
場景分類和理解是自動駕駛大數(shù)據(jù)平臺的基礎(chǔ),系統(tǒng)將視頻幀分類為預(yù)定義的場景,如駕駛場所(街道、高速公路、城市立交橋、主干道等)和場景天氣(晴天、雨天、雪天、霧天、雷雨天等)?;贑NN的方法通常用于場景分類,包括預(yù)訓(xùn)練+微調(diào)CNN模型、多視圖和多層CNN模型,以及用于改進(jìn)場景表示的各種基于CNN的模型。場景理解超越了單純的分類。它涉及解釋場景中的動態(tài)元素,如周圍的車輛代理、行人和紅綠燈。除了基于圖像的場景理解外,基于激光雷達(dá)的數(shù)據(jù)源,如SemanticKITTI,也因其提供的細(xì)粒度幾何信息而被廣泛采用。
三維動態(tài)物體自動標(biāo)注和三維靜態(tài)場景自動標(biāo)注的出現(xiàn)是為了滿足廣泛采用的純電動汽車感知技術(shù)的要求。Waymo提出了一種基于激光雷達(dá)點(diǎn)云序列數(shù)據(jù)的3D自動標(biāo)記流水線,該流水線使用3D檢測器逐幀定位目標(biāo)。然后,通過多目標(biāo)跟蹤器鏈接跨幀的已識別目標(biāo)的邊界框。為每個(gè)目標(biāo)提取目標(biāo)軌跡數(shù)據(jù)(每個(gè)幀處的對應(yīng)點(diǎn)云+3D邊界框),并使用分治架構(gòu)進(jìn)行以目標(biāo)為中心的自動標(biāo)記,以生成最終細(xì)化的3D邊界框作為標(biāo)簽。優(yōu)步提出的Auto4D pipeline首次探索了時(shí)空尺度下的AD感知標(biāo)記。在自動駕駛領(lǐng)域中,空間尺度內(nèi)的3D目標(biāo)邊界框標(biāo)記以及時(shí)間尺度內(nèi)的1D對應(yīng)時(shí)間戳標(biāo)記被稱為4D標(biāo)記。Auto4D pipeline從連續(xù)的激光雷達(dá)點(diǎn)云開始,以建立初始物體軌跡。該軌跡由目標(biāo)大小分支進(jìn)行細(xì)化,該分支使用目標(biāo)觀測值對目標(biāo)大小進(jìn)行編碼和解碼。同時(shí),運(yùn)動路徑分支對路徑觀測和運(yùn)動進(jìn)行編碼,允許路徑解碼器以恒定的目標(biāo)大小細(xì)化軌跡。
3D靜態(tài)場景自動標(biāo)記可被視為HDMap生成,其中車道、道路邊界、人行橫道、紅綠燈和駕駛場景中的其他相關(guān)元素應(yīng)進(jìn)行標(biāo)注。在這一主題下,有幾項(xiàng)有吸引力的研究工作:基于視覺的方法,如MVMap,NeMO;基于激光雷達(dá)的方法,如VMA;預(yù)訓(xùn)練3D場景重建方法,如OccBEV,OccNet/ADPT,ALO。VMA是最近提出的一項(xiàng)用于3D靜態(tài)場景自動標(biāo)記的工作。VMA框架利用眾包、多行程聚合的激光雷達(dá)點(diǎn)云來重建靜態(tài)場景,并將其分割成單元進(jìn)行處理。基于MapTR的單元標(biāo)注器通過查詢和解碼將原始輸入編碼為特征圖,生成語義類型的點(diǎn)序列。VMA的輸出是矢量化地圖,將通過閉環(huán)標(biāo)注和人工驗(yàn)證對其進(jìn)行細(xì)化,從而為自動駕駛提供滿意的高精地圖。
實(shí)證研究
我們提供了一個(gè)實(shí)證研究,以更好地說明本文中提到的先進(jìn)的閉環(huán)AD數(shù)據(jù)平臺。整個(gè)過程圖如圖5所示。在這種情況下,研究人員的目標(biāo)是開發(fā)一個(gè)基于Generative AI和各種基于深度學(xué)習(xí)的算法的AD大數(shù)據(jù)閉環(huán)pipeline,從而在自動駕駛算法研發(fā)階段和OTA升級階段(在現(xiàn)實(shí)世界部署后)實(shí)現(xiàn)數(shù)據(jù)閉環(huán)。具體而言,生成人工智能模型用于(1)基于工程師提供的文本提示生成特定場景的高保真度AD數(shù)據(jù)。(2) AD大數(shù)據(jù)自動標(biāo)注,有效準(zhǔn)備地面實(shí)況標(biāo)簽。
圖中顯示了兩個(gè)閉環(huán)。其中較大的一個(gè)階段是自動駕駛算法研發(fā)階段,該階段從生成人工智能模型的合成自動駕駛數(shù)據(jù)和從真實(shí)世界駕駛中獲取的數(shù)據(jù)樣本的數(shù)據(jù)收集開始。這兩種數(shù)據(jù)源被集成為一個(gè)自動駕駛數(shù)據(jù)集,在云端進(jìn)行挖掘,以獲得有價(jià)值的見解。之后,數(shù)據(jù)集進(jìn)入了雙重標(biāo)記路徑:基于深度學(xué)習(xí)的自動標(biāo)記或手動手工標(biāo)記,確保了標(biāo)注的速度和精度。然后,標(biāo)記的數(shù)據(jù)被用于在高容量自動駕駛超級計(jì)算平臺上訓(xùn)練模型。這些模型經(jīng)過模擬和真實(shí)世界的道路測試,以評估其功效,從而發(fā)布自動駕駛模型并進(jìn)行后續(xù)部署。較小的一個(gè)是針對真實(shí)世界部署后的OTA升級階段,該階段涉及大規(guī)模云端模擬和真實(shí)世界測試,以收集AD算法的不準(zhǔn)確/角落情況。所識別的不準(zhǔn)確性/角點(diǎn)情況用于通知模型測試和更新的下一次迭代。例如,假設(shè)我們發(fā)現(xiàn)我們的AD算法在隧道駕駛場景中表現(xiàn)不佳。已識別的隧道駕駛彎道情況將立即向環(huán)路公布,并在下一次迭代中更新。生成型人工智能模型將以隧道駕駛場景相關(guān)描述作為文本提示,生成大規(guī)模的隧道駕駛數(shù)據(jù)樣本。生成的數(shù)據(jù)和原始數(shù)據(jù)集將被輸入模擬、測試和模型更新。這些過程的迭代性質(zhì)對于優(yōu)化模型以適應(yīng)具有挑戰(zhàn)性的環(huán)境和新數(shù)據(jù),保持自動駕駛功能的高精度和可靠性至關(guān)重要。
討論
第三代及以后的新型自動駕駛數(shù)據(jù)集。盡管LLM/VLM等基礎(chǔ)模型在語言理解和計(jì)算機(jī)視覺方面取得了成功,但將其直接應(yīng)用于自動駕駛?cè)匀痪哂刑魬?zhàn)性。原因有兩個(gè)方面:一方面,這些LLM/VLM必須具有全面集成和理解多源AD大數(shù)據(jù)(如FOV圖像/視頻、激光雷達(dá)云點(diǎn)、高清地圖、GPS/IMU數(shù)據(jù)等)的能力,這比理解我們在日常生活中看到的圖像更難。另一方面,自動駕駛領(lǐng)域現(xiàn)有的數(shù)據(jù)規(guī)模和質(zhì)量與其他領(lǐng)域(如金融和醫(yī)療)不可比,難以支持更大容量LLM/VLM的訓(xùn)練和優(yōu)化。由于法規(guī)、隱私問題和成本的原因,目前自動駕駛大數(shù)據(jù)的規(guī)模和質(zhì)量有限。我們相信,在各方的共同努力下,下一代AD大數(shù)據(jù)在規(guī)模和質(zhì)量上都會有顯著提升。
自動駕駛算法的硬件支持。當(dāng)前的硬件平臺已經(jīng)取得了重大進(jìn)展,特別是隨著GPU和TPU等專門處理器的出現(xiàn),這些處理器提供了對深度學(xué)習(xí)任務(wù)至關(guān)重要的大量并行計(jì)算能力。車載和云基礎(chǔ)設(shè)施中的高性能計(jì)算資源對于實(shí)時(shí)處理車輛傳感器生成的大量數(shù)據(jù)流至關(guān)重要。盡管取得了這些進(jìn)步,但在處理自動駕駛算法日益復(fù)雜的問題時(shí),在可擴(kuò)展性、能效和處理速度方面仍然存在局限性。VLM/LLM引導(dǎo)的用戶-車輛交互是一個(gè)非常有前景的應(yīng)用案例?;谠搼?yīng)用程序可以收集用戶特定的行為大數(shù)據(jù)。然而,VLM/LLM在車端的設(shè)備將要求高標(biāo)準(zhǔn)的硬件計(jì)算資源,并且交互式應(yīng)用程序預(yù)計(jì)具有低延遲。因此,未來可能會有一些重量輕的大型自動駕駛車型,或者LLM/VLM的壓縮技術(shù)將得到進(jìn)一步研究。
基于用戶行為數(shù)據(jù)的個(gè)性化自動駕駛推薦。智能汽車,已經(jīng)從簡單的交通工具發(fā)展到智能終端場景的最新應(yīng)用擴(kuò)展。因此,人們對配備先進(jìn)自動駕駛功能的車輛的期望是,它們能夠從歷史駕駛數(shù)據(jù)記錄中學(xué)習(xí)駕駛員的行為偏好,如駕駛風(fēng)格和行駛路線偏好。這將使智能汽車在未來幫助駕駛員進(jìn)行車輛控制、駕駛決策和路線規(guī)劃時(shí)能夠更好地與用戶喜愛的車輛保持一致。我們將上述概念稱為個(gè)性化自動駕駛推薦算法。推薦系統(tǒng)已廣泛應(yīng)用于電子商務(wù)、在線購物、送餐、社交媒體和直播平臺。然而,在自動駕駛領(lǐng)域,個(gè)性化推薦仍處于起步階段。我們相信,在不久的將來,將設(shè)計(jì)一個(gè)更合適的數(shù)據(jù)系統(tǒng)和數(shù)據(jù)采集機(jī)制,在用戶允許并遵守相關(guān)規(guī)定的情況下,收集用戶駕駛行為偏好的大數(shù)據(jù),從而為用戶實(shí)現(xiàn)定制的自動駕駛推薦系統(tǒng)。
數(shù)據(jù)安全和值得信賴的自動駕駛。海量的自動駕駛大數(shù)據(jù)對數(shù)據(jù)安全和用戶隱私保護(hù)提出了重大挑戰(zhàn)。隨著互聯(lián)自動駕駛汽車(CAV)和車聯(lián)網(wǎng)(IoV)技術(shù)的發(fā)展,車輛的連接越來越緊密,從駕駛習(xí)慣到頻繁路線的詳細(xì)用戶數(shù)據(jù)的收集引發(fā)了人們對個(gè)人信息潛在濫用的擔(dān)憂。我們建議在收集的數(shù)據(jù)類型、保留策略和第三方共享方面具有透明度的必要性。它強(qiáng)調(diào)了用戶同意和控制的重要性,包括尊重“不跟蹤”請求和提供刪除個(gè)人數(shù)據(jù)的選項(xiàng)。對于自動駕駛行業(yè)來說,在促進(jìn)創(chuàng)新的同時(shí)保護(hù)這些數(shù)據(jù)需要嚴(yán)格遵守這些準(zhǔn)則,確保用戶信任并遵守不斷發(fā)展的隱私立法。
除了數(shù)據(jù)安全和隱私,另一個(gè)問題是如何實(shí)現(xiàn)值得信賴的自動駕駛。隨著AD技術(shù)的巨大發(fā)展,智能算法和生成人工智能模型(如LLM、VLM)將在執(zhí)行越來越復(fù)雜的駕駛決策和任務(wù)時(shí)“充當(dāng)驅(qū)動因素”。在這個(gè)領(lǐng)域下,一個(gè)自然的問題出現(xiàn)了:人類能信任自動駕駛模型嗎?在我們看來,值得信賴的關(guān)鍵在于自動駕駛模型的可解釋性。他們應(yīng)該能夠向人類駕駛員解釋做出決定的原因,而不僅僅是執(zhí)行駕駛動作。LLM/VLM有望通過實(shí)時(shí)提供高級推理和可理解的解釋來增強(qiáng)可信賴的自動駕駛。
結(jié)論
這項(xiàng)調(diào)查首次系統(tǒng)回顧了自動駕駛中以數(shù)據(jù)為中心的進(jìn)化,包括大數(shù)據(jù)系統(tǒng)、數(shù)據(jù)挖掘和閉環(huán)技術(shù)。在這項(xiàng)調(diào)查中,我們首先制定了按里程碑代分類的數(shù)據(jù)集分類法,回顧了AD數(shù)據(jù)集在整個(gè)歷史時(shí)間線上的發(fā)展,介紹了數(shù)據(jù)集的獲取、設(shè)置和關(guān)鍵功能。此外,我們從學(xué)術(shù)和工業(yè)兩個(gè)角度闡述了閉環(huán)數(shù)據(jù)驅(qū)動的自動駕駛系統(tǒng)。詳細(xì)討論了以數(shù)據(jù)為中心的閉環(huán)系統(tǒng)中的工作流pipeline、流程和關(guān)鍵技術(shù)。通過實(shí)證研究,展示了以數(shù)據(jù)為中心的閉環(huán)AD平臺在算法研發(fā)和OTA升級方面的利用率和優(yōu)勢。最后,對現(xiàn)有數(shù)據(jù)驅(qū)動自動駕駛技術(shù)的優(yōu)缺點(diǎn)以及未來的研究方向進(jìn)行了全面的討論。重點(diǎn)是第三代之后的新數(shù)據(jù)集、硬件支持、個(gè)性化AD推薦、可解釋的自動駕駛。我們還表達(dá)了對Generative AI模型、數(shù)據(jù)安全和自動駕駛未來發(fā)展中值得信賴的擔(dān)憂。
原文鏈接:https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA