自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

2024年最大的坑?基于深度學(xué)習(xí)的端到端自動駕駛最新綜述

人工智能 智能汽車
端到端自動駕駛是一種完全可微分的機(jī)器學(xué)習(xí)系統(tǒng),它將原始傳感器輸入數(shù)據(jù)和其他元數(shù)據(jù)作為先驗(yàn)信息,并直接輸出自車的控制信號或規(guī)劃軌跡。本文試圖系統(tǒng)地回顧最近所有基于機(jī)器學(xué)習(xí)的技術(shù)來實(shí)現(xiàn)這一端到端任務(wù)。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面

最新的端到端自動駕駛綜述剛剛出爐,話說論文一作卡內(nèi)基梅隆大學(xué)的Apoorv Singh今年產(chǎn)出了七篇綜述,都和自動駕駛相關(guān),推薦給大家。就一個(gè)字:牛!

個(gè)人主頁:https://www.apoorvsingh.com/research-papers

  1. End-to-end Autonomous Driving using Deep Learning: A Systematic Review
  2. A Review on Objective-Driven Artificial Intelligence
  3. Training Strategies for Vision Transformers for Object Detection
  4. Trajectory-Prediction with Vision: A Survey
  5. Transformer-Based Sensor Fusion for Autonomous Driving: A Survey
  6. Surround-View Vision-based 3D Detection for Autonomous Driving: A Survey
  7. Vision-RADAR fusion for Robotics BEV Detections: A Survey

摘要

端到端自動駕駛是一種完全可微分的機(jī)器學(xué)習(xí)系統(tǒng),它將原始傳感器輸入數(shù)據(jù)和其他元數(shù)據(jù)作為先驗(yàn)信息,并直接輸出自車的控制信號或規(guī)劃軌跡。本文試圖系統(tǒng)地回顧最近所有基于機(jī)器學(xué)習(xí)的技術(shù)來實(shí)現(xiàn)這一端到端任務(wù),包括但不限于目標(biāo)檢測、語義場景理解、目標(biāo)跟蹤、軌跡預(yù)測、軌跡規(guī)劃、車輛控制、社會行為和通信。本文重點(diǎn)研究了最近的完全可微端到端強(qiáng)化學(xué)習(xí)和基于深度學(xué)習(xí)的技術(shù)。我們的論文還通過對重要方法進(jìn)行分組并展示其研究趨勢,建立了它們的分類法。最后,本次調(diào)查突出了懸而未決的挑戰(zhàn),并指出了未來可能的方向,以啟發(fā)對該主題的進(jìn)一步研究。

總結(jié)來說,本文的主要貢獻(xiàn)如下:

  • 我們?yōu)槔斫舛说蕉俗詣玉{駛方法提供全面的背景知識。首先總結(jié)了有史以來第一種應(yīng)用于自動駕駛?cè)蝿?wù)的技術(shù)。此外總結(jié)了模塊化自動駕駛問題解決方案的競爭替代方法。還涵蓋了用于端到端自動駕駛?cè)蝿?wù)的評估和基準(zhǔn)。
  • 接下來,我們將端到端方法分為模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、帶輔助任務(wù)的端到端自主駕駛和師生范式四個(gè)部分,對其進(jìn)行了廣泛的介紹。此外,在深入討論細(xì)節(jié)之前,我們用數(shù)學(xué)建模為讀者介紹了一段理論知識。
  • 我們討論了所涵蓋的所有方法和方法的關(guān)鍵挑戰(zhàn),以啟發(fā)讀者未來的研究思路。此外,我們還討論了一些開放式研究問題,我們預(yù)計(jì)這些問題將是端到端自動駕駛研究的下一步。

自動駕駛的模塊化方法

傳統(tǒng)的模塊化自動駕駛軟件是一個(gè)復(fù)雜的系統(tǒng),包括各種子模塊,每個(gè)子模塊負(fù)責(zé)駕駛過程的特定方面。這些子模塊協(xié)同工作,使車輛能夠在無需人工干預(yù)的情況下導(dǎo)航、感知環(huán)境并做出決策。自動駕駛軟件的一些關(guān)鍵子模塊包括:

  • 地圖繪制和高精地圖繪制:是指創(chuàng)建和維護(hù)道路和周圍環(huán)境的詳細(xì)、高精地圖。與人類駕駛員使用的傳統(tǒng)導(dǎo)航地圖不同,自動駕駛地圖要詳細(xì)得多,并包含對自動駕駛系統(tǒng)的特定需求至關(guān)重要的信息。它們包括有關(guān)車道邊界、道路曲率、交通標(biāo)志、交通信號、車道變更規(guī)則和道路坡度的信息。高精地圖以厘米級的精度創(chuàng)建,以確保自動駕駛汽車能夠在下游定位堆棧中的環(huán)境中準(zhǔn)確定位。
  • 感知:是指自動駕駛汽車?yán)斫夂徒忉屩車h(huán)境的能力。它包括傳感器融合、車輛和行人檢測、像素級分割以及紅綠燈/其他路標(biāo)檢測等任務(wù)。主要是基于多個(gè)相機(jī)、激光雷達(dá)和雷達(dá)的傳感器的組合。
  • 定位:指的是自動駕駛汽車在其環(huán)境中準(zhǔn)確確定其位置和方向(位姿)的能力。常見使用的關(guān)鍵組件是全球定位系統(tǒng)(GPS)、慣性測量單元(IMU)和通過地圖匹配的感知傳感器,其中包括將傳感器數(shù)據(jù)與高清地圖進(jìn)行比較,以完善車輛的位置估計(jì)。
  • 目標(biāo)跟蹤:指的是自動駕駛汽車監(jiān)測物體在其環(huán)境中過去運(yùn)動的能力。這對于在下游任務(wù)中進(jìn)行預(yù)測至關(guān)重要,過去的狀態(tài)對下游任務(wù)至關(guān)重要。跟蹤對于被遮擋的道路目標(biāo)至關(guān)重要,因?yàn)榧词乖诟兄锌床坏侥繕?biāo),我們?nèi)匀豢梢员3謱υ撃繕?biāo)的期望。跟蹤涉及感知輸出的數(shù)據(jù)關(guān)聯(lián)和運(yùn)動學(xué)預(yù)測。
  • 行為規(guī)劃(軌跡預(yù)測):指的是自動駕駛車輛預(yù)測各種道路使用者(如行人、騎自行車的人、其他汽車甚至動物)未來行動和移動的能力。
  • 路徑規(guī)劃:它指的是自動駕駛車輛在避開障礙物、遵守交通規(guī)則并考慮環(huán)境動態(tài)的同時(shí),為自動駕駛車輛從當(dāng)前位置導(dǎo)航到所需目的地確定安全和最佳路徑的能力。基于當(dāng)前車輛位置、期望目的地以及地圖和傳感器信息,路徑規(guī)劃算法生成初步路徑,該初步路徑將車輛連接到目標(biāo),同時(shí)避開障礙物。成本函數(shù)考慮了距離、舒適性、安全性、能源效率和碰撞風(fēng)險(xiǎn)因素。該算法搜索一條將此成本最小化的路徑。模塊化管道中最常見的規(guī)劃方法包括使用復(fù)雜的基于規(guī)則的設(shè)計(jì),這在解決駕駛時(shí)發(fā)生的許多情況時(shí)往往無效。
  • 決策:指的是自動駕駛車輛在各種交通場景中選擇適當(dāng)行動和行為的能力,同時(shí)優(yōu)先考慮安全、效率和遵守交通規(guī)則。它與路徑規(guī)劃密切合作,涉及風(fēng)險(xiǎn)評估、情景分析、行為預(yù)測、交通規(guī)則和條例、倫理道德考慮等。
  • 控制:它指的是將高層決策和計(jì)劃軌跡轉(zhuǎn)化為車輛執(zhí)行器為物理操縱車輛而采取的具體行動的機(jī)制和算法。這些控制裝置可確保車輛沿預(yù)定路徑行駛、加速、減速和處理各種駕駛場景,同時(shí)保持穩(wěn)定性、安全性和舒適性??刂茝浐狭藳Q策和車輛物理行為之間的差距。它包括執(zhí)行器、車輛動力學(xué)、速度控制、穩(wěn)定性和操控性、平穩(wěn)過渡、人體舒適性等子部件。
  • 仿真和測試:在實(shí)際道路上部署之前,評估自動駕駛系統(tǒng)的性能、安全性和功能至關(guān)重要。

這些系統(tǒng)及其依賴如圖2所示。

BENCHMARKING/ EVALUATIONS

在開發(fā)軟件之前,首先要開發(fā)測試需求,讓我們在深入研究主要方法之前,先看看端到端系統(tǒng)的評估需求。評估可分為兩種類型:閉環(huán)評估和開環(huán)評估。前者是在在線仿真器中定義的;然而,前者是在人類駕駛數(shù)據(jù)集上離線計(jì)算的。端到端系統(tǒng)可以在CARLA等在線模擬器上輕松評估;許多模塊化感知技術(shù)依賴于更昂貴的離線數(shù)據(jù)集。

閉環(huán)評測如圖3所示。

開環(huán)評測如圖4所示。

方法

A.模仿學(xué)習(xí)

在模仿學(xué)習(xí)中,智能體通過模仿人類專家或預(yù)先存在的模型所展示的行為來學(xué)習(xí)執(zhí)行任務(wù)。agent不是明確地設(shè)計(jì)獎勵函數(shù)或定義最優(yōu)策略,而是通過觀察和模仿專家采取的行動來學(xué)習(xí)。與強(qiáng)化學(xué)習(xí)相比,模仿學(xué)習(xí)有幾個(gè)優(yōu)勢,包括利用人類專業(yè)知識解決復(fù)雜任務(wù)的能力,以及提供更安全、更可解釋的行為的潛力,在強(qiáng)化學(xué)習(xí)中,主體通過試錯進(jìn)行學(xué)習(xí)。然而,模仿學(xué)習(xí)也有局限性,例如對專家演示中的錯誤很敏感,并且不總是能夠探索超出專家演示范圍的新策略。在訓(xùn)練期間,agent的目標(biāo)是學(xué)習(xí)從輸入觀察到專家演示的行動的映射。這通常使用監(jiān)督學(xué)習(xí)技術(shù)來完成,在監(jiān)督學(xué)習(xí)技術(shù)中,對agent的模型進(jìn)行訓(xùn)練,以最大限度地減少其預(yù)測動作與專家數(shù)據(jù)集中的動作之間的差異。類似地,在評估過程中,根據(jù)新的、看不見的數(shù)據(jù)來評估經(jīng)過訓(xùn)練的agent的性能,以確定其模仿專家行為的能力。這種評估可以包括將代理人的行為與專家的行為進(jìn)行比較,或者評估代理人是否成功完成了任務(wù)。模仿學(xué)習(xí)可以進(jìn)一步分為Behavior Clone和Inverse Reinforcement Learning。

然而,IRL和模仿學(xué)習(xí)也有其自身的一系列挑戰(zhàn)和局限性:

  • 家行為的模糊性:IRL假設(shè)觀察到的專家行為在某些潛在的獎勵函數(shù)方面是最優(yōu)的或接近最優(yōu)的。然而,現(xiàn)實(shí)世界中的專家行為可能是嘈雜的、次優(yōu)的,或者受到獎勵函數(shù)未捕捉到的因素的影響,導(dǎo)致推斷的獎勵函數(shù)中的模糊性。
  • 解決方案的非唯一性:多個(gè)獎勵函數(shù)可以解釋同一組觀察到的專家行為。這種非唯一性會使確定哪種獎勵函數(shù)是“正確的”獎勵函數(shù)具有挑戰(zhàn)性,導(dǎo)致所學(xué)習(xí)的獎勵函數(shù)和后續(xù)策略的不確定性。
  • 有限的專家演示:IRL在很大程度上依賴于專家演示的質(zhì)量和數(shù)量。如果數(shù)據(jù)集較小、有偏差或沒有覆蓋廣泛的場景,則學(xué)習(xí)的獎勵函數(shù)可能無法準(zhǔn)確地表示真實(shí)的底層獎勵結(jié)構(gòu)。
  • 維度詛咒:隨著狀態(tài)空間變得越來越大、越來越復(fù)雜,由于維度詛咒,從有限的專家數(shù)據(jù)中準(zhǔn)確恢復(fù)獎勵函數(shù)的能力變得越來越困難。高維狀態(tài)空間需要大量的數(shù)據(jù)來捕捉獎勵函數(shù)的復(fù)雜性。
  • 計(jì)算復(fù)雜性:許多IRL算法涉及計(jì)算成本高昂的優(yōu)化問題,尤其是在處理大的狀態(tài)空間或復(fù)雜的獎勵函數(shù)時(shí)。
  • 缺乏探索:IRL專注于從專家演示中學(xué)習(xí),并沒有本質(zhì)上提供探索專家演示之外的新策略的機(jī)制。這可能會限制代理人發(fā)現(xiàn)更有效或更具創(chuàng)造性的解決方案的能力。
  • 轉(zhuǎn)移到新環(huán)境:習(xí)得的獎勵函數(shù)通常是特定于推斷它們的環(huán)境的。由于動力學(xué)、狀態(tài)空間和其他因素的差異,將學(xué)習(xí)到的獎勵函數(shù)轉(zhuǎn)移到一個(gè)新的、看不見的環(huán)境可能具有挑戰(zhàn)性。

B.強(qiáng)化學(xué)習(xí)

在強(qiáng)化學(xué)習(xí)中,智能體學(xué)習(xí)如何在環(huán)境中做出決策和行動,以最大化累積獎勵信號。在自主智能體的背景下,RL為這些智能體提供了一種通過試錯學(xué)習(xí)來學(xué)習(xí)如何在沒有明確編程的情況下執(zhí)行任務(wù)和做出決策的方法。自主主體是RL框架中的學(xué)習(xí)者。它與環(huán)境相互作用,并采取行動實(shí)現(xiàn)某些目標(biāo)。環(huán)境是代理與之交互的外部系統(tǒng)。它根據(jù)代理人的行為通過獎勵向代理人提供反饋。在每個(gè)時(shí)間步長,環(huán)境都處于特定狀態(tài),這表示環(huán)境當(dāng)前條件的快照。代理根據(jù)操作的當(dāng)前狀態(tài)選擇操作。行為會影響環(huán)境,使其轉(zhuǎn)變?yōu)橐环N新的狀態(tài),并獎勵代理人。環(huán)境在每個(gè)動作之后向代理提供數(shù)字獎勵信號,指示動作的直接收益或成本。代理的策略是一種將狀態(tài)映射到操作的策略。代理的目標(biāo)是學(xué)習(xí)一種最優(yōu)策略,使隨著時(shí)間的推移累積獎勵最大化。值函數(shù)估計(jì)代理在遵循特定策略的同時(shí),從給定狀態(tài)可以實(shí)現(xiàn)的預(yù)期累積回報(bào)。它有助于代理人在知情的情況下決定采取哪些行動。代理使用RL算法通過試錯來學(xué)習(xí)最優(yōu)策略或值函數(shù)。學(xué)習(xí)過程包括探索環(huán)境、獲得獎勵和調(diào)整政策以提高績效。代理人面臨著探索新動作以發(fā)現(xiàn)潛在的更好策略(探索)和利用已知動作以最大限度地獲得即時(shí)回報(bào)(利用)之間的權(quán)衡。然而,自主智能體的RL也面臨著挑戰(zhàn),如高效探索、長期獎勵和在現(xiàn)實(shí)世界環(huán)境中的安全學(xué)習(xí)。強(qiáng)化學(xué)習(xí)方法可進(jìn)一步細(xì)分為以下幾個(gè)子領(lǐng)域:

  • Value Based RL;
  • Policy Based RL;
  • Actor-Critic RL

C.Teacher Student范式

端到端自主駕駛的最先進(jìn)方法遵循師生范式。教師模型,如CARLA,使用特權(quán)信息(周圍代理和地圖元素的基本狀態(tài))來學(xué)習(xí)駕駛策略。學(xué)生模型只能訪問原始傳感器數(shù)據(jù),并對教師模型收集的數(shù)據(jù)進(jìn)行行為克隆。

D.帶輔助任務(wù)的端到端自動駕駛

通常,人們普遍認(rèn)為,用于軌跡規(guī)劃的學(xué)習(xí)控制輸出/路點(diǎn)可能過于復(fù)雜,無法從傳感器數(shù)據(jù)的數(shù)十億個(gè)參數(shù)中進(jìn)行映射。這導(dǎo)致研究人員開發(fā)輔助任務(wù)來監(jiān)督端到端的學(xué)習(xí)任務(wù),正如我們之前在中看到的那樣,感知和規(guī)劃模塊分兩個(gè)階段進(jìn)行訓(xùn)練。Uber ATG在論文中介紹了另一種更離散的方法,他們使用以激光雷達(dá)數(shù)據(jù)和地圖為輸入的主干來學(xué)習(xí)端到端可解釋的運(yùn)動規(guī)劃器。首先,他們輸出其他參與者的邊界框,用于未來的時(shí)間步(感知)和使用T過濾器進(jìn)行規(guī)劃的成本量。接下來,對于來自采樣器的每個(gè)軌跡建議,從成本體積的不同濾波器中索引其成本,并將其相加。成本最低的軌跡將是我們的最終規(guī)劃,如圖6所示。他們使用多任務(wù)訓(xùn)練,從檢測、運(yùn)動預(yù)測和人類驅(qū)動的自車軌跡進(jìn)行監(jiān)督。請注意,沒有對成本量進(jìn)行監(jiān)督。因此,他們采用最大邊際損失來推動網(wǎng)絡(luò)學(xué)習(xí)區(qū)分好軌跡和壞軌跡。

開放的挑戰(zhàn)和未來趨勢

考慮到所討論方法中的挑戰(zhàn),并從機(jī)器學(xué)習(xí)的多學(xué)科領(lǐng)域獲得靈感,我們發(fā)現(xiàn)了未來研究人員的潛在研究方向:

  • 端到端協(xié)作任務(wù):已經(jīng)有關(guān)于協(xié)作感知的研究,其中從附近的自動駕駛汽車聯(lián)合進(jìn)行感知,以處理遮擋并擴(kuò)大檢測范圍。端到端自動駕駛?cè)蝿?wù)也有類似的概念。隨著越來越多的自動駕駛汽車公司在城市中部署車隊(duì),這種端到端的協(xié)作任務(wù)可能成為該領(lǐng)域SOTA方法的下一個(gè)范例。
  • 使用擴(kuò)散模型基于文本需求生成場景:自動駕駛汽車經(jīng)過訓(xùn)練,在通用場景中運(yùn)行良好;一個(gè)尚未解決的主要挑戰(zhàn)是長尾問題,我們無法在模擬器中對其進(jìn)行廣泛建模。最近,使用穩(wěn)定擴(kuò)散方法的圖像生成模型取得了很好的結(jié)果;很高興看到未來的研究人員利用這項(xiàng)技術(shù)來構(gòu)建更真實(shí)的模擬場景。自動駕駛的端到端任務(wù)可以在端到端的任務(wù)中進(jìn)行訓(xùn)練,其中擴(kuò)散模型自動生成自動駕駛汽車故障案例的相似場景。然后,我們可以在那些精心挑選的模擬場景上進(jìn)行訓(xùn)練,直到我們的模型在真實(shí)世界的指標(biāo)上如預(yù)期那樣進(jìn)行預(yù)測。
  • 基礎(chǔ)模型:最近,計(jì)算機(jī)視覺和大語言中的基礎(chǔ)模型在多樣化的大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練后,顯示出了最先進(jìn)的性能,并且可以適應(yīng)廣泛的任務(wù)(駕駛場景)。研究人員可以利用這些模型將端到端任務(wù)的能力從模擬器推廣到現(xiàn)實(shí)生活中的數(shù)據(jù)。

結(jié)論

總之,本文對快速發(fā)展的端到端自動駕駛領(lǐng)域進(jìn)行了全面的探索。從傳統(tǒng)的模塊化方法到端到端學(xué)習(xí)的范式轉(zhuǎn)變概念的歷程已經(jīng)闡明,展示了從handcrafted的功能和復(fù)雜的管道到允許車輛直接從原始傳感器輸入中學(xué)習(xí)的數(shù)據(jù)驅(qū)動解決方案的轉(zhuǎn)變。討論涵蓋了這種方法的優(yōu)勢和挑戰(zhàn),強(qiáng)調(diào)了它在簡化系統(tǒng)設(shè)計(jì)、捕捉復(fù)雜交互和適應(yīng)不同駕駛場景方面的潛力。隨著這一領(lǐng)域的不斷成熟,該論文討論了安全保證、監(jiān)管框架的重要性,以及學(xué)術(shù)界、工業(yè)界和政策制定者之間合作的必要性。發(fā)現(xiàn)了一些懸而未決的挑戰(zhàn),如極端場景下的安全性、遷移學(xué)習(xí)、可解釋性、人際互動和高效探索,邀請研究人員和從業(yè)者共同為塑造自動駕駛的未來做出貢獻(xiàn)。

從本質(zhì)上講,這篇綜述文章展示了端到端的自動駕駛不僅僅是一次技術(shù)飛躍;這是一種范式轉(zhuǎn)變,體現(xiàn)了機(jī)器學(xué)習(xí)、機(jī)器人和運(yùn)輸工程的融合。未來的道路充滿了令人興奮的機(jī)遇和復(fù)雜的挑戰(zhàn),需要跨學(xué)科的努力來實(shí)現(xiàn)安全、高效和可靠的自動駕駛汽車的愿景,使其能夠無縫地在我們的現(xiàn)代道路上行駛。

原文鏈接:https://mp.weixin.qq.com/s/i1axGn7_szdHqxDqRO9NCw

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-08-05 13:08:54

2023-09-07 10:20:38

自動駕駛技術(shù)

2023-10-30 09:47:00

自動駕駛技術(shù)

2024-04-17 09:50:28

自動駕駛端到端

2023-12-18 10:15:30

自動駕駛自然語言

2023-08-24 09:52:44

自動駕駛設(shè)計(jì)

2024-04-15 11:40:37

自動駕駛端到端

2023-11-20 09:53:13

自動駕駛系統(tǒng)

2024-03-13 09:39:45

端到端自動駕駛

2024-02-21 09:14:32

端到端自動駕駛

2024-05-08 11:32:24

端到端自動駕駛

2023-01-04 09:59:48

自動駕駛技術(shù)

2024-06-13 11:36:46

2024-01-04 09:35:41

自動駕駛端到端

2025-02-10 10:35:00

自動駕駛端到端模型

2023-12-11 10:29:11

自動駕駛系統(tǒng)

2021-06-01 12:47:51

自動駕駛數(shù)據(jù)人工智能

2024-08-14 10:40:00

模型自動駕駛

2023-10-10 09:31:35

自動駕駛技術(shù)

2021-12-16 10:45:22

自動駕駛數(shù)據(jù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號