大語言模型會(huì)成為自動(dòng)駕駛的靈丹妙藥嗎?也談模塊化方法和端到端方案~
寫在前面 & 筆者的個(gè)人理解
人工智能(AI)在自動(dòng)駕駛(AD)研究中起著至關(guān)重要的作用,推動(dòng)其向智能化和高效化發(fā)展。目前AD技術(shù)的發(fā)展主要遵循兩條技術(shù)路徑:模塊化和端到端。模塊化將駕駛?cè)蝿?wù)分解為感知、預(yù)測、規(guī)劃和控制等模塊,并分別進(jìn)行訓(xùn)練。由于模塊之間的訓(xùn)練目標(biāo)不一致,綜合效果存在偏差。端到端試圖通過利用一個(gè)直接從傳感器數(shù)據(jù)映射到控制信號(hào)的單一模型來解決這個(gè)問題。這條路徑在一系列功能方面的學(xué)習(xí)能力有限,難以處理不可預(yù)測的長尾事件和復(fù)雜的城市交通場景。面對這兩條路徑中遇到的挑戰(zhàn),許多研究人員認(rèn)為,具有強(qiáng)大推理能力和廣泛知識(shí)理解的大型語言模型(LLM)可能是解決方案,期望LLM為AD系統(tǒng)提供更深入的理解和決策能力。鑒于這兩條路徑都面臨的挑戰(zhàn),許多研究人員認(rèn)為,LLM憑借其強(qiáng)大的推理能力和廣泛的知識(shí),可以提供一種解決方案。為了了解LLM是否可以增強(qiáng)AD,本文對LLM在AD系統(tǒng)中的潛在應(yīng)用進(jìn)行了深入分析,包括探索其在模塊化和端到端方法中的優(yōu)化策略,特別關(guān)注LLM如何解決當(dāng)前解決方案中存在的問題和挑戰(zhàn)。此外,我們還討論了一個(gè)重要問題:基于LLM的通用人工智能(AGI)能否成為實(shí)現(xiàn)高水平AD的關(guān)鍵?我們進(jìn)一步分析了LLM在促進(jìn)AD技術(shù)發(fā)展方面可能遇到的潛在局限性和挑戰(zhàn)。這項(xiàng)調(diào)查可以為相關(guān)領(lǐng)域的跨學(xué)科研究人員提供基礎(chǔ)參考,并指導(dǎo)未來的研究方向。
簡介
自動(dòng)駕駛(AD)已成為現(xiàn)代交通領(lǐng)域的一個(gè)關(guān)鍵研究領(lǐng)域,其最近的發(fā)展在很大程度上依賴于人工智能(AI)。人工智能的發(fā)展一直是AD發(fā)展的催化劑,即使是最簡單的高級(jí)駕駛輔助系統(tǒng)(ADAS)也需要人工智能來實(shí)現(xiàn)。因此,可以通過AI設(shè)計(jì)的視角全面了解AD解決方案的發(fā)展。
設(shè)計(jì)AI的兩種不同方式,即模塊化和端到端解決方案,形成了AD的兩種常見解決方案,如圖1所示。第一種解決方案,即模塊化解決方案,是人工智能系統(tǒng)設(shè)計(jì)之前的遺留問題。這些解決方案將AD分解為幾個(gè)獨(dú)立的任務(wù),通常包括感知、預(yù)測、計(jì)劃和控制。雖然這種模塊化簡化了單個(gè)任務(wù)的實(shí)現(xiàn),但它往往難以實(shí)現(xiàn)系統(tǒng)集成。不同的模型,每個(gè)模型都針對獨(dú)立的目標(biāo),可能會(huì)導(dǎo)致系統(tǒng)內(nèi)不可避免的差距和沖突,從而導(dǎo)致次優(yōu)性能。因此,通過執(zhí)行加強(qiáng)一致性可能是一項(xiàng)艱巨的挑戰(zhàn)。
第二種解決方案,即端到端解決方案,試圖通過模仿人類行為的過程來解決這些問題。端到端解決方案利用大規(guī)模神經(jīng)網(wǎng)絡(luò),直接根據(jù)傳感器輸入控制車輛。已經(jīng)提出了不同的實(shí)現(xiàn)方式,包括模仿人類駕駛或基于控制結(jié)果的直接訓(xùn)練。然而,沿著這條路徑的所有這些方法都有一個(gè)共同的缺點(diǎn),即信息通道過長和網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,導(dǎo)致在訓(xùn)練和引入專家知識(shí)時(shí)難以收斂。此外,端到端算法訓(xùn)練中涉及的數(shù)據(jù)主要與駕駛有關(guān),而人類駕駛員在駕駛過程中利用常識(shí)和其他信息。這些挑戰(zhàn)限制了端到端算法的進(jìn)一步改進(jìn)。
除了這些具體問題外,這兩種解決方案在現(xiàn)實(shí)世界的應(yīng)用中都面臨著一些挑戰(zhàn),包括確保魯棒性、驗(yàn)證性、可解釋性和高效的人機(jī)交互。因此,應(yīng)對這些挑戰(zhàn)已成為AD研究的主要重點(diǎn),強(qiáng)調(diào)了有效解決方案的必要性。
2022年底ChatGPT問世以來,人工智能領(lǐng)域掀起了一場新的革命。由于其龐大的規(guī)模、大量的數(shù)據(jù)和訓(xùn)練所涉及的技術(shù)(例如,從人類反饋中學(xué)習(xí)),大型語言模型(LLM)已經(jīng)具備了推理、數(shù)據(jù)生成和理解人類意圖等能力。這些能力使LLM能夠在各種自然語言處理(NLP)任務(wù)中超越以前的模型。LLM在智能交通系統(tǒng)等各個(gè)領(lǐng)域的應(yīng)用正在上升。具體而言,LLM的能力為AD研究中的上述挑戰(zhàn)提供了創(chuàng)新的解決方案。例如,推理能力可以幫助理解和適當(dāng)?shù)貞?yīng)對看不見的角落情況,提高魯棒性。生成能力可用于測試用例生成。增強(qiáng)對人類意圖的理解有助于解決可解釋性問題,改善人機(jī)交互。
最近,LLM開創(chuàng)了AD研究的一個(gè)新領(lǐng)域。研究人員越來越相信,LLM可以為傳統(tǒng)AD解決方案提供新的視角。此外,有一種觀點(diǎn)認(rèn)為,LLM進(jìn)一步為實(shí)現(xiàn)通用人工智能(AGI)鋪平了道路,這讓我們回到了關(guān)于實(shí)現(xiàn)完全AD的辯論。一些專家認(rèn)為,大規(guī)模、通用、強(qiáng)大的智能是必要的,而另一些專家則認(rèn)為,規(guī)模較小的特定智能體就足以完成AD任務(wù)。站在這個(gè)十字路口,本文從AD系統(tǒng)實(shí)施的角度系統(tǒng)地概述了采用LLM的最新AD進(jìn)展,重點(diǎn)討論了以下問題:
- AD研究目前面臨的挑戰(zhàn)是什么?具體來說,這是一組與AD實(shí)施中的不同任務(wù)相對應(yīng)的具體挑戰(zhàn)(即正文中的挑戰(zhàn)i至X)。
- LLM能否為這些挑戰(zhàn)提供卓越的解決方案,以及如何提供?
- AD的最終解決方案是什么?AD算法優(yōu)化的目標(biāo)應(yīng)該是什么?
Autonomous Driving Solutions
模塊化
模塊化解決方案將AD系統(tǒng)分解為不同的模塊。通常,這些模塊包括感知、預(yù)測、計(jì)劃和控制。
感知
感知涉及環(huán)境信息的收集、有用知識(shí)的提取以及理解環(huán)境的判斷的形成。感知的準(zhǔn)確性和全面性對于自動(dòng)駕駛汽車(AV)有效地應(yīng)對復(fù)雜的交通場景至關(guān)重要。感知任務(wù)最初僅限于“如何看?”的問題。這指的是對周圍物體的識(shí)別和跟蹤,包括靜態(tài)物體(如車道、交通信號(hào)燈和其他交通基礎(chǔ)設(shè)施)和動(dòng)態(tài)物體(如車輛和道路使用者)。隨著過去二十年來傳感技術(shù)的進(jìn)步和機(jī)器學(xué)習(xí)(ML)的發(fā)展,這些基本任務(wù)不再構(gòu)成挑戰(zhàn)。車道檢測或交通信號(hào)識(shí)別等基本應(yīng)用現(xiàn)在可以在大多數(shù)情況下正確執(zhí)行,為推廣低級(jí)高級(jí)駕駛員輔助系統(tǒng)(ADAS)鋪平了道路。
更先進(jìn)的傳感器和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也為感知算法提供了新的視角,感知算法已經(jīng)從對象級(jí)發(fā)展到場景級(jí)。鳥瞰圖(BEV)和基于Transformer的方法的出現(xiàn)使識(shí)別綜合場景成為可能。BEV將車輛周圍的多模態(tài)3D數(shù)據(jù)投影到2D地圖上,確保數(shù)據(jù)表示的一致性。Transformers最初是為NLP設(shè)計(jì)的,由于其強(qiáng)大的注意力機(jī)制,已經(jīng)證明了它們在建模多源異構(gòu)數(shù)據(jù)方面的有效性。這使得BEV表示能夠熟練地捕獲全面的空間信息。遵循這一范式的方法,如BEVForme,在各種感知任務(wù)中表現(xiàn)出了卓越的性能,成為主要的感知解決方案。然而,BEV在高度信息方面的不足限制了其表示3D體積的效率。占用網(wǎng)絡(luò)通過直接學(xué)習(xí)體素中的3D信息、將3D表面描繪為神經(jīng)網(wǎng)絡(luò)決策邊界以及消除對LiDAR點(diǎn)云的需求來支持BEV。它們?nèi)诤狭藥缀魏驼Z義來精確地描繪場景,提高了感知效率和準(zhǔn)確性。
隨著情景信息的獲取不再具有挑戰(zhàn)性,目前的研究重點(diǎn)已轉(zhuǎn)向通過可靠和詳細(xì)的表示來全面了解環(huán)境的最終目標(biāo),即“What to see?”的問題。這要求感知系統(tǒng)非特定地識(shí)別周圍的物體,識(shí)別它們的屬性和相互作用,并徹底理解場景。從歷史上看,AD感知算法經(jīng)常將時(shí)間和3D空間數(shù)據(jù)合并到2D對象檢測框架中(例如YOLO、CenterNet),合并來自LiDAR、相機(jī)的輸入,并利用PointNet等不同的深度學(xué)習(xí)模型進(jìn)行信息處理。然而,在不同尺度(如時(shí)間、空間、任務(wù)相關(guān))上整合特征帶來了挑戰(zhàn)。
盡管取得了長足的進(jìn)步,但現(xiàn)有的感知解決方案仍然面臨著幾個(gè)挑戰(zhàn)。第一:
- CHALLENGE I: How to improve the performance of perception systems in the real world or uncontrolled environments?
當(dāng)前基于學(xué)習(xí)的方法嚴(yán)重依賴于訓(xùn)練數(shù)據(jù),當(dāng)遇到現(xiàn)實(shí)世界數(shù)據(jù)長尾分布中存在的角點(diǎn)情況時(shí),它們的性能會(huì)顯著下降。第二:
- CHALLENGE II: How to form a comprehensive understanding of complex scenarios like humans did?
當(dāng)前的場景理解方法更像是簡單地整合所有數(shù)據(jù)和模態(tài),而不是理解場景。最后:
- CHALLENGE III: How to enhance the efficiency of processing the vast amount of sensor data collected and establish a more unified data annotation method?
這些挑戰(zhàn)凸顯了AD的復(fù)雜性以及在該領(lǐng)域進(jìn)行持續(xù)研究和創(chuàng)新的必要性。
預(yù)測
預(yù)測是AD過程中的一個(gè)關(guān)鍵組成部分,其目標(biāo)是根據(jù)物體過去的運(yùn)動(dòng)軌跡預(yù)測物體(主要是行人和車輛)即將到來的運(yùn)動(dòng)軌跡。該模塊最初不是AD工作流的一部分。隨著過去二十年AD解決方案的演變,預(yù)測作為一個(gè)獨(dú)立的部分逐漸引起了人們的關(guān)注,彌合了感知和規(guī)劃之間的差距。從功能上講,它直接利用感知作為輸入,而其輸出則是后續(xù)規(guī)劃和控制任務(wù)的重要參考。從時(shí)間的角度來看,預(yù)測代表了從過去到現(xiàn)在和未來的過渡,這是端到端工作流不可或缺的過渡。傳統(tǒng)的預(yù)測方法主要是基于模型的。這些包括物理模型、意圖模型和交互模型。這種方法在處理軌跡的不確定性方面存在局限性,特別是在較長的時(shí)間范圍內(nèi)。
在過去的十年中,基于學(xué)習(xí)的方法逐漸主導(dǎo)了預(yù)測任務(wù)的解決方案。例如,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其衍生網(wǎng)絡(luò)架構(gòu),如長短期記憶(LSTM)網(wǎng)絡(luò),在基于深度學(xué)習(xí)的預(yù)測范式中得到了廣泛應(yīng)用。其他使用的網(wǎng)絡(luò)架構(gòu)包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)和圖形注意力轉(zhuǎn)換器。這些基于學(xué)習(xí)的方法顯著提高了更廣泛時(shí)期內(nèi)預(yù)測的可靠性和準(zhǔn)確性,而BEV等感知技術(shù)的進(jìn)步實(shí)現(xiàn)了多目標(biāo)協(xié)同預(yù)測。這標(biāo)志著預(yù)測建模領(lǐng)域的發(fā)展,強(qiáng)調(diào)了協(xié)作預(yù)測策略在實(shí)現(xiàn)卓越預(yù)測結(jié)果方面的重要性。根據(jù)目標(biāo)的不同,最新的預(yù)測方法能夠提供持續(xù)幾秒甚至十多秒的軌跡準(zhǔn)確預(yù)測。在大多數(shù)情況下,這對于后端AD任務(wù)來說是足夠的。
目前對預(yù)測任務(wù)的研究旨在提高動(dòng)態(tài)環(huán)境中的準(zhǔn)確性,以提高AD的安全性和效率,這需要關(guān)注的不僅僅是軌跡,還有情況。車輛必須了解并適當(dāng)應(yīng)對社會(huì)動(dòng)態(tài)或不同的環(huán)境,這可以歸結(jié)為另一個(gè)具體的挑戰(zhàn):
- CHALLENGE IV: How to realize comprehensive situation-aware predictions in complex scenarios?
應(yīng)對這一挑戰(zhàn)將是朝著更準(zhǔn)確和更先進(jìn)的預(yù)測方法邁出的又一步。
規(guī)劃
規(guī)劃是指自動(dòng)駕駛汽車根據(jù)給定的交通環(huán)境和車輛的情況設(shè)置未來駕駛路線或軌跡的過程。根據(jù)具體的功能和規(guī)劃范圍(空間和時(shí)間),規(guī)劃通常可分為路線規(guī)劃、行為規(guī)劃和軌跡規(guī)劃(也稱為運(yùn)動(dòng)規(guī)劃)。具體而言,路線規(guī)劃概述了車輛的道路網(wǎng)絡(luò)級(jí)路徑,通常稱為“導(dǎo)航”。行為規(guī)劃在規(guī)劃路線上的重要航路點(diǎn)提供決策。軌跡規(guī)劃生成了一個(gè)精確的時(shí)空軌跡,連接車輛要遵循的路點(diǎn)。
盡管有各種目標(biāo)和限制,但不同的規(guī)劃任務(wù)可以以類似的方式制定,因此共享類似的方法。例如,原始規(guī)劃方法起源于傳統(tǒng)的搜索方法,包括A*、快速探索隨機(jī)樹等。這些被稱為基于搜索的規(guī)劃方法?;趦?yōu)化的方法利用優(yōu)化理論來搜索最優(yōu)軌跡。與基于搜索的方法相比,這些方法在復(fù)雜場景中更省時(shí)。
基于學(xué)習(xí)的方法也出現(xiàn)在規(guī)劃中。例如,強(qiáng)化學(xué)習(xí)(RL)在規(guī)劃任務(wù)中得到了廣泛的應(yīng)用,規(guī)劃任務(wù)通常被表述為馬爾可夫決策過程。模仿學(xué)習(xí)(IL)為基于學(xué)習(xí)的計(jì)劃提供了一種不同的范式。其他方法將神經(jīng)網(wǎng)絡(luò)與現(xiàn)有的規(guī)劃方法相結(jié)合,或使用神經(jīng)網(wǎng)絡(luò)直接生成計(jì)劃軌跡,為規(guī)劃任務(wù)提供實(shí)時(shí)在線解決方案。
目前規(guī)劃方法的研究差距主要在于兩個(gè)方面。第一:
- CHALLENGE V: How to improve the performance of planning methods when facing complex kinematic or scenery constraints?
這要求系統(tǒng)更好地整合來自前端模塊的信息,同時(shí)處理繼承的不確定性。第二:
- CHALLENGE VI: How to bind the planning tasks to form a more integrated hybrid planning?
這將有利于規(guī)劃過程的穩(wěn)健性和更好的性能。
控制
傳統(tǒng)模塊化的最后一步是控制,它涉及車輛沿著預(yù)設(shè)的計(jì)劃軌跡行駛(軌跡跟蹤)。這種過程的基本目標(biāo)是使目標(biāo)軌跡和真實(shí)車輛軌跡之間的誤差最小化。其他控制目標(biāo)包括提高穩(wěn)定性或乘坐舒適性。
已經(jīng)為控制過程開發(fā)了各種控制器和方法。基本控制方法,如純追蹤[24],主要考慮了車輛的運(yùn)動(dòng)學(xué)約束。相比之下,其他方法結(jié)合了車輛的動(dòng)態(tài)特性來實(shí)現(xiàn)更精確的控制??刂破?,如模型預(yù)測控制(MPC),擅長管理更復(fù)雜的場景。鑒于車輛相對于外部環(huán)境的固有穩(wěn)定性和控制問題的性質(zhì),基于學(xué)習(xí)的方法在控制任務(wù)中的使用頻率較低。然而,混合控制器的出現(xiàn)值得注意,例如基于學(xué)習(xí)的MPC,它融合了傳統(tǒng)控制器和基于學(xué)習(xí)的控制器。
車輛控制的主要挑戰(zhàn)在于一個(gè)問題。
- CHALLENGE VII: How can controllers adapt to various, comprehensive scenarios?
現(xiàn)實(shí)世界的場景包括從車輛達(dá)到穩(wěn)定性閾值的極端操作條件到個(gè)性化控制要求。適應(yīng)各種場景需要控制器具有更好的魯棒性和精確調(diào)整的空間??刂颇K還需要與AD解決方案中的前端模塊協(xié)調(diào),以實(shí)現(xiàn)更好的性能。
端到端
與模塊化解決方案相比,端到端AD采用了不同的路線圖。從狹義上講,端到端AD試圖模仿人類駕駛車輛的方式,其中使用一個(gè)大規(guī)模神經(jīng)網(wǎng)絡(luò)將原始傳感器輸入直接映射到車輛的軌跡點(diǎn)或控制命令。端到端AD的第一次嘗試,即神經(jīng)網(wǎng)絡(luò)中的自主陸地車輛,可以追溯到20世紀(jì)80年代。它試圖將相機(jī)和Lidar的輸入直接映射到車輛的轉(zhuǎn)向控制。
隨著機(jī)器學(xué)習(xí)方法的進(jìn)步,端到端AD在過去十年中蓬勃發(fā)展。端到端AD中應(yīng)用最廣泛的學(xué)習(xí)技術(shù)是IL。IL是一種監(jiān)督學(xué)習(xí)方法,可進(jìn)一步分為行為克隆和逆最優(yōu)控制。端到端AD中涉及的另一種學(xué)習(xí)方法是RL,并且應(yīng)用了包括策略蒸餾在內(nèi)的技術(shù)來提高算法的性能。此外,數(shù)據(jù)集的不斷積累、日益完善的測試環(huán)境和評估指標(biāo)進(jìn)一步加速了端到端AD的實(shí)際應(yīng)用。使用端到端方法訓(xùn)練的Tesla FSD系統(tǒng)等AD系統(tǒng)已經(jīng)應(yīng)用于開放環(huán)境。
隨著對端到端解決方案的研究不斷深入,重點(diǎn)正轉(zhuǎn)向這些解決方案背后的核心思想,而不是其形式。端到端方案的集成方法為傳輸各種類型的信息和數(shù)據(jù)提供了一個(gè)統(tǒng)一的渠道。這最大限度地減少了信息在不同模塊或子任務(wù)之間傳輸過程中的丟失和壓縮,這被認(rèn)為是端到端解決方案的優(yōu)點(diǎn)之一。應(yīng)用這一理念,許多模塊子任務(wù)的廣義“端到端”應(yīng)用正在出現(xiàn),特別是被劃分為多個(gè)分層子任務(wù)的感知和規(guī)劃模塊。例如,“端到端”感知模塊將傳感器的數(shù)據(jù)作為輸入,同時(shí)提供集成和完整的場景感知輸出。這些通用的端到端模塊使子任務(wù)的訓(xùn)練和執(zhí)行更加順暢和高效。
與此同時(shí),端到端AD系統(tǒng)的形式也在不斷發(fā)展。例如,最新的統(tǒng)一端到端自動(dòng)駕駛(UniAD)解決方案,被稱為“模塊化端到端AD”,集成了AD的三個(gè)主要任務(wù)和六個(gè)次要任務(wù)。每個(gè)模塊在網(wǎng)絡(luò)結(jié)構(gòu)方面保持相對獨(dú)立。在訓(xùn)練過程中,每個(gè)模塊在整個(gè)系統(tǒng)訓(xùn)練之前都經(jīng)過預(yù)訓(xùn)練,以確保訓(xùn)練目標(biāo)的一致性。這種方法在閉環(huán)仿真驗(yàn)證中表現(xiàn)出了出色的性能,證明端到端解決方案的本質(zhì)不一定是用單個(gè)網(wǎng)絡(luò)完成所有任務(wù)。
盡管端到端解決方案正在迅速發(fā)展,并解決了模塊化AD系統(tǒng)中的一些現(xiàn)有問題,但還存在一些其他挑戰(zhàn)。與模塊化AD相比,端到端系統(tǒng)在更大范圍內(nèi)利用神經(jīng)網(wǎng)絡(luò),幾乎完全依賴于訓(xùn)練數(shù)據(jù),這兩者都增加了訓(xùn)練過程中的挑戰(zhàn)。例如:
- CHALLENGE VIII: How to establish datasets, including selecting specific data and generating new cases, with better quality so as to support the training of end-to-end algorithms?
- CHALLENGE IX: How to improve the training efficiency (e.g., design better reward functions) of end-to- end solutions?
- CHALLENGE X: how to improve the interpretability of end-to-end solutions?
大語言模型的發(fā)展
現(xiàn)代語言處理模型起源于兩種范式:基于規(guī)則和統(tǒng)計(jì)?;谝?guī)則的語言模型依賴于手動(dòng)定義的語法、語義和語用規(guī)則,使用一組手動(dòng)規(guī)則生成自然語言。這種方法的局限性在于需要大量手動(dòng)設(shè)置的規(guī)則,這使得在真實(shí)的語言語料庫中覆蓋所有場景變得具有挑戰(zhàn)性。另一方面,統(tǒng)計(jì)語言模型依賴于大型語料庫中的詞匯統(tǒng)計(jì)分布,例如在上下文中使用n個(gè)單詞預(yù)測文本的n元語法模型。這些模型標(biāo)志著語言處理中理性主義方法的開始。
隨著深度學(xué)習(xí)的進(jìn)步,研究人員開始使用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)自然語言的復(fù)雜結(jié)構(gòu)和語義信息。RNN成為處理自然語言和其他時(shí)間序列問題的經(jīng)典模型框架。通過引入跨時(shí)間步長共享的循環(huán)結(jié)構(gòu)和權(quán)重參數(shù),RNN可以處理不同長度的自然語言文本序列并捕獲隱藏特征。LSTM網(wǎng)絡(luò)是對傳統(tǒng)RNN的改進(jìn),引入了存儲(chǔ)單元,有選擇地保留或忘記信息,以有效解決梯度消失或爆炸等問題。在此基礎(chǔ)上進(jìn)行的一些工程包括門控循環(huán)單元(GRU)。2017年,Transformer憑借其強(qiáng)大的上下文處理能力,逐漸開始應(yīng)用于NLP任務(wù)。與之前的統(tǒng)計(jì)模型相比,這些基于神經(jīng)網(wǎng)絡(luò)的模型在處理語言中的表示和特征方面具有更好的方法,從而在特定的NLP任務(wù)中表現(xiàn)出更好的性能。
隨著網(wǎng)絡(luò)結(jié)構(gòu)的進(jìn)步,一種新的語言模型訓(xùn)練方法——預(yù)訓(xùn)練,也有助于語言模型的進(jìn)一步發(fā)展。2018年,谷歌推出了BERT(變壓器的雙向編碼器表示),這是一種基于注意力機(jī)制的預(yù)訓(xùn)練語言模型。它采用兩階段策略,首先在大規(guī)模語料庫上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,然后對特定任務(wù)進(jìn)行監(jiān)督學(xué)習(xí)微調(diào),以適應(yīng)下游任務(wù)。第一個(gè)生成預(yù)訓(xùn)練模型GPT-1也于2018年由OpenAI發(fā)布。GPT-1利用基于Transformer架構(gòu)的網(wǎng)絡(luò)模型,特別是僅使用解碼器的結(jié)構(gòu),通過生成式預(yù)訓(xùn)練和判別式微調(diào),在特定任務(wù)上實(shí)現(xiàn)了卓越的性能。GPT-2是2019年發(fā)布的高級(jí)版本,也采用了只有堆疊編碼器的結(jié)構(gòu)。與GPT-1不同,它使用無監(jiān)督學(xué)習(xí)模式,僅基于輸入和任務(wù)概率模型預(yù)測輸出。這些模型可以稱為“預(yù)先訓(xùn)練的語言模型”,它們對零樣本學(xué)習(xí)和遷移學(xué)習(xí)具有重要意義,為LLM的發(fā)展鋪平了道路。
LLM的參數(shù)達(dá)到一定規(guī)模(例如數(shù)十億或數(shù)千億),在過去三年中作為一種新興的人工智能技術(shù)引起了廣泛關(guān)注。它們繼承了預(yù)訓(xùn)練語言模型的結(jié)構(gòu)和訓(xùn)練范式,并受益于其規(guī)模增加所提供的可擴(kuò)展性和涌現(xiàn)效應(yīng)。LLM不僅在語言相關(guān)任務(wù)中實(shí)現(xiàn)了顯著的性能提升,而且還展示了上下文學(xué)習(xí)等能力,可以應(yīng)用于其他不同的場景。2020年,在GPT-2的單向語言模型訓(xùn)練之后,引入了GPT-3,但使用了更大的模型和數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果表明,GPT-3在小樣本學(xué)習(xí)場景中取得了優(yōu)異的性能。2023年3月,OpenAI發(fā)布了GPT-4,同年5月,GPT-4的技術(shù)報(bào)告發(fā)布。與過去三個(gè)版本的GPT相比,GPT-4在小樣本學(xué)習(xí)、邏輯推理、多模式理解、安全性和對更長上下文的支持方面取得了重大進(jìn)展。
類似的LLM還包括Genimi,它利用PaLM 2等高級(jí)語言模型在NLP和信息檢索方面表現(xiàn)出色;Claude強(qiáng)調(diào)安全性和可解釋性,在需要安全和對齊的人工智能系統(tǒng)的場景中尤其有價(jià)值;LLaMA,一種開源模型,通過提供一個(gè)可訪問的平臺(tái)來探索LLMs,對研究界產(chǎn)生了重大影響;Command R專注于檢索增強(qiáng)生成,以增強(qiáng)內(nèi)容創(chuàng)建和業(yè)務(wù)應(yīng)用。
大語言模型在自動(dòng)駕駛中的應(yīng)用
模塊化方法
感知
在AD感知任務(wù)中,LLMs促進(jìn)了傳統(tǒng)感知任務(wù)解決方案的改進(jìn),開辟了新的研究方向。目前,LLMs在感知任務(wù)中的應(yīng)用主要集中在以下幾個(gè)方面:
首先,LLM可以直接用于傳統(tǒng)的感知任務(wù)。盡管該語言很難直接用于獲取或描述周圍環(huán)境,但它可以作為模態(tài)之間的緩沖區(qū),并與視覺和激光雷達(dá)等模態(tài)結(jié)合,進(jìn)行簡單的推理。這提高了感知任務(wù)的效率,并優(yōu)化了不同場景下的性能。例如,[48]使用LLM來分析行人的語言線索,從而提高行人檢測的準(zhǔn)確性。
此外,由于LLM能夠理解復(fù)雜的場景,LLM已被直接用于對復(fù)雜場景的全面感知,整合各種感知信息以理解復(fù)雜的交通環(huán)境和駕駛情況。LLM通過分類、識(shí)別和理解交通場景中動(dòng)態(tài)和靜態(tài)元素之間的關(guān)系,提高了對AD系統(tǒng)內(nèi)復(fù)雜交互的理解。他們還對這些元素在時(shí)間和空間上的相互作用進(jìn)行了推理,為挑戰(zhàn)II提供了解決方案。例如,[52]利用傳統(tǒng)的3D感知管道來增強(qiáng)VLM的感知能力。在GPT-4V(ision)的道路上,[53]展示了VLM在處理非分布場景和在實(shí)際駕駛環(huán)境中識(shí)別意圖方面的潛力。
LLM的綜合能力也揭示了角案例的問題,這是當(dāng)前感知算法中一個(gè)值得關(guān)注的問題(挑戰(zhàn)I)。[56]分析了LLM理解AD場景的能力,確定了LLM實(shí)現(xiàn)類人表現(xiàn)的關(guān)鍵能力,指出LLM能夠通過理解情況來解決AD中的關(guān)鍵問題。
最后,LLMs還通過語言情態(tài)以各種形式增強(qiáng)現(xiàn)有的感知數(shù)據(jù)。這些應(yīng)用程序不僅促進(jìn)了人與機(jī)器之間的透明可解釋性,還促進(jìn)了LLM進(jìn)一步進(jìn)行規(guī)劃和控制,為挑戰(zhàn)III提供了一種可能的解決方案。例如,關(guān)于對象引用,[59]提出了一種統(tǒng)一的視覺語言模型,該模型可以引用人類指令中描述的對象并在圖片框中生成邊界框。[60]提出了一種基于GPT-4的上下文感知視覺接地框架。該框架可以響應(yīng)自然語言指令,引用提到的關(guān)鍵對象,并提供對人類當(dāng)前情緒的分析?;贠penFlamingo VLM框架,使用扎根思維鏈指令訓(xùn)練了一個(gè)視覺語言模型,該模型旨在吸收類人能力作為對話式駕駛助手,以與AD任務(wù)保持一致。訓(xùn)練好的模型能夠提供對場景的理解。
預(yù)測
由于LLM的任務(wù)能力更強(qiáng),預(yù)測任務(wù)以兩種方式發(fā)展。一方面,預(yù)測通常是使用LLM與感知或規(guī)劃相結(jié)合來實(shí)現(xiàn)的。這將提高系統(tǒng)的整體效率,并為預(yù)測部分提供更準(zhǔn)確的信息。[67]嵌入自然語言描述和交通場景的光柵化圖像表示,以實(shí)現(xiàn)軌跡預(yù)測。[68]使用LLM從過去的軌跡中得出運(yùn)動(dòng)線索,并將其與傳統(tǒng)方法相結(jié)合,以更好地預(yù)測未來的軌跡。
另一方面,LLM利用其推理能力進(jìn)行情景預(yù)測,為挑戰(zhàn)IV提供了部分解決方案。[71]提出了一種將高分辨率信息整合到多模態(tài)LLM中的方法。語言模式用于對低分辨率視頻進(jìn)行推理,并為高分辨率視頻幀提供先驗(yàn)和亮點(diǎn)。該框架還根據(jù)預(yù)測的風(fēng)險(xiǎn)和情景為即將發(fā)生的行為提供了建議。
規(guī)劃
LLMs的推理能力和常識(shí)使他們能夠?yàn)檐囕v制定各種計(jì)劃,并擔(dān)任車輛駕駛員。通常,規(guī)劃任務(wù)包括路線規(guī)劃、行為規(guī)劃、軌跡規(guī)劃和混合規(guī)劃。
關(guān)于路線規(guī)劃,LLM可以使用地圖信息、交通規(guī)則和用戶意圖來規(guī)劃車輛的最佳路線??梢钥紤]交通擁堵、道路建設(shè)和天氣條件等因素來選擇最方便、最安全的路徑。[73]將LLM應(yīng)用于周圍環(huán)境的口頭描述、導(dǎo)航指令和其他相關(guān)信息,以提供城市環(huán)境中的元?jiǎng)幼骷?jí)導(dǎo)航序列。[74]使用LLM提取用戶的意圖,并相應(yīng)地以描述和地圖注釋的形式提供路線規(guī)劃。
在行為規(guī)劃方面,LLM可以決定車輛在不同情況下的行為,如加速、減速、變道和避開障礙物。這種元?jiǎng)幼鳑Q策可以使用自然語言來理解和執(zhí)行,需要綜合考慮車輛動(dòng)力學(xué)、周圍環(huán)境和其他車輛的行為。[76]提出了一個(gè)持續(xù)學(xué)習(xí)框架,以增強(qiáng)AD中多模態(tài)LLMs的行為決策。[77]利用LLMs根據(jù)特定情況提供元?jiǎng)幼骷?jí)行為。LLMs能夠?qū)W習(xí)專業(yè)司機(jī)的經(jīng)驗(yàn),逐步提高他們的駕駛技能。
關(guān)于軌跡規(guī)劃,除了定量元?jiǎng)幼魍猓琇LM還可以為車輛提供更精確的軌跡,例如包括轉(zhuǎn)彎、超車和停車在內(nèi)的軌跡。[80]利用LLM的閉環(huán)框架在復(fù)雜場景中提供定性運(yùn)動(dòng)規(guī)劃。副駕駛框架能夠以坐標(biāo)點(diǎn)的形式為車輛提供詳細(xì)的軌跡[81]。
關(guān)于混合規(guī)劃,LLM的推理能力也使混合規(guī)劃(挑戰(zhàn)V)成為可能。這種混合管道整合了不同層次的規(guī)劃,甚至部分感知,形成了“端到端”的規(guī)劃解決方案。[52]提出了一種包含場景描述、場景分析和層次規(guī)劃的思維鏈(CoT),以形成車輛的軌跡計(jì)劃。[82]提出了一種“GPT驅(qū)動(dòng)程序”,利用GPT作為AD任務(wù)的運(yùn)動(dòng)規(guī)劃器,通過“提示推理微調(diào)”過程實(shí)現(xiàn)。[83]在實(shí)際駕駛?cè)蝿?wù)中使用了LLM,其中LLM用于生成規(guī)劃車輛運(yùn)動(dòng)的代碼。下游控制器也被用來控制車輛。
除了在規(guī)劃中直接應(yīng)用LLM外,另一種常見的方法是將LLM與現(xiàn)有的規(guī)劃方法相結(jié)合。LLM通過推理或增強(qiáng)來提高傳統(tǒng)方法的性能。這可以稱為基于模型的規(guī)劃(解決挑戰(zhàn)VI)。[86]提出了一種利用LLM來提高感知、預(yù)測和規(guī)劃性能的框架。
控制
由于控制任務(wù)對快速響應(yīng)的要求,LLM目前很難直接替換現(xiàn)有的控制器。然而,由于LLM的理解和推理能力,他們可以在更高的層次上參與控制任務(wù),例如與規(guī)劃任務(wù)相結(jié)合,以提高效率和對不同場景的適應(yīng)性(解決挑戰(zhàn)VII)。[88]將LLM與MPC相結(jié)合,在AD場景中精確控制車輛。LLM在此過程中提供高級(jí)決策,并使用相應(yīng)的矩陣對MPC控制器進(jìn)行微調(diào)。該框架也被認(rèn)為適用于多車輛控制場景。
還多次嘗試將LLM直接應(yīng)用于AD車輛的控制。它們中的大多數(shù)將計(jì)劃和控制相結(jié)合,根據(jù)元?jiǎng)幼魈峁└_的控制器信息。[81]提出了一種使用ChatGPT作為控制器選擇器的Co-Pilot框架,該框架可以完成所需的任務(wù)并調(diào)整其輸出以正確滿足人類意圖。
端到端方法
作為一種更系統(tǒng)的解決方案,LLM參與了端到端AD解決方案實(shí)施過程中的不同步驟,總結(jié)如下。
數(shù)據(jù)基礎(chǔ)
基于學(xué)習(xí)的AD算法,特別是端到端解決方案,在很大程度上依賴于海量數(shù)據(jù)。因此,作為解決方案的一部分,提出了許多用于訓(xùn)練基于LLM的端到端算法的新數(shù)據(jù)集。這些數(shù)據(jù)集大多包含自然語言注釋,因此提供了一個(gè)全面的渠道,通過這個(gè)渠道,語言可以在訓(xùn)練和實(shí)現(xiàn)過程中應(yīng)用。這種注釋也可以作為一種提煉的知識(shí),從而提高訓(xùn)練效率。[92]使用基于Graph VQA的工作流來實(shí)現(xiàn)端到端AD,提供了一個(gè)包括數(shù)據(jù)集、任務(wù)、基線和指標(biāo)的整體解決方案。[65]集成視頻幀和文本作為輸入,模型的輸出包括響應(yīng)和預(yù)測控制信號(hào)。訓(xùn)練過程包含兩個(gè)階段,預(yù)訓(xùn)練和混合微調(diào),后一階段使用ChatGPT注釋數(shù)據(jù)。
表1列出了更具代表性的LLM相關(guān)數(shù)據(jù)集。值得注意的是,這些數(shù)據(jù)集的貢獻(xiàn)不僅限于端到端的解決方案,因?yàn)樗鼈優(yōu)樗蠥D任務(wù)的開發(fā)和驗(yàn)證提供了重要的參考。這些數(shù)據(jù)集中自然語言的比例增加,從簡單的標(biāo)簽過渡到自然語言描述或問答格式,也導(dǎo)致了與感知相關(guān)的挑戰(zhàn)II和III。例如,[50]提出了一個(gè)基于NuScene數(shù)據(jù)集的數(shù)據(jù)集,其中包含3D駕駛場景中物體的自然語言注釋。
除了基于真實(shí)場景的數(shù)據(jù)集外,在LLM生成能力的幫助下,場景生成也成為AD數(shù)據(jù)集的一個(gè)重要方面。這種能力有助于解決數(shù)據(jù)分布的長尾問題,提高訓(xùn)練效率。[95]提出了一個(gè)框架,即LCTGen,用于基于描述和地圖數(shù)據(jù)生成動(dòng)態(tài)交通場景進(jìn)行模擬。LLM用于將場景的自然語言描述轉(zhuǎn)換為場景的結(jié)構(gòu)化表示。SimCopilot利用LLM將對象交互的自然語言描述轉(zhuǎn)換為虛擬道路場景的編程代碼,大大簡化了AD系統(tǒng)交互數(shù)據(jù)的創(chuàng)建。WEDGE數(shù)據(jù)集直接使用DALLE大模型生成場景圖像,模擬各種天氣條件下的二維道路和交通場景,這是構(gòu)建AD數(shù)據(jù)集的一種新嘗試。
作為端到端代理的大語言模型
LLM本身可以充當(dāng)代理,同時(shí)完成所有駕駛?cè)蝿?wù)。Agent Driver利用LLM作為車輛的智能代理。該代理旨在通過函數(shù)調(diào)用訪問駕駛信息,并充當(dāng)人類。[110]提出了一種架構(gòu),該架構(gòu)將場景信息編碼為數(shù)字向量,并應(yīng)用預(yù)訓(xùn)練的LLM來理解場景并提供運(yùn)動(dòng)水平控制。它還能夠提供其行為的原因,提高解決方案的可解釋性。[111]提出了一種開創(chuàng)性的AD通用世界模型,該模型集成了多模態(tài)LLM和擴(kuò)散技術(shù),使其能夠直接預(yù)測控制信號(hào),并根據(jù)歷史視覺動(dòng)作對生成未來幀,從而模擬無限的駕駛體驗(yàn)。Graph VQA實(shí)現(xiàn)了基于VLM的端到端AD流水線。在這種方法中,視覺問題引導(dǎo)推理過程通過不同的階段,在復(fù)雜的場景中取得了顯著的性能。
訓(xùn)練和思考
正如挑戰(zhàn)IX所述,端到端AD解決方案的訓(xùn)練一直是一個(gè)重要的話題。法學(xué)碩士主要通過更好的推理和反思提高了這一過程的效率。[113]提出了一種新的端到端AD數(shù)據(jù)集和基準(zhǔn),其中包括傳感器數(shù)據(jù)、控制決策和CoT標(biāo)簽,以指示推理過程。它還提出了一個(gè)基線模型DriveCoTAgent,在該數(shù)據(jù)集上進(jìn)行訓(xùn)練,以生成CoT預(yù)測和最終決策,在開環(huán)和閉環(huán)評估中表現(xiàn)出強(qiáng)大的性能,并提高了端到端驅(qū)動(dòng)系統(tǒng)的可解釋性和可控性。DriveGPT4能夠在模擬環(huán)境中執(zhí)行零樣本泛化,顯示出提高訓(xùn)練效率的潛力。
其他方面
除了直接實(shí)現(xiàn)AD任務(wù)外,LLM還廣泛應(yīng)用于支持AD的應(yīng)用,包括人機(jī)交互、安全、道德和公平問題。關(guān)于人機(jī)交互,[114]提出了一個(gè)框架,可以通過評估和迭代優(yōu)化使用LLM執(zhí)行AD任務(wù)的代碼。[115]提出了一個(gè)以人為中心的框架,將LLM整合到AD的規(guī)劃中,在復(fù)雜的駕駛?cè)蝿?wù)中提供有用的幫助,并通過推理回應(yīng)不同的查詢。AccidentGPT可以響應(yīng)駕駛員的查詢,或自動(dòng)提供具體建議(例如減速)和駕駛安全通知。
大語言模型會(huì)成為自動(dòng)駕駛的靈丹妙藥嗎?
在第4節(jié)中,我們系統(tǒng)地展示了LLM在AD中的應(yīng)用越來越多。這些應(yīng)用涵蓋了AD的整個(gè)領(lǐng)域,許多應(yīng)用展示了LLMs超越現(xiàn)有AD算法并應(yīng)對前面討論的挑戰(zhàn)的潛力。根據(jù)我們的調(diào)查和分析,我們試圖通過基于LLM的AD解決方案的進(jìn)展,提供對這些現(xiàn)有挑戰(zhàn)已經(jīng)或預(yù)計(jì)將如何解決的見解。因此,我們將這些見解分為以下三個(gè)層次,并在表2中描述了挑戰(zhàn)。
- 解決方案洞察A:LLM在解決相應(yīng)挑戰(zhàn)方面表現(xiàn)出了顯著的能力,可以期待基于LLM的全面解決方案。
- 解決方案洞察B:LLM已經(jīng)證明有能力解決相應(yīng)的挑戰(zhàn),但鑒于LLM目前的缺點(diǎn),挑戰(zhàn)可能無法完全解決。
- 解決方案洞察C:LLM可以提高相關(guān)任務(wù)的性能,但可能無法解決挑戰(zhàn)中的關(guān)鍵問題。
如表2所示,我們可以得出結(jié)論,LLM在為現(xiàn)有AD算法中的當(dāng)前挑戰(zhàn)提供有效解決方案方面表現(xiàn)出了巨大的潛力。具體而言,我們認(rèn)為LLMs在AD任務(wù)中的表現(xiàn)主要源于以下幾個(gè)方面。
- 常識(shí)。常識(shí)是每個(gè)成年人都應(yīng)該具備的實(shí)際判斷或基本事實(shí)知識(shí)的基本水平。它是人類基于積累的經(jīng)驗(yàn)和知識(shí)而提煉出來的理解。常識(shí)在日常生活中起著至關(guān)重要的作用。人類通過模仿快速獲得特定技能的能力與此密切相關(guān)。例如,一個(gè)成年人需要大約20個(gè)小時(shí)的訓(xùn)練才能通過駕駛考試。這是因?yàn)橛?xùn)練主要側(cè)重于駕駛的操作技能。許多其他與駕駛相關(guān)的技能,如識(shí)別交通信號(hào)或標(biāo)志,都是直觀理解的,不需要大量學(xué)習(xí)。然而,對于AD模型,每個(gè)元素都必須單獨(dú)設(shè)計(jì)和訓(xùn)練。法學(xué)碩士從廣泛的語料庫中積累了一種“常識(shí)”。這可以被視為高維空間中特定語義指標(biāo)的表示。例如,與“紅燈”和“停車”概念相對應(yīng)的表示向量可能在表示AD行為的維度上具有緊密投影。這使得LLM能夠以最少的預(yù)先指令執(zhí)行復(fù)雜的AD任務(wù),并使很少的射擊學(xué)習(xí)成為可能。
- 推理能力。與以前的語言模型相比,LLM能夠理解文本輸入中的因果關(guān)系和邏輯關(guān)系。因此,一些研究人員認(rèn)為LLMs能夠像人類一樣進(jìn)行推理。這種推理能力增強(qiáng)了LLM對交通場景的理解,這對于需要預(yù)測未來情況并做出相應(yīng)決策的AD任務(wù)至關(guān)重要。此外,LLM的推理能力為AD中遇到的“長尾”問題提供了一種潛在的解決方案。即使在極端情況下,這些模型也可以根據(jù)其推理做出準(zhǔn)確的決策。
- 溝通能力。LLM的另一個(gè)重要能力是它們可以與人類流利地交流。重新審視人類的駕駛行為,我們可以注意到語言主要用于導(dǎo)航和路線描述。LLM可以理解人類的意圖,并通過推理提供適當(dāng)?shù)妮敵觯虼丝梢灾苯訁⑴c駕駛過程。除了駕駛?cè)蝿?wù)本身,與人類溝通的能力也有利于LLM在訓(xùn)練和調(diào)整過程中。人類和LLM之間的相互理解和互動(dòng)在一定程度上解決了神經(jīng)網(wǎng)絡(luò)作為黑盒模型的問題。
我們注意到,LLM的這些優(yōu)勢部分解決了數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)算法遺留下來的幾個(gè)長期缺陷。這些算法在AD實(shí)現(xiàn)中得到了廣泛的應(yīng)用,給AD任務(wù)帶來了特定的挑戰(zhàn)。因此,LLM能夠?yàn)樗麄兲峁┙鉀Q方案。此外,我們可以得出結(jié)論,這意味著從以數(shù)據(jù)為中心的模型向利用數(shù)據(jù)和知識(shí)的混合模型的轉(zhuǎn)變。這種雙重驅(qū)動(dòng)的方法結(jié)合了兩種范式的優(yōu)點(diǎn)。從執(zhí)行駕駛?cè)蝿?wù)的角度來看,這種轉(zhuǎn)變也使實(shí)施過程更類似于人類決策,這可能是AD的最終目標(biāo)。我們預(yù)計(jì)未來數(shù)據(jù)和知識(shí)將在相當(dāng)長的一段時(shí)間內(nèi)共存,可能以LLM的形式體現(xiàn)出來,知識(shí)在AD解決方案中的作用逐漸凸顯。未來的研究應(yīng)側(cè)重于如何更好地整合數(shù)據(jù)驅(qū)動(dòng)和基于知識(shí)的方法,以提高AD解決方案的訓(xùn)練和實(shí)施效率。
存在的限制
盡管取得了各種進(jìn)步,但我們必須指出,LLM在AD中的進(jìn)一步應(yīng)用面臨著許多局限性和挑戰(zhàn)。作為一種安全關(guān)鍵場景,這些局限性需要在未來的研究中得到更多的關(guān)注。其中一些局限性主要是由于當(dāng)前LLM性能的缺點(diǎn),這些缺點(diǎn)繼承了它們的模型結(jié)構(gòu)、訓(xùn)練方法或?qū)崿F(xiàn)。
- LLMs的“幻覺”問題?!盎糜X”是指LLM在沒有充分依據(jù)的情況下給出的結(jié)果與事實(shí)或用戶要求不符的情況。這種現(xiàn)象在LLM中很常見,作為一個(gè)具有高安全要求的系統(tǒng),在AD過程中對這些問題的容忍度非常低。因此,必須采取措施防止幻覺問題?,F(xiàn)有研究表明,LLM的幻覺主要來自數(shù)據(jù)、訓(xùn)練和推理過程。為了解決這些原因,可以使用檢索增強(qiáng)生成(RAG)、改進(jìn)預(yù)訓(xùn)練和調(diào)優(yōu)過程以及設(shè)計(jì)CoT等方法來改進(jìn)。此外,為了防止可能的錯(cuò)誤結(jié)果影響車輛的實(shí)際運(yùn)行,還可以設(shè)計(jì)保險(xiǎn)機(jī)制,并使用其他規(guī)則來判斷LLM輸出的合理性。
- 模型響應(yīng)時(shí)間。實(shí)時(shí)性能差是目前LLM的缺點(diǎn)之一。無論模型是在線還是離線,LLM的巨大數(shù)量都使其響應(yīng)延遲難以忽視。這在AD的背景下可能會(huì)產(chǎn)生嚴(yán)重的后果,特別是對響應(yīng)時(shí)間高度敏感的任務(wù)(如控制)。一方面可以通過提高計(jì)算能力來解決這個(gè)問題,另一方面,在實(shí)時(shí)性能得到解決之前,LLM可能更適合具有更高延遲容限的任務(wù)。
- 對物理世界缺乏了解。雖然LLM在處理和生成文本方面很強(qiáng)大,但在理解物理世界方面卻有一個(gè)明顯的缺點(diǎn)。他們?nèi)狈εc環(huán)境互動(dòng)并從中學(xué)習(xí)的能力,這意味著他們對重力、動(dòng)量或物體紋理等物理概念沒有直接的理解。他們無法像人類甚至一些機(jī)器人那樣體驗(yàn)世界。他們的知識(shí)完全基于他們接受訓(xùn)練的文本,他們很難根據(jù)現(xiàn)實(shí)世界的經(jīng)驗(yàn)或感官輸入來更新這些知識(shí)。這限制了他們準(zhǔn)確建?;蝾A(yù)測物理現(xiàn)象的能力,并可能導(dǎo)致在物理世界中產(chǎn)生無意義或不正確的輸出。當(dāng)將這些模型應(yīng)用于需要深入了解物理世界(如駕駛車輛)的任務(wù)時(shí),這是一個(gè)重大限制。進(jìn)一步提高LLM有效捕獲和理解現(xiàn)實(shí)世界信息的能力非常重要。
其他挑戰(zhàn)來自LLM和AD任務(wù)的結(jié)合。
- 隱私和安全考慮。自動(dòng)駕駛汽車使用的數(shù)據(jù)通常非常敏感,包括特定位置、駕駛習(xí)慣等細(xì)節(jié)。這些數(shù)據(jù)對于微調(diào)AD任務(wù)的LLM至關(guān)重要。這引發(fā)了嚴(yán)重的數(shù)據(jù)隱私和安全問題。例如,如果法學(xué)碩士在無意中包含個(gè)人信息的公開數(shù)據(jù)上接受培訓(xùn),它可能會(huì)學(xué)習(xí)和復(fù)制這些信息,從而導(dǎo)致隱私泄露。確保這些數(shù)據(jù)得到安全處理,并且模型不會(huì)無意中泄露這些信息,這是一個(gè)關(guān)鍵的挑戰(zhàn)。
- 語言造成的偏見。我們注意到,現(xiàn)在幾乎所有的法學(xué)碩士都使用英語作為對話語言,涉及其他語言的實(shí)驗(yàn)和研究很少。由于語言具有更強(qiáng)的區(qū)域性,我們認(rèn)為這可能會(huì)成為一種潛在的偏見,即使用不同語言時(shí)模型的性能無法保持一致。這種偏見可能比基于視覺和其他模式的算法更明顯,也可能帶來潛在的倫理和道德風(fēng)險(xiǎn)。此外,訓(xùn)練數(shù)據(jù)隱私和數(shù)據(jù)集安全等問題也值得關(guān)注。我們認(rèn)為可以進(jìn)行進(jìn)一步的研究來解決這些問題。
在LLM應(yīng)用于現(xiàn)實(shí)世界的AD應(yīng)用之前,需要解決這些挑戰(zhàn),但我們相信,LLM和相關(guān)AD解決方案的快速發(fā)展將不斷為這些挑戰(zhàn)提供新的見解。
Perspectives
自AD概念提出以來,研究人員一直在探索實(shí)現(xiàn)這一目標(biāo)的不同途徑。針對不同的技術(shù)路徑,已經(jīng)進(jìn)行了許多討論。因此,我們想回顧一下其中的一些討論,并就AD的最終解決方案提出一些看法。
端到端 or 模塊法自動(dòng)機(jī)愛誰
模塊化和端到端方法一直是AD技術(shù)討論的前沿。本文的引言部分總結(jié)了這兩種路徑的一些優(yōu)缺點(diǎn)。然而,LLMs為這場討論帶來了新的亮點(diǎn)。一方面,LLM的出現(xiàn)模糊了模塊化和端到端方法之間的界限。LLM的多功能性使其能夠同時(shí)完成多項(xiàng)任務(wù),從而打破了傳統(tǒng)的模塊化界限。例如,LLM執(zhí)行的許多規(guī)劃任務(wù)直接基于原始傳感器輸入。從功能上講,這種實(shí)現(xiàn)涵蓋了從感知到規(guī)劃的所有方面,在形式上,它們可以被視為接近端到端的實(shí)現(xiàn)。我們認(rèn)為,隨著模型泛化能力的增強(qiáng),這種模糊可能會(huì)成為一種趨勢。
另一方面,研究人員已經(jīng)開始更加關(guān)注端到端方法的核心,而不是形式本身。端到端解決方案的優(yōu)點(diǎn)可以概括為提供統(tǒng)一的信道,減少不同模塊之間的信息傳輸損失。換言之,只要確保信息的完整傳遞,形式上的差異就不再重要。這也是UniAD“模塊化端到端”的起源。這種端到端方法形式的轉(zhuǎn)變也可能為端到端算法的測試和驗(yàn)證等現(xiàn)有問題提供解決方案。
因此,我們可以相信,端到端和模塊化在形式上的區(qū)別將繼續(xù)減弱,但考慮到系統(tǒng)的安全性和魯棒性,一些成熟的模塊(如ADAS)將在實(shí)際應(yīng)用中長期保留。
通用人工智能與駕駛智能
最后,我們得出了AD領(lǐng)域長期存在的一個(gè)爭論:高度先進(jìn)的AGI對于實(shí)現(xiàn)最佳AD是否不可或缺?一方面,正如我們之前提到的,LLMs所擁有的常識(shí)和其他知識(shí)在執(zhí)行AD任務(wù)中發(fā)揮了重要作用。雖然我們還不能確定LLM是否是AGI的重要途徑點(diǎn),但它們在一定程度上滿足了人們對AGI的期望。應(yīng)用自然語言的能力使他們能夠有效地從龐大的人類語言語料庫中學(xué)習(xí),并以易于理解的方式與人類互動(dòng)。另一方面,人類的駕駛技能相對獨(dú)立。例如,一位經(jīng)驗(yàn)豐富的卡車司機(jī)可能沒有受過高等教育,而AD研究人員可能沒有駕照。這意味著通用人工智能不一定是最佳AD的唯一解決方案。
從理想主義的角度來看,構(gòu)建一個(gè)駕駛智能實(shí)體似乎更容易。我們距離AGI還有很長的路要走,而隨著大模型、世界模型等的成熟,駕駛智能更容易實(shí)現(xiàn)。如果我們能夠開發(fā)專門用于駕駛智能的算法,我們可能能夠解決更多與大型模型相關(guān)的問題。然而,實(shí)現(xiàn)這一目標(biāo)也帶來了許多挑戰(zhàn)。首先,最優(yōu)AD的定義仍然有些模糊。什么樣的駕駛策略可以被稱為最優(yōu),仍然是一個(gè)值得進(jìn)一步研究和討論的話題。此外,理想化最優(yōu)駕駛模型本身的實(shí)施也存在一些挑戰(zhàn)。例如,由于人類認(rèn)知的局限性,精確定義最佳駕駛所需的知識(shí)是具有挑戰(zhàn)性的。圖2從知識(shí)的角度說明了這一點(diǎn)。最佳駕駛所需的一些知識(shí)可能還沒有一種方法可以總結(jié),例如經(jīng)驗(yàn)豐富的駕駛員在關(guān)鍵情況下做出的直觀判斷。
另一方面,我們相信LLMs在不久的將來仍將是AGI類藥物的最佳形式之一。因此,LLM驅(qū)動(dòng)的AD仍將是一個(gè)值得注意的研究前沿。為了進(jìn)一步優(yōu)化LLM在AD任務(wù)中的應(yīng)用,我們認(rèn)為可以在以下領(lǐng)域進(jìn)行研究。首先,優(yōu)化LLM本身的結(jié)構(gòu),設(shè)計(jì)更有效的培訓(xùn)方法。與現(xiàn)有模型相比,這些改進(jìn)可以增強(qiáng)模型在推理、常識(shí)等方面的能力。此外,設(shè)計(jì)更好的結(jié)構(gòu)可以幫助減少微調(diào)和本地部署期間的計(jì)算功耗。這有助于在智能車輛中部署LLM,改善響應(yīng)時(shí)間長的問題,并降低應(yīng)用LLM的成本。此外,在AD和LLM的集成中可以進(jìn)行各種優(yōu)化。例如,在預(yù)訓(xùn)練階段引入更多與AD相關(guān)的數(shù)據(jù)。現(xiàn)有智能車輛的軟件和硬件結(jié)構(gòu)也可以進(jìn)行優(yōu)化,以支持LLM的系統(tǒng)級(jí)集成應(yīng)用。
總的來說,這個(gè)問題可能在很大程度上取決于人工智能技術(shù)的后續(xù)發(fā)展:通用人工智能的發(fā)展能否實(shí)現(xiàn)快速突破,或者駕駛智能模型能否更快地實(shí)現(xiàn)。我們認(rèn)為,在相當(dāng)長的一段時(shí)間內(nèi),這兩種方法都有其優(yōu)勢,將共存或相互備份,就像模塊化和端到端解決方案一樣。