何為交互感知?全面回顧自動(dòng)駕駛中的社會(huì)交互動(dòng)態(tài)模型與決策前沿!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
交互感知自動(dòng)駕駛(IAAD)是一個(gè)迅速發(fā)展的研究領(lǐng)域,專注于開(kāi)發(fā)能夠與人類道路使用者安全、高效交互的自動(dòng)駕駛車輛。這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)樗笞詣?dòng)駕駛車輛能夠理解和預(yù)測(cè)人類道路使用者的行為。在這份文獻(xiàn)綜述中,作者對(duì)IAAD研究的當(dāng)前狀態(tài)進(jìn)行了調(diào)研。從對(duì)術(shù)語(yǔ)的調(diào)研開(kāi)始,關(guān)注點(diǎn)集中在仿真駕駛員和行人行為的挑戰(zhàn)和現(xiàn)有模型上。接下來(lái),對(duì)用于交互建模的各種技術(shù)進(jìn)行了全面的回顧,涵蓋了認(rèn)知方法、機(jī)器學(xué)習(xí)方法和博弈論方法。通過(guò)討論與IAAD相關(guān)的潛在優(yōu)勢(shì)和風(fēng)險(xiǎn),以及對(duì)未來(lái)研究探索至關(guān)重要的關(guān)鍵問(wèn)題,最終得出結(jié)論。
交互感知介紹
近年來(lái),隨著機(jī)器人技術(shù)和機(jī)器學(xué)習(xí)的最新進(jìn)展,對(duì)自動(dòng)駕駛汽車技術(shù)的開(kāi)發(fā)越來(lái)越引起人們的興趣。這使得自動(dòng)駕駛工程師能夠開(kāi)發(fā)能夠解決自動(dòng)駕駛?cè)蝿?wù)復(fù)雜性的算法。自動(dòng)駕駛汽車有潛力提高交通質(zhì)量,減少交通事故,提高出行時(shí)間的質(zhì)量。如今,越來(lái)越多的自動(dòng)駕駛汽車被部署到現(xiàn)實(shí)世界中,與其他人類道路使用者共享環(huán)境。這引發(fā)了一些擔(dān)憂,即自動(dòng)駕駛汽車可能無(wú)法理解并與其他人類道路使用者順利交互,可能導(dǎo)致交通困境和安全問(wèn)題。為了以高效且安全的方式運(yùn)行,自動(dòng)駕駛汽車需要以類似于人類的方式行為,并生成考慮與其他人類道路使用者的交互的最優(yōu)行為。這對(duì)于減少潛在的交通沖突至關(guān)重要。例如,在十字路口謹(jǐn)慎但不必要的停車可能導(dǎo)致追尾事故。為了開(kāi)發(fā)全自動(dòng)駕駛汽車,需要在自動(dòng)駕駛汽車技術(shù)的許多方面取得進(jìn)展,包括感知、決策、規(guī)劃和控制。在預(yù)測(cè)周圍人類道路使用者的行為并相應(yīng)地為自動(dòng)駕駛汽車做出決策方面,與周圍人類道路使用者的交互變得越來(lái)越重要,因?yàn)樽詣?dòng)駕駛汽車的行為會(huì)影響他們的行為,反之亦然。
本文的目的是在自動(dòng)駕駛背景下,對(duì)交互感知運(yùn)動(dòng)規(guī)劃和決策的最新技術(shù)進(jìn)行詳盡調(diào)研。具體而言,文本首先涵蓋人類道路使用者行為模型,以突顯影響人類道路使用者在道路上做出決策的因素。駕駛員和行人行為模型對(duì)自動(dòng)駕駛汽車來(lái)說(shuō)有多重要是有原因的。首先,它們可用于評(píng)估和預(yù)測(cè)圍繞自動(dòng)駕駛汽車的道路使用者的行為。其次,它們可以幫助開(kāi)發(fā)類似于人類的自動(dòng)駕駛汽車行為。因此,它們既具有預(yù)測(cè)價(jià)值,又為模型/系統(tǒng)設(shè)計(jì)添加了相關(guān)的見(jiàn)解。
本綜述分為5個(gè)主要部分,涵蓋了交互感知自動(dòng)駕駛中的不同領(lǐng)域。第2節(jié)介紹了交互感知自動(dòng)駕駛中使用的術(shù)語(yǔ)。請(qǐng)參考下圖1,了解論文結(jié)構(gòu)的概覽。第3節(jié)將涵蓋影響人類駕駛決策的人因研究,以及行人行為研究。第4節(jié)廣泛概述和分類了用于交互建模的現(xiàn)有技術(shù)。最后,第5和第6節(jié)涵蓋了在交互場(chǎng)景中用于運(yùn)動(dòng)規(guī)劃和決策制定的最新技術(shù)。
雖然自動(dòng)駕駛近年來(lái)一直是一個(gè)活躍的研究領(lǐng)域,但大部分研究集中在僅涉及車輛的情景中。相對(duì)較少的工作涉及異構(gòu)場(chǎng)景,其中既包括車輛又包括行人。在本文中,焦點(diǎn)是異構(gòu)場(chǎng)景,但第5和第6節(jié)還將涵蓋處理沒(méi)有行人的場(chǎng)景的相關(guān)工作。這是因?yàn)檫@些論文中使用的技術(shù)可以輕松地適應(yīng)混合交通場(chǎng)景,或者它們可以為處理混合交通場(chǎng)景的一般問(wèn)題提供重要的見(jiàn)解。
交互感知自動(dòng)駕駛術(shù)語(yǔ)
在討論交互感知運(yùn)動(dòng)規(guī)劃和決策制定的最新進(jìn)展之前,本文首先定義了該領(lǐng)域中使用的一些術(shù)語(yǔ)。在自動(dòng)駕駛領(lǐng)域,術(shù)語(yǔ)"ego-vehicle"指的是要進(jìn)行控制和研究的特定車輛。所有其他占據(jù)環(huán)繞自車區(qū)域的車輛、騎行者、行人等,都被視為交互障礙物,并被稱為周圍交通參與者,參見(jiàn)下圖2a。由于道路交通不太可能在不久的將來(lái)變得完全自動(dòng)化,自動(dòng)駕駛汽車將不可避免地在與人類道路使用者(HRUs)混合的環(huán)境中運(yùn)行,例如人類駕駛員和行人。因此,交互感知自動(dòng)駕駛是一項(xiàng)研究領(lǐng)域,重點(diǎn)是開(kāi)發(fā)能夠安全有效地與周圍HRUs交互的自動(dòng)駕駛汽車。傳統(tǒng)的自動(dòng)駕駛方法通常將周圍HRUs視為動(dòng)態(tài)障礙物。然而,這并不是一種現(xiàn)實(shí)的方法,因?yàn)樗鼈儠?huì)不斷地改變它們的行為以適應(yīng)當(dāng)前情況。
通常,多個(gè)周圍HRUs可能在它們自己之間或與自車之間產(chǎn)生共享空間的沖突:這種情況可以合理地推斷兩個(gè)或兩個(gè)以上的道路使用者打算在不久的將來(lái)的相同空間區(qū)域內(nèi)占據(jù)相同的位置,見(jiàn)圖2b。參與沖突的道路使用者被認(rèn)為表現(xiàn)出交互行為,這意味著如果沒(méi)有空間共享沖突,他們的行為將會(huì)不同。此外,交互不一定涉及沖突。它可以是明確或隱含的溝通,表明道路使用者的意圖并影響HRUs。例如,駕駛員可以根據(jù)前方車輛的轉(zhuǎn)向燈信號(hào)制定駕駛策略,使自車和前方車輛不在同一車道,且在不久的將來(lái)不會(huì)發(fā)生沖突。因此,交互行為是指道路使用者的不同行為方式,以適應(yīng)他人的行為或請(qǐng)求對(duì)反應(yīng)進(jìn)行請(qǐng)求并采取行動(dòng)以實(shí)現(xiàn)他們期望的目標(biāo)。由于交互在駕駛時(shí)隨時(shí)發(fā)生,因此開(kāi)發(fā)的自動(dòng)駕駛汽車算法必須了解道路使用者之間的交互動(dòng)態(tài)。這樣的算法被稱為交互感知,通常是近期自動(dòng)駕駛研究的焦點(diǎn)。目前,安全且社會(huì)接受的交互感知自動(dòng)駕駛系統(tǒng)受到一些挑戰(zhàn)的制約。其中一個(gè)挑戰(zhàn)是缺乏關(guān)于HRUs如何交互的創(chuàng)新理論。這是一項(xiàng)困難的任務(wù),因?yàn)橐_(kāi)發(fā)的理論不僅限于預(yù)測(cè)和建模HRUs的行為,還包括探索行為模式及其基礎(chǔ)機(jī)制。將自動(dòng)駕駛汽車無(wú)縫整合到交通中,就如同人類一樣,需要更先進(jìn)的行為理論和模型。另一個(gè)挑戰(zhàn)是需要開(kāi)發(fā)能夠與其他HRUs安全有效地交互并產(chǎn)生符合人類標(biāo)準(zhǔn)的自動(dòng)駕駛汽車行為的算法。下圖3顯示了構(gòu)成自動(dòng)駕駛汽車系統(tǒng)的主要部分。傳感器的原始數(shù)據(jù)由感知模塊處理,該模塊檢測(cè)周圍環(huán)境并執(zhí)行定位,允許為自車生成達(dá)到目標(biāo)目的地的全局路線規(guī)劃。場(chǎng)景還可以進(jìn)行進(jìn)一步的解釋,并可以對(duì)周圍交通參與者的預(yù)測(cè)進(jìn)行操作。交互感知模型在預(yù)測(cè)任務(wù)中起著重要作用,因?yàn)榈缆肥褂谜邥?huì)影響彼此的軌跡和決策。
決策和路徑規(guī)劃是自動(dòng)駕駛中最重要的兩項(xiàng)任務(wù)之一。它們負(fù)責(zé)確定車輛如何在環(huán)境中移動(dòng)。決策是從一組可能的選項(xiàng)中選擇行動(dòng)的過(guò)程。例如,車輛可能需要決定是否變道、減速或停車。路徑規(guī)劃是生成車輛可跟隨的安全和可行軌跡的過(guò)程。決策和路徑規(guī)劃密切相關(guān)。決策過(guò)程通常輸出高層次的計(jì)劃,例如“向左變道”。然后,路徑規(guī)劃過(guò)程接受此計(jì)劃并生成車輛可以跟隨的詳細(xì)軌跡。這兩項(xiàng)任務(wù)都必須考慮車輛的當(dāng)前位置、車輛的能力和周圍的交通情況,這就是為什么交互感知模型對(duì)這兩項(xiàng)任務(wù)非常相關(guān)的原因。從控制系統(tǒng)的角度來(lái)看,車輛的動(dòng)態(tài)由其狀態(tài)表示,即位置和方向,以及它們的時(shí)間導(dǎo)數(shù)。環(huán)境的狀態(tài)由所有動(dòng)態(tài)和靜態(tài)實(shí)體的狀態(tài)決定。物理狀態(tài)空間還可以通過(guò)捕捉附加的潛在空間變量而得到擴(kuò)充,這些變量捕捉周圍用戶的意圖或行為偏好,這是場(chǎng)景理解系統(tǒng)的一部分。
人類行為研究與交互
本節(jié)綜合了關(guān)于HRUs(人類道路用戶)行為的實(shí)證和建模研究結(jié)果,包括與自動(dòng)駕駛汽車或傳統(tǒng)車輛交互的人類駕駛員和行人,尤其是從溝通角度來(lái)看。焦點(diǎn)是研究涉及道路交互的內(nèi)容,旨在發(fā)現(xiàn)可能促進(jìn)交互感知自動(dòng)駕駛汽車開(kāi)發(fā)的見(jiàn)解。此處超出本文范圍的研究還包括宏觀交通條件的影響,如路徑選擇、天氣或法規(guī)等。
駕駛員行為研究
駕駛員行為模型用于預(yù)測(cè)和了解駕駛員在不同駕駛場(chǎng)景中的行為方式。這些模型可用于改善交通系統(tǒng)的安全性和效率,并有助于自動(dòng)駕駛汽車的設(shè)計(jì)過(guò)程。許多因素可能影響駕駛行為,包括個(gè)體特征(年齡、性別、個(gè)性、經(jīng)驗(yàn))、環(huán)境因素,即道路和天氣條件,以及社會(huì)因素,包括駕駛員與HRUs的交互。這里將重點(diǎn)放在與車輛-行人交互相關(guān)的DBM上。
最常見(jiàn)的駕駛員行為模型包括:
- 駕駛員風(fēng)險(xiǎn)場(chǎng)模型:(下圖4a)該模型預(yù)測(cè)駕駛員在不同駕駛情況下如何感知風(fēng)險(xiǎn)。DRF模型的基礎(chǔ)理念是駕駛員基于對(duì)風(fēng)險(xiǎn)的感知做出決策。[16] 的研究結(jié)果表明,駕駛行為受到成本函數(shù)的控制,該函數(shù)考慮到噪聲對(duì)人類感知和行為的影響。自動(dòng)駕駛汽車上的風(fēng)險(xiǎn)感知也在 [19]中進(jìn)行了分析,該研究采用了駕駛仿真場(chǎng)景。
- 基于理論的:(下圖4b)感知和認(rèn)知模型?;诟兄畔⒌哪P透鶕?jù)感知線索(如距離、車速、加速度、擴(kuò)展角、反應(yīng)時(shí)間等)描述駕駛員行為。認(rèn)知模型概述了駕駛員作為心理人類的內(nèi)部狀態(tài)流和調(diào)節(jié)其行為的動(dòng)機(jī)。
- 數(shù)據(jù)驅(qū)動(dòng)模型:(下圖4c)這組方法依賴于使用機(jī)器學(xué)習(xí)分析自然駕駛數(shù)據(jù)來(lái)分析駕駛員行為。數(shù)據(jù)驅(qū)動(dòng)模型可以學(xué)習(xí)人類行為的生成或判別模型,以對(duì)駕駛員未來(lái)的決策或首選駕駛風(fēng)格進(jìn)行預(yù)測(cè)。模型驗(yàn)證可以通過(guò)將預(yù)測(cè)與實(shí)際數(shù)據(jù)進(jìn)行比較以及通過(guò)人在環(huán)仿真來(lái)完成。
現(xiàn)有研究通過(guò)自然駕駛數(shù)據(jù)分析突顯了駕駛員在行人存在的情況下的行為。[24]的作者發(fā)現(xiàn)在超越沿車道行走的行人、超越相反方向行走的行人或當(dāng)對(duì)向交通存在時(shí),駕駛員傾向于保持較小的最小橫向間隙和較低的超車速度。最小橫向間隙和時(shí)間-碰撞的關(guān)系與超車速度僅有弱相關(guān)。[25]中的結(jié)果顯示,車輛減速行為與初始時(shí)間到碰撞(TTC)、對(duì)行人過(guò)馬路意圖的主觀判斷、車速、行人位置和過(guò)馬路方向相關(guān)。
較少關(guān)注多道路使用者設(shè)置,其中多輛車和行人相互作用。在[26]中,作者基于在路口收集的數(shù)據(jù)開(kāi)發(fā)了一個(gè)多道路使用者對(duì)抗逆強(qiáng)化學(xué)習(xí)(IRL)框架,以仿真路口的駕駛員和行人行為??傮w而言,DBM是一個(gè)有前途的研究領(lǐng)域,有望顯著改進(jìn)交通系統(tǒng)的安全性和效率。然而,仍然需要在開(kāi)發(fā)和驗(yàn)證這些模型方面進(jìn)行大量工作。未來(lái)的研究應(yīng)著重于開(kāi)發(fā)更全面的模型,考慮到更廣泛的因素,如駕駛員的內(nèi)部狀態(tài)、環(huán)境和與其他HRU的交互。
行人行為研究
由于行人被認(rèn)為是最脆弱的道路使用者,缺乏保護(hù)裝備且移動(dòng)速度較慢,因此調(diào)研行人行為與自動(dòng)駕駛汽車與行人交互對(duì)安全性和可接受性具有明顯的相關(guān)性。幾十年來(lái),行人行為一直是廣泛研究的對(duì)象。自動(dòng)駕駛汽車的出現(xiàn)最近引發(fā)了許多關(guān)于行人行為的新研究問(wèn)題。鑒于這個(gè)領(lǐng)域的大量工作以及作者的目標(biāo),本節(jié)調(diào)研了主要的研究而不是提供詳盡的調(diào)研。綜述涵蓋了與車輛交互的行人行為研究,從三個(gè)角度進(jìn)行:溝通、橫穿行為的理論和模型,以及涉及自動(dòng)駕駛汽車的應(yīng)用。旨在確定和總結(jié)它們對(duì)開(kāi)發(fā)具有交互感知能力的自動(dòng)駕駛汽車的價(jià)值。
通信
在動(dòng)態(tài)交通環(huán)境中,道路用戶通過(guò)其運(yùn)動(dòng)和空間暗示向彼此故意或無(wú)意地傳遞信號(hào)信息,產(chǎn)生了明確和隱含的交流。研究結(jié)果一致認(rèn)為,由于缺乏駕駛員角色,自動(dòng)駕駛汽車的運(yùn)動(dòng)學(xué)和信號(hào)信息對(duì)行人道路行為產(chǎn)生了顯著影響。因此,識(shí)別影響行人道路行為的關(guān)鍵動(dòng)作提示和信號(hào)的研究具有重要意義(見(jiàn)下圖5a)。
隱含的溝通信號(hào),如車輛的運(yùn)動(dòng)線索,涉及到影響其自身運(yùn)動(dòng)的道路用戶行為,但可以被解釋為另一道路用戶的意圖或運(yùn)動(dòng)的線索。接近的車輛與行人之間的距離或TTC是影響行人行為的最關(guān)鍵的隱含信息。證據(jù)表明,行人更傾向于更多地依賴距離而不是TTC。也就是說(shuō),對(duì)于相同的TTC,當(dāng)車輛以較高的速度接近時(shí),更多情況下,行人會(huì)過(guò)馬路。最近的研究表明,行人利用了來(lái)自車輛運(yùn)動(dòng)的多個(gè)信息源,而不是依賴于一個(gè)。速度、距離和TTC對(duì)行人行為的影響是相互耦合的。
剎車動(dòng)作,是影響行人行為的另一個(gè)關(guān)鍵的隱含信息。車輛的運(yùn)動(dòng)與行人對(duì)車輛的信任、情感和對(duì)行人決策的影響相關(guān)。當(dāng)接近的車輛早早減速并輕剎車時(shí),行人感到舒適,開(kāi)始迅速過(guò)馬路。急剎車導(dǎo)致行人回避行為。另一方面,早期的剎車動(dòng)作和強(qiáng)烈的俯仰減少了行人理解車輛意圖所需的時(shí)間。以較慢的速度接近行人且禮讓的車輛可能阻礙理解。
交通特征 ,如交通量和間隙大小,為行人提供了隱含信息。高交通量迫使行人接受較小的交通間隙,因?yàn)闀r(shí)間成本的增加,增加了他們冒險(xiǎn)的傾向。然而,大量證據(jù)表明,傾向等待的行人更為謹(jǐn)慎,不太可能接受冒險(xiǎn)的間隙。交通量和行人過(guò)馬路行為之間的關(guān)系依賴于上下文,可能受到交通中間隙的大小和順序的影響。
此外,行人朝著道路的移動(dòng)、站在路邊和行人頭部方向可能向接近的車輛傳遞關(guān)鍵的隱含信息。行人通常通過(guò)踏上道路或看向接近的車輛來(lái)主張他們的通行權(quán)。
明確的溝通信號(hào) 涉及道路用戶的行為,向其他道路用戶傳遞信號(hào)信息,而不影響自己的運(yùn)動(dòng)或感知。一個(gè)常見(jiàn)情況是車輛通過(guò)外部人機(jī)界面(eHMI)向行人傳遞信息。在自動(dòng)駕駛汽車的背景下,沒(méi)有人類駕駛員,eHMI變得很重要。大量證據(jù)支持了eHMI在行人與自動(dòng)駕駛汽車的交互中的益處。已經(jīng)提出了各種類型的eHMI原型,如車頭燈、燈帶、擬人符號(hào),但對(duì)于最佳eHMI形式和要傳達(dá)的信息的共識(shí)仍然難以確定。
許多研究表明,eHMI的性能取決于各種因素。行人對(duì)eHMI的熟悉程度、信任和解釋可能會(huì)顯著影響eHMI向行人傳達(dá)信息的有效性。例如,行人更好地理解傳統(tǒng)的eHMI(閃爍的大燈)作為車輛讓行的信號(hào),而不是新穎的eHMI(燈帶)。如果eHMI失效,行人過(guò)度信任eHMI可能導(dǎo)致他們對(duì)車輛運(yùn)動(dòng)線索過(guò)于依賴,這是危險(xiǎn)的。eHMI傳遞的以自我為中心的信息,如“OK TO CROSS”,比分配給他人的信息如“STOPPING”更具有說(shuō)服力。此外,eHMI的可靠性受到天氣、光照條件和車輛行為的影響。例如,在惡劣天氣下,行人可能無(wú)法讀取車輛標(biāo)志。當(dāng)車輛不讓行或急劇減速時(shí),行人愿意過(guò)馬路的意愿不受eHMI的影響。其他概念,如將eHMI安裝在道路基礎(chǔ)設(shè)施上而不是車輛上,以及將eHMI與車輛運(yùn)動(dòng)線索結(jié)合使用,可能勝過(guò)純粹的eHMI。
此外,從車輛的角度來(lái)看,雖然較少見(jiàn),行人也使用明確的信號(hào)與自動(dòng)駕駛汽車進(jìn)行交流。這些信號(hào)包括眼神接觸和手勢(shì),行人用這些信號(hào)確保自動(dòng)駕駛汽車能看到他們并請(qǐng)求通行權(quán)。為了彌補(bǔ)沒(méi)有人類駕駛員的缺陷,自動(dòng)駕駛汽車可以利用駕駛座位上的類人視覺(jué)化身和無(wú)線通信技術(shù),以增強(qiáng)車輛與行人的溝通。
橫穿行為的理論和模型
行人橫穿行為涉及各種認(rèn)知過(guò)程。先前的研究表明,在交互中構(gòu)建行人橫穿行為涉及三個(gè)層次的過(guò)程,即感知、決策、開(kāi)始和運(yùn)動(dòng)。基于這一假設(shè),以下各節(jié)將綜合有關(guān)這三個(gè)認(rèn)知過(guò)程的行人橫穿行為的理論和模型(見(jiàn)圖5b)。
視覺(jué)感知理論,由吉布森(Gibson)奠定,解釋了當(dāng)物體接近觀察者時(shí),其在視網(wǎng)膜上的圖像會(huì)擴(kuò)展,形成人類碰撞感知的基礎(chǔ)。在橫越場(chǎng)景中,當(dāng)車輛在視網(wǎng)膜上的圖像擴(kuò)展速率達(dá)到一定閾值時(shí),行人會(huì)感知到車輛正在靠近,這被稱為視覺(jué)逼近現(xiàn)象。一個(gè)心理物理模型將這種擴(kuò)展速率簡(jiǎn)化為逼近行人瞳孔處的車輛形成的視覺(jué)角度變化,表示為 ?θ(圖6a)。最近的研究表明,行人使用 ?θ 作為觀察逼近車輛的關(guān)鍵視覺(jué)線索。然而,雖然 ?θ 提供了空間信息,但它并不傳達(dá)車輛何時(shí)到達(dá)行人的位置。在橫越場(chǎng)景中,當(dāng)車輛禮讓時(shí),行人需要時(shí)間信息來(lái)估計(jì)車輛是否能及時(shí)停下。Lee的數(shù)學(xué)演示表明,表示為 θ 與 ?θ 比值的視覺(jué)線索 τ 可能指示接近車輛的TTC。此外,τ 的第一時(shí)間導(dǎo)數(shù),表示為 ?τ,用于檢測(cè)當(dāng)前減速率是否足以避免碰撞。此外,研究發(fā)現(xiàn),在給定角度下,即方位角,行人可能會(huì)視覺(jué)感知即將發(fā)生的碰撞事件,方位角是車輛與行人注視線之間的角度(圖6b)。
除了視覺(jué)線索外,行人的感知可能取決于感知策略。田等人的研究表明,對(duì)車輛行為的行人估計(jì)可能是一個(gè)單獨(dú)的過(guò)程或橫穿決策的一個(gè)子過(guò)程。當(dāng)有較大的交通間隙時(shí),行人傾向于不依賴車輛駕駛行為,而更依賴間隙大小。同樣,Delucia 指出,當(dāng)碰撞事件距離較遠(yuǎn)時(shí),人類傾向于使用'啟發(fā)式'視覺(jué)線索,如θ和 ?θ。然而,隨著碰撞變得迫在眉睫,光學(xué)不變量如τ支配感知,提供更豐富的時(shí)空信息。
除了感知機(jī)制,各種因素可能影響行人的感知。研究表明,由于與年齡相關(guān)的感知限制,老年人或兒童行人面臨較高的碰撞風(fēng)險(xiǎn)。老年行人更傾向于更多地依賴距離而不是TTC來(lái)判斷靠近的車輛,而兒童難以檢測(cè)以較高速度靠近的車輛。分心,特別是涉及視覺(jué)和手動(dòng)部位(如使用智能手機(jī))的分心,會(huì)分散大量的注意資源,并影響行人觀察交通狀況。相比之下,認(rèn)知分心,比如聽(tīng)音樂(lè),可能不會(huì)顯著影響行人的感知。
決策 在沒(méi)有信號(hào)燈的無(wú)控制交叉口,行人通常會(huì)與讓行或不讓行的車輛進(jìn)行交互。在不讓行的情況下,行人通常通過(guò)評(píng)估靠近車輛之間的間隔來(lái)做出橫穿決策,這被稱為間隙接受行為(GA)。這一概念導(dǎo)致了關(guān)鍵間隙模型的發(fā)展,包括Raff的模型、HCM2010的模型和Rasouli的模型。另外,二元logit模型將橫穿決策視為二元變量,利用人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)和邏輯回歸(LR)等機(jī)器學(xué)習(xí)算法。例如,Kadali等人使用ANN根據(jù)各種獨(dú)立變量(圖6c)預(yù)測(cè)橫穿決策,而Sun等人使用LR與諸如行人年齡、性別、組大小和車輛類型的變量。
在涉及讓行車輛的場(chǎng)景中,橫穿決策往往遵循一個(gè)稱為雙峰橫穿行為(BC)的雙峰模式。當(dāng)交通間隙足夠大或車輛即將停車時(shí),行人更傾向于橫穿。然而,在這種情況下做出決策可能是具有挑戰(zhàn)性的,因?yàn)闆Q策線索與碰撞風(fēng)險(xiǎn)之間存在對(duì)立關(guān)系,碰撞風(fēng)險(xiǎn)與交通間隙呈負(fù)相關(guān),與車輛速度呈正相關(guān)。Zhu等人根據(jù)車輛速度和距離將橫穿決策分為三組:橫穿、困境條件和等待(圖6d)。此外,田等人假設(shè)行人根據(jù)BC行為采用不同的決策策略,并將橫穿決策建模為對(duì)不同視覺(jué)線索的響應(yīng)。
雖然上述方法是基于觀察到的行為模式來(lái)仿真橫穿決策,其他模型則深入研究了支撐這些決策的心理機(jī)制。具體而言,田等人基于行人的視覺(jué)線索仿真了行人的GA行為,并在具有更復(fù)雜的視覺(jué)感知機(jī)制的讓行場(chǎng)景中進(jìn)行了擴(kuò)展。王等人利用強(qiáng)化學(xué)習(xí)(RL)模型捕捉了基于有限感知機(jī)制的行人橫穿行為。此外,一類模型,即證據(jù)積累(EA)模型,如漂移擴(kuò)散模型,提出橫穿決策是由視覺(jué)證據(jù)和噪聲的積累決定的,一旦達(dá)到一定閾值,決策就確定了。整合了大規(guī)模的心理理論,詳細(xì)解釋了行人橫穿決策(圖6e)。此外,博弈論也被應(yīng)用于在行人與車輛協(xié)商通行權(quán)時(shí)仿真橫穿決策。傳統(tǒng)的博弈論、序列雞(SC)博弈和雙累積器(DA)博弈被用來(lái)表征動(dòng)態(tài)橫穿決策。
環(huán)境的多樣性和行人的異質(zhì)性進(jìn)一步復(fù)雜化了橫穿決策建模。例如,橫穿多條車道通常涉及行人在車道線等待并逐個(gè)接受交通間隙,被稱為滾動(dòng)間隙行為。在車道線等待的行人可能更有可能接受較小的交通間隙,而在路緣等待的行人可能不太可能接受。另一個(gè)復(fù)雜的場(chǎng)景是橫穿雙向道路,這在物理上和認(rèn)知上都是具有挑戰(zhàn)性的。行人需要考慮兩邊的車輛。同樣,在交叉口處穿越擁擠的連續(xù)交通也是具有挑戰(zhàn)性的,因?yàn)樾腥诵枰A(yù)測(cè)交通上游的交叉間隙,并在安全性和時(shí)間效率之間做出權(quán)衡。通常認(rèn)為,隨著等待時(shí)間的增加,行人傾向于接受更冒險(xiǎn)的橫穿機(jī)會(huì)。然而,最新的證據(jù)表明,傾向等待的行人更為謹(jǐn)慎,不太可能接受冒險(xiǎn)的間隙。關(guān)于行人的異質(zhì)性,應(yīng)用ANN和LR模型來(lái)表征年齡對(duì)橫穿決策的影響。分心,如手機(jī)使用,也可能影響行人的橫穿決策。應(yīng)用ANN來(lái)仿真手機(jī)使用對(duì)橫穿決策的影響。此外,行人通常成群過(guò)馬路,展示出群體行為。該行為被描述為群體成員保持與群體中心一定距離的趨勢(shì)。使用EA模型來(lái)表征群體決策中信息級(jí)聯(lián),考慮了先前道路使用者的決策的影響。
開(kāi)始和運(yùn)動(dòng) 橫穿啟動(dòng)時(shí)間(CIT)代表行人開(kāi)始過(guò)馬路所需的時(shí)間,反映了他們決策的動(dòng)態(tài)特性。一般來(lái)說(shuō),CIT是橫穿機(jī)會(huì)可用時(shí)和行人開(kāi)始移動(dòng)之間的持續(xù)時(shí)間。漂移擴(kuò)散理論認(rèn)為CIT受認(rèn)知系統(tǒng)中噪聲證據(jù)的積累影響,反映了行人認(rèn)知和運(yùn)動(dòng)系統(tǒng)的效率。各種因素可能影響CIT,包括車輛運(yùn)動(dòng)、年齡、性別和分心。面對(duì)更高的車速,行人傾向于更慢地開(kāi)始橫穿。此外,女性行人傾向于比男性更快地開(kāi)始橫穿,老年人傾向于比年輕行人更早開(kāi)始。分心的影響取決于其組成部分。
在行人面對(duì)不讓行車輛的情況下,隨著車輛與行人之間距離的減小,碰撞的風(fēng)險(xiǎn)增加。因此,行人通常通過(guò)評(píng)估靠近車輛的“snapshots”來(lái)迅速做出決策。在這些情況下,CIT的分布通常是集中且右偏的。響應(yīng)時(shí)間模型,如指數(shù)高斯模型和偏移瓦爾德(SW)分布,被用來(lái)仿真這些情況下的CIT。例如,將CIT建模為遵循SW分布的變量(下面圖7a)。
在車輛讓行場(chǎng)景中,如前節(jié)所述,CIT表現(xiàn)為雙峰分布。對(duì)于早期的CIT組,分布類似于不讓行場(chǎng)景中的分布,因?yàn)樾腥瞬捎孟嗨频臎Q策策略。然而,對(duì)于晚期組,分布是復(fù)雜的,不能用標(biāo)準(zhǔn)的響應(yīng)時(shí)間分布來(lái)描述。已經(jīng)提出了具有時(shí)變證據(jù)的EA模型來(lái)解決這種復(fù)雜性,允許生成具有復(fù)雜形狀的CIT分布(下面圖7b)。此外,使用響應(yīng)時(shí)間模型的聯(lián)合分布對(duì)車輛讓行場(chǎng)景中的CIT進(jìn)行建模。此外,應(yīng)用RL模型來(lái)學(xué)習(xí)行人的橫穿啟動(dòng)模式。
在行人啟動(dòng)橫穿后,他們需要穿過(guò)道路。步行是橫穿行為的關(guān)鍵部分,受到許多因素的影響,如靠近車輛的存在、基礎(chǔ)設(shè)施、行人年齡和分心。行人調(diào)整其行走軌跡以避讓車輛。在多車道橫穿中,他們傾向于移動(dòng)到并等待在車道線上,依次接受每個(gè)車道的交通間隙。橫穿時(shí),行人的行走速度通常比其他場(chǎng)景中的正常行走速度要快。雖然性別對(duì)行走速度沒(méi)有顯著影響,但青少年和老年人的步行速度較慢。分心,如使用手機(jī),可能會(huì)降低行人的步行速度。
行為可以使用微觀行人運(yùn)動(dòng)模型來(lái)仿真,包括元胞自動(dòng)機(jī)(CA)模型、社會(huì)力(SF)模型和基于學(xué)習(xí)的方法。CA模型在空間、時(shí)間和狀態(tài)上是離散的,使其成為仿真復(fù)雜動(dòng)態(tài)系統(tǒng)(如行人-車輛相互作用)的理想選擇?;谂nD第二定律的SF模型被用于仿真行人-車輛相互作用和大規(guī)模行人流(下面圖7c)。使用SF模型仿真了在涉及低速車輛的復(fù)雜交互場(chǎng)景中的行人群體的橫穿行為。
與上述白盒模型相對(duì),還有基于學(xué)習(xí)方法的黑盒模型,它們從自然數(shù)據(jù)集或預(yù)定義環(huán)境中學(xué)習(xí)行人行走行為。例如,采用人工神經(jīng)網(wǎng)絡(luò)(ANN)通過(guò)將視頻中提取的行人與其他物體之間的相對(duì)空間和運(yùn)動(dòng)關(guān)系納入考慮來(lái)學(xué)習(xí)行人的行走行為。將SF模型的輸出作為輸入輸入到ANN中,以仿真多種行人行走行為。提出了一種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)行人軌跡預(yù)測(cè)模型(下面圖7d)。此外,RL和IRL模型也被用于仿真行人的行走行為。應(yīng)用RL模型學(xué)習(xí)在SF環(huán)境中多個(gè)行人的行走行為。開(kāi)發(fā)了一種IRL模型,從視頻數(shù)據(jù)集中學(xué)習(xí)行人的行走行為。
自動(dòng)駕駛汽車涉及的應(yīng)用
近年來(lái),研究自動(dòng)駕駛汽車與行人之間的交互關(guān)系的興趣逐漸增長(zhǎng)。這種興趣導(dǎo)致了大量研究,將行人橫穿行為的理論和模型應(yīng)用于增強(qiáng)或評(píng)估自動(dòng)駕駛汽車在這些交互中的性能(下表2)。
一種普遍的方法是使用基于學(xué)習(xí)的方法,該方法從現(xiàn)實(shí)世界的數(shù)據(jù)集中學(xué)習(xí)行人的意圖和軌跡,以幫助自動(dòng)駕駛汽車的決策制定。例如,提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的行人軌跡預(yù)測(cè)模型,該模型考慮了過(guò)去的行人軌跡,以預(yù)測(cè)自動(dòng)駕駛汽車使用案例的確定性和概率性未來(lái)軌跡。其他類似的模型旨在通過(guò)考慮交互的社會(huì)背景來(lái)提高預(yù)測(cè)準(zhǔn)確性。例如,提出了一種LSTM行人軌跡預(yù)測(cè)模型,該模型考慮了過(guò)去的軌跡、行人頭部方向和與靠近車輛的距離作為輸入。此外,還有研究旨在預(yù)測(cè)行人橫穿意圖。分別應(yīng)用SVM、LSTM和ANN來(lái)預(yù)測(cè)行人的橫穿意圖。
學(xué)習(xí)方法在預(yù)測(cè)行人軌跡和意圖方面已經(jīng)證明是有效的。然而,這些模型需要大量的數(shù)據(jù)才能獲得強(qiáng)大的性能,在處理缺乏足夠數(shù)據(jù)的交互案例時(shí)受到限制。此外,這些模型的黑盒性質(zhì)可能使得難以解釋生成的軌跡和意圖,這對(duì)自動(dòng)駕駛汽車的決策建模構(gòu)成了挑戰(zhàn)。為了解決這些問(wèn)題,專家模型已經(jīng)被開(kāi)發(fā)出來(lái)。例如,SF模型已經(jīng)被修改以通過(guò)納入更多的交互細(xì)節(jié)(如TTC和車輛與行人之間的交互角度)來(lái)預(yù)測(cè)自動(dòng)駕駛汽車的行人軌跡。此外,SF和CA模型還嵌入到自動(dòng)駕駛汽車決策模塊中,以表示行人橫穿行為并指導(dǎo)自動(dòng)駕駛汽車在與行人的交互中的決策。
此外,橫穿決策模型也已應(yīng)用于自動(dòng)駕駛汽車研究。例如,采用了橫穿關(guān)鍵間隙模型來(lái)表征其自動(dòng)駕駛汽車決策模塊中的行人橫穿決策。將其速度-距離模型應(yīng)用于為自動(dòng)駕駛汽車設(shè)計(jì)防御性和競(jìng)爭(zhēng)性的交互行為。在其提出的自動(dòng)駕駛汽車決策模塊中使用LR模型作為行人橫穿決策模型。為了增強(qiáng)橫穿決策的動(dòng)態(tài)和交互性質(zhì),還使用博弈論模型來(lái)仿真在與自動(dòng)駕駛汽車協(xié)商讓行權(quán)利時(shí)的橫穿決策。研究人員還嘗試使用行人感知理論或模型來(lái)設(shè)計(jì)自動(dòng)駕駛汽車的決策策略。例如,使用控制理論基于視覺(jué)線索、τ和方位角仿真了自動(dòng)駕駛汽車-行人耦合行為。用方位角對(duì)自動(dòng)駕駛汽車和行人的讓行行為進(jìn)行建模。
交互建模
交互建模技術(shù)對(duì)各種自動(dòng)駕駛?cè)蝿?wù)都至關(guān)重要,從交通預(yù)測(cè)到自動(dòng)駕駛規(guī)劃和決策。在自動(dòng)駕駛中理解和建模社交交互對(duì)于預(yù)測(cè)場(chǎng)景動(dòng)態(tài)并確保安全的自動(dòng)駕駛行為至關(guān)重要。準(zhǔn)確的預(yù)測(cè)提高安全性,而誤解的自動(dòng)駕駛行為可能導(dǎo)致事故。此外,理解自動(dòng)駕駛行為的社會(huì)影響還可以影響周圍的交通,比如通過(guò)提前停車來(lái)鼓勵(lì)行人過(guò)馬路。由于交互建模技術(shù)可以應(yīng)用于不同的任務(wù)領(lǐng)域,因此作者將重點(diǎn)放在無(wú)論它們被設(shè)計(jì)用于哪種具體駕駛?cè)蝿?wù),都將其劃分為不同的交互建模技術(shù)。
首先,可以在學(xué)習(xí)方法和基于模型的方法之間進(jìn)行區(qū)分。在自動(dòng)駕駛領(lǐng)域進(jìn)行了廣泛的研究,利用了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)。在學(xué)習(xí)方法中,從大量數(shù)據(jù)集中學(xué)習(xí)模型。這一系列方法不需要對(duì)系統(tǒng)有任何先驗(yàn)知識(shí)。數(shù)據(jù)驅(qū)動(dòng)方法是在示例數(shù)據(jù)集上訓(xùn)練的,然后用于進(jìn)行預(yù)測(cè)或決策。相反,基于模型的方法從對(duì)系統(tǒng)的理論理解開(kāi)始。這種先驗(yàn)知識(shí)用于創(chuàng)建系統(tǒng)的數(shù)學(xué)模型。然后使用經(jīng)驗(yàn)數(shù)據(jù)來(lái)驗(yàn)證模型或調(diào)整其參數(shù),以最小化模型預(yù)測(cè)與數(shù)據(jù)之間的差異。
基于另一個(gè)區(qū)分是方法是否明確利用人類思維的認(rèn)知特征來(lái)解釋人類行為,或者只是隱含地仿真交互,試圖將環(huán)境輸入映射到?jīng)Q策/行為。第三節(jié)介紹的人類行為研究可以作為發(fā)展明確方法的指南。例如,博弈論方法采用更明確的方法,將交通參與者視為理性的道路使用者商,他們積極考慮彼此的行動(dòng)。另一方面,作為非認(rèn)知方法的示例,社交力方法提供了更經(jīng)驗(yàn)主義的觀點(diǎn),捕捉參與者對(duì)彼此行為的影響,而不明確詳細(xì)說(shuō)明解釋道路使用者商在交互期間的推理的過(guò)程。作者建議根據(jù)它們是否明確地或隱含地仿真交互來(lái)區(qū)分現(xiàn)有的建模方法。
根據(jù)這兩個(gè)標(biāo)準(zhǔn),作者確定了四大交互建模類別,它們?nèi)缦聢D8所示。
基于學(xué)習(xí)的隱式方法
這些方法依賴于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù)。交互是隱式建模的,這意味著道路使用者的行為無(wú)法通過(guò)模型解釋。模型只從數(shù)據(jù)中學(xué)習(xí)輸入-輸出映射。模型學(xué)習(xí)可以通過(guò)利用交互式模型架構(gòu)來(lái)實(shí)現(xiàn)。一般來(lái)說(shuō),使用專門用于交互的神經(jīng)網(wǎng)絡(luò)架構(gòu)的深度學(xué)習(xí)方法屬于這個(gè)類別。
在這種類型的方法中,目標(biāo)是學(xué)習(xí)一個(gè)概率生成模型,該模型預(yù)測(cè)道路使用者的未來(lái)行為a。該模型是在環(huán)境狀態(tài)x的條件下的概率分布,其中包括周圍道路使用者的狀態(tài),以及一組可學(xué)習(xí)的參數(shù)θ。
基于學(xué)習(xí)的帶認(rèn)知特征的方法
這些方法依賴于明確手工制作的交互特征,這些特征被用作學(xué)習(xí)系統(tǒng)的輸入。這種類型的交互特征可以包括時(shí)間間隔(TTC),相對(duì)距離等,反映了人類推理背后的某些認(rèn)知過(guò)程。例如,在中,開(kāi)發(fā)了一種利用車輛間交互的LSTM,用于分類周圍車輛的變道意圖。交互特征由風(fēng)險(xiǎn)矩陣組成,該矩陣考慮了周圍車道中車輛的最壞情況TTC和相對(duì)距離。圖卷積網(wǎng)絡(luò)也屬于這一類別,因?yàn)榻换ヌ卣骺梢栽趫D的鄰接矩陣中明確建模。
在這種類型的方法中,目標(biāo)是學(xué)習(xí)一個(gè)概率生成模型,該模型類似于1中預(yù)測(cè)道路使用者的未來(lái)行為。在這種情況下,概率分布可以在環(huán)境狀態(tài)x和明確手工制作的交互特征I(x)的條件下。
基于模型的非認(rèn)知方法
這些方法中的建模是非認(rèn)知的,因?yàn)榻换ゲ粫?huì)主動(dòng)推理出道路使用者行為背后的認(rèn)知過(guò)程。該組方法包括社交力和勢(shì)場(chǎng)。交互通過(guò)潛在函數(shù)(或SF)來(lái)描述,其中包含一組可學(xué)習(xí)的參數(shù),這些參數(shù)可以根據(jù)經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行調(diào)整。另一組方法包括基于駕駛風(fēng)險(xiǎn)場(chǎng)的方法,這些方法基于這樣一個(gè)假設(shè),即駕駛員行為是由基于風(fēng)險(xiǎn)的場(chǎng)域引起的?;谀P偷碾[式方法的優(yōu)勢(shì)在于它們可以很容易解釋,并且可以嵌入領(lǐng)域知識(shí),比如交通規(guī)則和場(chǎng)景背景。一些模型定義了一個(gè)潛在場(chǎng),并將道路使用者的動(dòng)作定義為與該場(chǎng)的梯度成正比。
否則,可以直接對(duì)力進(jìn)行建模,從而不需要梯度運(yùn)算a∝F*(*x)。
基于模型的認(rèn)知方法
基于模型的認(rèn)知方法描述了人類決策背后的推理過(guò)程??梢詤^(qū)分為兩類主要方法:效用最大化模型和認(rèn)知模型。
在效用最大化方法中,人類被建模為優(yōu)化器,選擇其行動(dòng)以最大化其未來(lái)效用。
這些方法包括博弈論和馬爾可夫決策過(guò)程(MDP)。在博弈論方法中,道路使用者被建模為相互競(jìng)爭(zhēng)或合作的玩家,從而考慮到他們?nèi)绾螌?duì)彼此的反應(yīng)。博弈論框架為建模人類駕駛員之間的動(dòng)態(tài)交互提供了透明且明確的解決方案,允許對(duì)決策過(guò)程進(jìn)行清晰的解釋。然而,由于這種方法在道路使用者數(shù)量增加時(shí)計(jì)算復(fù)雜性不好處理,因此很難滿足計(jì)算可處理性的要求。另一個(gè)可能的解決方案是將人類行為建模為MDP的道路使用者,這為在結(jié)果受到機(jī)會(huì)和決策者決策影響的情況下建模決策提供了出色的框架。MDPs的解決方案可以通過(guò)學(xué)習(xí)方法找到,例如DRL算法或蒙特卡洛樹(shù)搜索,或者使用動(dòng)態(tài)規(guī)劃技術(shù)。
第二組方法旨在使用心理認(rèn)知過(guò)程捕獲道路使用者行為背后的行為動(dòng)機(jī)。這組方法可以包括:
- 刺激-響應(yīng)模型,其中駕駛員或行人的行為取決于視網(wǎng)膜上的視覺(jué)刺激;
- 證據(jù)積累,其中決策被描述為累積證據(jù)的結(jié)果;
- 心靈理論,它表明人類使用對(duì)他人思想和行為的理解來(lái)做出決策。通過(guò)預(yù)測(cè)他人的行動(dòng)并推斷他們的知識(shí),人類可以有效而安全地駕駛。
在接下來(lái)的部分,將更詳細(xì)地分析每個(gè)類別的交互建模。特別是,認(rèn)知和非認(rèn)知學(xué)習(xí)方法將在下一節(jié)中討論?;谀P偷恼J(rèn)知方法已在第前面章節(jié)中進(jìn)行了詳細(xì)討論,其中包括社交力和勢(shì)場(chǎng)、駕駛風(fēng)險(xiǎn)場(chǎng)模型、心靈理論、刺激-響應(yīng)模型和證據(jù)積累模型。后面章節(jié)將包括效用模型方法,其中包括MDP和博弈論。
基于學(xué)習(xí)的方法
機(jī)器學(xué)習(xí)(ML)方法廣泛應(yīng)用于自動(dòng)駕駛的各種任務(wù),包括目標(biāo)檢測(cè)、場(chǎng)景理解、路徑規(guī)劃和控制。通過(guò)從大量數(shù)據(jù)中學(xué)習(xí),ML方法可以學(xué)會(huì)做出比人類更準(zhǔn)確和高效的決策。本節(jié)將包括在前一節(jié)中確定的隱式和顯式基于學(xué)習(xí)的方法,并更詳細(xì)地介紹相關(guān)論文。下圖9展示了一些基于學(xué)習(xí)的方法的概述。
由于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)表示方面的最新進(jìn)展,現(xiàn)在可以使用端到端的駕駛方法,將原始傳感器數(shù)據(jù)作為輸入,輸出控制命令,如轉(zhuǎn)向和油門,以解決路徑規(guī)劃和控制問(wèn)題。然而,從高維原始感知數(shù)據(jù)(例如LiDAR點(diǎn)云、相機(jī)圖像)中學(xué)習(xí)整個(gè)駕駛?cè)蝿?wù)是具有挑戰(zhàn)性的,因?yàn)檫@涉及同時(shí)學(xué)習(xí)感知和決策制定。在大多數(shù)工作中,學(xué)習(xí)如何行動(dòng)的過(guò)程假設(shè)場(chǎng)景表示對(duì)運(yùn)動(dòng)規(guī)劃和決策制定模塊可用。實(shí)際上,這需要將端到端駕駛分為兩個(gè)主要模塊,一個(gè)模塊中自動(dòng)駕駛汽車學(xué)習(xí)如何看,另一個(gè)模塊中學(xué)習(xí)如何行動(dòng)。
有兩種主要的端到端自動(dòng)駕駛規(guī)劃和控制任務(wù)的方法(學(xué)習(xí)如何行動(dòng)):
- 模仿學(xué)習(xí):道路使用者學(xué)習(xí)模仿專家的行為。
- 深度強(qiáng)化學(xué)習(xí)(DRL):道路使用者試圖在仿真環(huán)境中進(jìn)行的一種試錯(cuò)過(guò)程中學(xué)習(xí)如何行動(dòng)。DRL方法將在后面章節(jié)中更詳細(xì)地分析。
模仿學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范例,道路使用者通過(guò)模仿專家演示者的行為來(lái)執(zhí)行任務(wù),這使其成為訓(xùn)練自主系統(tǒng)和機(jī)器人的有價(jià)值的方法。在[151]中,通過(guò)圖注意力網(wǎng)絡(luò)(GAT)學(xué)習(xí)交互特征。該網(wǎng)絡(luò)的輸入包括周圍道路使用者的運(yùn)動(dòng)學(xué)信息以及編碼來(lái)自鳥(niǎo)瞰圖的場(chǎng)景表示的特征向量。該模型在CARLA仿真器中由專業(yè)駕駛員生成的合成數(shù)據(jù)上進(jìn)行訓(xùn)練。模仿學(xué)習(xí)方法在與訓(xùn)練場(chǎng)景相似的情景中通常表現(xiàn)出色,但在場(chǎng)景偏離訓(xùn)練分布時(shí)通常會(huì)失敗。像數(shù)據(jù)集聚合(DAgger)這樣的算法可以通過(guò)為看不見(jiàn)的情況增加人標(biāo)注的數(shù)據(jù)來(lái)改善模仿學(xué)習(xí)策略的性能。然而,要求專家標(biāo)注新的訓(xùn)練樣本可能既昂貴又不可行。
在場(chǎng)景理解和運(yùn)動(dòng)預(yù)測(cè)的背景下,深度神經(jīng)網(wǎng)絡(luò)已廣泛使用。[127]等人在其神經(jīng)網(wǎng)絡(luò)架構(gòu)中提出了一種社交池操作,以考慮人群運(yùn)動(dòng)預(yù)測(cè)中的周圍鄰居。類似地,使用具有最大池化操作的星形拓?fù)渚W(wǎng)絡(luò)來(lái)考慮多智能體預(yù)測(cè)中的交互特征。CIDNN 使用LSTM跟蹤人群中每個(gè)行人的移動(dòng),并根據(jù)他們與目標(biāo)行人的接近程度為每個(gè)行人的運(yùn)動(dòng)特征分配權(quán)重,以進(jìn)行位置預(yù)測(cè)。[129]的研究創(chuàng)建了一個(gè)數(shù)據(jù)集,并提出了一個(gè)名為VP-LSTM的框架,通過(guò)利用異質(zhì)道路使用者的不同LSTM架構(gòu),預(yù)測(cè)擁擠混合場(chǎng)景中車輛和行人的軌跡。[130]中應(yīng)用了生成對(duì)抗網(wǎng)絡(luò)(GAN)來(lái)為場(chǎng)景中的任何道路使用者生成合理的預(yù)測(cè)。這些方法的共同特點(diǎn)是使用循環(huán)神經(jīng)網(wǎng)絡(luò),結(jié)合池化操作,捕捉時(shí)空交互特征。在社交池操作期間,周圍道路使用者的隱藏狀態(tài)成為用于預(yù)測(cè)當(dāng)前道路使用者運(yùn)動(dòng)的特征。擴(kuò)散模型是另一組在建模時(shí)空軌跡方面越來(lái)越受歡迎的深度學(xué)習(xí)技術(shù),可用于預(yù)測(cè)行人和車輛軌跡。
圖卷積網(wǎng)絡(luò)(GCNs)已廣泛用于具有相互作用道路使用者的軌跡預(yù)測(cè)任務(wù)。在這些方法中,道路結(jié)構(gòu)被表示為一個(gè)圖,其中每個(gè)節(jié)點(diǎn)表示交通參與者。每個(gè)節(jié)點(diǎn)可以攜帶信息,如交通參與者的類別(汽車、卡車、行人等)、其位置或速度。顯式交互可以在圖的鄰接矩陣中建模,而隱式部分包括圖卷積層。GCNs廣泛用于交通預(yù)測(cè),并且最近還在運(yùn)動(dòng)規(guī)劃中與DRL結(jié)合使用。
可以用于建模交互的其他機(jī)器學(xué)習(xí)技術(shù)包括高斯過(guò)程和概率圖模型,包括隱馬爾可夫模型。
基于效用的方法
基于效用的道路使用者使用效用函數(shù)來(lái)指導(dǎo)決策制定,為可能的世界狀態(tài)分配值并選擇導(dǎo)致最高效用的行動(dòng)。與基于目標(biāo)的道路使用者不同,后者根據(jù)目標(biāo)滿足程度評(píng)估狀態(tài),效用基的道路使用者可以處理多個(gè)目標(biāo)并考慮概率和行動(dòng)成本。效用基的方法包括馬爾可夫決策過(guò)程(MDP)和博弈論模型。
馬爾可夫決策過(guò)程
MDP是一種數(shù)學(xué)框架,用于建模決策問(wèn)題,其中結(jié)果部分是隨機(jī)的,部分是由決策者控制的。MDP的建??蚣苋缦聢D10所示。有兩種主要方法可以解決MDP問(wèn)題:動(dòng)態(tài)規(guī)劃和強(qiáng)化學(xué)習(xí)。通常,后者更適用于自動(dòng)駕駛,因?yàn)樗鼈兏m合高維狀態(tài)空間。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)利用馬爾可夫決策過(guò)程(MDP)來(lái)建模復(fù)雜的環(huán)境,并包括一組算法來(lái)學(xué)習(xí)最大化期望獎(jiǎng)勵(lì)的策略。傳統(tǒng)上,動(dòng)態(tài)規(guī)劃是實(shí)現(xiàn)這一目標(biāo)的可靠方法,通過(guò)迭代計(jì)算每個(gè)狀態(tài)的值,從終端狀態(tài)開(kāi)始,逆向工作到初始狀態(tài)。該方法在狀態(tài)空間較小的情況下表現(xiàn)出色。然而,在面對(duì)具有龐大狀態(tài)空間的RL挑戰(zhàn)時(shí),例如自動(dòng)駕駛的領(lǐng)域時(shí),這可能會(huì)導(dǎo)致計(jì)算負(fù)擔(dān)。更常見(jiàn)的是,使用深度神經(jīng)網(wǎng)絡(luò)(DRL)增強(qiáng)的RL。DRL算法在樣本效率和可擴(kuò)展性方面可能優(yōu)于動(dòng)態(tài)規(guī)劃算法,但它們也可能更復(fù)雜,訓(xùn)練難度較大。有關(guān)DRL應(yīng)用于自動(dòng)駕駛的更詳細(xì)調(diào)研,請(qǐng)參閱。
自動(dòng)駕駛中的DRL解決方案將根據(jù)使用的場(chǎng)景、狀態(tài)空間表示、動(dòng)作空間和使用的算法進(jìn)行分類。DRL中常用的狀態(tài)表示見(jiàn)下圖11:
- 基于向量的表示:在這種表示類型中,有關(guān)周圍車輛的信息,如位置和速度,包含在長(zhǎng)度固定的向量中;
- 鳥(niǎo)瞰圖(BEV):從頂部視角呈現(xiàn)自車周圍環(huán)境的2D圖像表示;
- 占用柵格表示:類似于BEV圖像,它是圍繞自車的環(huán)境的2D離散表示。它是一個(gè)2D或3D的單元格網(wǎng)格,每個(gè)單元格被分配被障礙物占用的概率,以及關(guān)于占用單元格的實(shí)體類型的分割信息。
- 圖表示:這是將自動(dòng)駕駛汽車周圍環(huán)境的狀態(tài)表示為圖的一種方式。圖中的節(jié)點(diǎn)表示環(huán)境中的對(duì)象,如車輛、行人和紅綠燈。圖中的邊表示對(duì)象之間的關(guān)系,如距離或潛在碰撞的可能性。圖表示緊湊而高效,是表示環(huán)境狀態(tài)的有前途的方法。
基于向量的表示通過(guò)以緊湊而高效的方式表示對(duì)象,但以犧牲交通信息的方式,將其限制為周圍車輛的固定維度子集。BEV圖像和占用柵格提供了一種用固定方式表示環(huán)境的簡(jiǎn)單方法,可以輕松更新。然而,在高混雜度或不確定性的環(huán)境中,它們可能不準(zhǔn)確。圖表示可以以緊湊的方式輕松表示道路使用者之間的關(guān)系。另一方面,隨著周圍道路使用者數(shù)量的增加,更新圖可能會(huì)變得復(fù)雜和計(jì)算昂貴。
動(dòng)作空間可以是連續(xù)的或離散的。連續(xù)動(dòng)作通常包括自車的縱向加速度和轉(zhuǎn)向角。離散動(dòng)作通常取決于正在解決的特定任務(wù)。例如,在變道場(chǎng)景中,離散動(dòng)作包括左變道、保持當(dāng)前道路或右變道。較低層控制器調(diào)節(jié)車輛的轉(zhuǎn)向和加速度以執(zhí)行該動(dòng)作。
盡管大多數(shù)DRL論文關(guān)注僅有車輛的交通場(chǎng)景,但處理混合交通場(chǎng)景或車輛-行人交互的論文數(shù)量較有限。一些研究涉及移動(dòng)機(jī)器人的人群導(dǎo)航。在[174]中,使用DRL在多智能體環(huán)境中導(dǎo)航機(jī)器人。在[175]中,通過(guò)使用基于注意力的神經(jīng)網(wǎng)絡(luò)和社交池提高了[174]中的模型。在[176]中,使用DQN道路使用者開(kāi)發(fā)了一種自動(dòng)制動(dòng)系統(tǒng)。作者實(shí)現(xiàn)了一種創(chuàng)傷記憶,類似于優(yōu)先經(jīng)驗(yàn)重播(PER),用于從碰撞場(chǎng)景中采樣。在[178]中,訓(xùn)練了一個(gè)DQN道路使用者來(lái)避免與橫穿行人的碰撞,并進(jìn)一步用于開(kāi)發(fā)輔助駕駛員在行人避免碰撞情景中的ADAS系統(tǒng)。Deshpande等人使用了一個(gè)四層的網(wǎng)格狀態(tài)表示。在類似的情景中,[180]的作者開(kāi)發(fā)了一個(gè)使用連續(xù)動(dòng)作的SAC道路使用者。通過(guò)在獎(jiǎng)勵(lì)函數(shù)中集成SVO組件,可以訓(xùn)練車輛具有不同的社交符合行為,從親社會(huì)行為到更具打擊性的行為。
在實(shí)際場(chǎng)景中部署深度強(qiáng)化學(xué)習(xí)(DRL)面臨著重大挑戰(zhàn),是一個(gè)開(kāi)放的研究領(lǐng)域。一些研究,直接在實(shí)際應(yīng)用中實(shí)施DRL策略,無(wú)需額外微調(diào),展示了它們?cè)跓o(wú)信號(hào)交叉口等場(chǎng)景中的有效性。遷移學(xué)習(xí),深度學(xué)習(xí)的一個(gè)子領(lǐng)域,目前正在探索將知識(shí)從仿真環(huán)境轉(zhuǎn)移到現(xiàn)實(shí)世界。兩種主要技術(shù)包括域自適應(yīng)和域隨機(jī)化。在域隨機(jī)化中,該方法旨在具有足夠大的訓(xùn)練數(shù)據(jù)集,以涵蓋真實(shí)世界作為特定情況。通過(guò)域自適應(yīng),目標(biāo)是從源分布中學(xué)習(xí)一個(gè)在目標(biāo)分布上表現(xiàn)良好的模型。
與DRL相關(guān)的另一個(gè)問(wèn)題是,基于學(xué)習(xí)的策略具有較高的訓(xùn)練成本,并且很難實(shí)現(xiàn)語(yǔ)義解釋。最近,一些研究人員專注于可解釋的學(xué)習(xí)算法和終身學(xué)習(xí)算法來(lái)解決上述缺點(diǎn)。
多智能體強(qiáng)化學(xué)習(xí)
當(dāng)多個(gè)RL道路使用者被部署到真實(shí)世界并相互交互時(shí),問(wèn)題變?yōu)槎嘀悄荏w強(qiáng)化學(xué)習(xí)(MARL)。為了處理多智能體系統(tǒng),有多種方法可行。第一種方法是使用一個(gè)集中式控制器來(lái)管理整個(gè)車隊(duì)。通過(guò)增加狀態(tài)維度以包含所有車輛,并具有聯(lián)合動(dòng)作向量,問(wèn)題可以再次變成單智能體問(wèn)題。缺點(diǎn)是狀態(tài)和動(dòng)作空間的維度增加,這可能使學(xué)習(xí)變得更加復(fù)雜。最近,圖形表示法已被用于克服問(wèn)題的維度詛咒。另一種方法,受到Level-k博弈論的啟發(fā),是使用單個(gè)DRL學(xué)習(xí)器,但用其先前副本替換一些周圍道路使用者。這種技術(shù)類似于在競(jìng)爭(zhēng)性DRL場(chǎng)景中使用的自我對(duì)弈。最后一種方法是采用MARL方法來(lái)制定問(wèn)題,其中多個(gè)學(xué)習(xí)器并行工作。在[187]中提出了一種多智能體深度確定性策略梯度(MADDPG)方法,該方法為每個(gè)道路使用者學(xué)習(xí)一個(gè)單獨(dú)的集中式評(píng)論家,使每個(gè)道路使用者可以具有不同的獎(jiǎng)勵(lì)函數(shù)。詳見(jiàn),其中對(duì)MARL進(jìn)行了廣泛的調(diào)研。在自動(dòng)駕駛中,MARL的其他應(yīng)用可以在中找到。
部分可觀察馬爾可夫決策過(guò)程
部分可觀察馬爾可夫決策過(guò)程(POMDPs)是MDPs的一般化。如果過(guò)程狀態(tài)s不能直接被決策者觀察到,則MDP被認(rèn)為是部分可觀察的。POMDP在計(jì)算上很昂貴,但提供了一個(gè)通用的框架,可以對(duì)各種現(xiàn)實(shí)決策制定過(guò)程進(jìn)行建模。由于硬件的改進(jìn),POMDP在自動(dòng)駕駛的應(yīng)用越來(lái)越受歡迎。在[190]中,POMDP已被用于在人群中導(dǎo)航移動(dòng)機(jī)器人。機(jī)器人對(duì)行人的可能未來(lái)目標(biāo)保持信念。POMDP還在存在行人時(shí)用于汽車決策制定。在POMDP中,將自車周圍的道路使用者建模為環(huán)境的一部分,并使用信念向量來(lái)建模它們的意圖。在[189]中,作者開(kāi)發(fā)了一種多智能體相互作用感知的決策制定策略,該問(wèn)題被建模為POMDP,并且使用基于注意力的神經(jīng)網(wǎng)絡(luò)機(jī)制來(lái)建模交互。POMDP還被用于解決交叉口處環(huán)境遮擋下的決策制定問(wèn)題。有關(guān)POMDP在交互決策中的其他應(yīng)用,請(qǐng)參見(jiàn)[193] [194]。傳統(tǒng)的控制方法通常按順序處理傳感器不確定性和規(guī)劃,在其中狀態(tài)估計(jì)器處理傳感器噪聲和不確定性,然后使用確定性策略根據(jù)估計(jì)的狀態(tài)確定動(dòng)作。另一方面,POMDP不做這樣的分離,策略是基于信念狀態(tài)確定的。周圍道路使用者可以被明確地建模為決策者(MARL),也可以被視為單個(gè)道路使用者在其中操作的環(huán)境(RL或DRL)。
博弈論模型
博弈論是研究理性道路使用者之間戰(zhàn)略交互的數(shù)學(xué)模型。博弈論主要應(yīng)用于經(jīng)濟(jì)學(xué),但也在自動(dòng)駕駛中出現(xiàn)。特別是,對(duì)于自動(dòng)駕駛來(lái)說(shuō),動(dòng)態(tài)的非合作博弈論非常重要。如果博弈涉及多個(gè)決策且決策順序重要,那么它是動(dòng)態(tài)的;如果每個(gè)參與者都追求自己的興趣,與其他人的興趣部分沖突,那么它是非合作的。動(dòng)態(tài)非合作博弈論包括離散時(shí)間和連續(xù)時(shí)間的博弈,并且它提供了對(duì)多智能體環(huán)境的最優(yōu)控制的自然擴(kuò)展。
博弈論研究在最優(yōu)玩家假設(shè)下的平衡解,其中多個(gè)概念適用于軌跡博弈。動(dòng)態(tài)博弈分為開(kāi)環(huán)和反饋博弈,基于可用信息,開(kāi)環(huán)假設(shè)每個(gè)玩家只能獲得博弈的初始狀態(tài)的信息。對(duì)于反饋博弈,每個(gè)道路使用者可獲得博弈的當(dāng)前狀態(tài)的信息。盡管第二種類型的博弈更準(zhǔn)確地描述了自動(dòng)駕駛設(shè)置,但通常出于其簡(jiǎn)單性而更喜歡使用開(kāi)環(huán)解決方案。自動(dòng)駕駛中的常見(jiàn)平衡包括開(kāi)環(huán)納什、開(kāi)環(huán)斯塔克爾伯格、閉環(huán)納什和閉環(huán)斯塔克爾伯格平衡。有關(guān)該主題的更多詳細(xì)信息,請(qǐng)參見(jiàn)[197]。
當(dāng)?shù)缆肥褂谜叩膭?dòng)態(tài)必須符合一組約束,例如避免碰撞的約束時(shí),平衡被稱為廣義平衡。[220]中研究了廣義平衡問(wèn)題的數(shù)值解。開(kāi)環(huán)納什均衡配方的缺點(diǎn)是玩家無(wú)法直接推斷他們的行為如何影響周圍道路使用者的行為。這方面的第一個(gè)簡(jiǎn)化是開(kāi)環(huán)斯塔克爾伯格均衡,例如在[203]中應(yīng)用于無(wú)人機(jī)自主比賽的背景下。在斯塔克爾伯格競(jìng)賽中,領(lǐng)導(dǎo)者首先行動(dòng),然后依次跟隨后續(xù)玩家,允許那些具有較高優(yōu)先級(jí)的人考慮那些具有較低優(yōu)先級(jí)的人將如何計(jì)劃他們的行動(dòng)。在[207]中,作者提出了一種基于開(kāi)環(huán)斯塔克爾伯格博弈的自主賽車的順序雙矩陣博弈方法。也可以找到斯塔克爾伯格配方的其他應(yīng)用??梢栽赱223]中找到解決廣義反饋納什均衡問(wèn)題的配方。Sadigh等人將自動(dòng)駕駛汽車-人交互建模為Stackelberg競(jìng)賽中的部分可觀察隨機(jī)游戲。人類估計(jì)自動(dòng)駕駛汽車的計(jì)劃并相應(yīng)行動(dòng),而自動(dòng)駕駛汽車優(yōu)化其自己的行動(dòng),假設(shè)對(duì)人類的行動(dòng)具有間接控制權(quán)。
通常,博弈論方法面臨以下問(wèn)題:(1)計(jì)算復(fù)雜性隨著道路使用者數(shù)量的增加和時(shí)間視角的增加而呈指數(shù)增長(zhǎng),(2)它們假設(shè)解釋其他道路使用者行為的效用函數(shù)對(duì)自車輛是已知的,并且道路使用者根據(jù)這些獎(jiǎng)勵(lì)函數(shù)理性行事-然而在博弈論金融問(wèn)題中已知,人類往往不是理性行事;(3)道路使用者的行為可能是隨機(jī)的,并且解決混合或行為策略的計(jì)算變得更加棘手。自然地,博弈論還具有捕捉行為相互依賴性和一些問(wèn)題的確切解決方案的巨大優(yōu)勢(shì)。博弈論自動(dòng)駕駛領(lǐng)域的許多論文嘗試通過(guò)進(jìn)一步簡(jiǎn)化問(wèn)題或找到近似解決方案來(lái)緩解這些問(wèn)題?,F(xiàn)在,將看一下該領(lǐng)域的一些論文,分析它們的簡(jiǎn)化假設(shè)。
Level-k理論打破了納什均衡理性期望邏輯,假設(shè)人們認(rèn)為其他人比自己不那么復(fù)雜。這就是Level-k推理,其中迭代過(guò)程在k步之后停止。其他道路使用者被建模為L(zhǎng)evel-k-1的參與者。Level-k道路使用者假設(shè)所有其他道路使用者都是Level-(k-1),并基于這一假設(shè)進(jìn)行預(yù)測(cè),并相應(yīng)地做出反應(yīng)。在[219]中,Level-k推理被應(yīng)用于環(huán)狀交叉口場(chǎng)景。這種方法還在[206]中被納入了一個(gè)RL框架中:作者將問(wèn)題限制為兩個(gè)交互道路使用者,并使用基于DQN的RL方法解決了具有兩輛車的馬爾可夫博弈。在[218]中,Level-k推理被采用來(lái)解決交叉口的沖突。作者們表明,在自車輛是Level-k道路使用者且所有周圍車輛都是Level-k-1或更低級(jí)別的情況下,沖突可以很容易地解決。然而,當(dāng)兩個(gè)道路使用者都是相同級(jí)別時(shí),碰撞的數(shù)量增加,這表明需要進(jìn)一步改進(jìn)以處理具有相同類型道路使用者的場(chǎng)景,這在多個(gè)自動(dòng)駕駛汽車的情況下是至關(guān)重要的。
為了保持計(jì)算復(fù)雜性可控,可以通過(guò)確定與自車輛進(jìn)行交互的所有道路使用者的子集來(lái)減少道路使用者的數(shù)量。時(shí)間視角也可以通過(guò)考慮遠(yuǎn)程視角控制器或暗示分層博弈規(guī)劃而進(jìn)行限制。后者包括具有短視角戰(zhàn)術(shù)規(guī)劃者和具有長(zhǎng)視角戰(zhàn)略規(guī)劃者的組合。第一個(gè)負(fù)責(zé)準(zhǔn)確仿真問(wèn)題的動(dòng)力學(xué),第二個(gè)負(fù)責(zé)使用近似動(dòng)力學(xué)決定戰(zhàn)略。
迭代線性二次(LQ)方法在機(jī)器人學(xué)和控制領(lǐng)域日益普遍。[201]的作者將問(wèn)題表述為具有非線性系統(tǒng)動(dòng)力學(xué)的一般和差分博弈。在[202]中,他們將他們的方法擴(kuò)展到具有反饋線性化動(dòng)力學(xué)的系統(tǒng)。解決博弈理論問(wèn)題的另一種方法是使用迭代最佳響應(yīng)來(lái)計(jì)算純納什均衡,即純策略中的納什均衡。[216]的作者提出了一種“敏感性增強(qiáng)”的迭代最佳響應(yīng)求解器。在[204]中,提出了一種基于IBR的在線博弈論軌跡規(guī)劃器。該規(guī)劃器適用于在線規(guī)劃,并在競(jìng)爭(zhēng)性賽車場(chǎng)景中展示出復(fù)雜的行為。Williams等人提出了一個(gè)IBR算法,以及一個(gè)信息論規(guī)劃器,用于控制兩個(gè)地面車輛在緊密接觸中。
在[13]中,Schwarting等人提出了解決納什均衡問(wèn)題的迭代最佳響應(yīng)的替代方法,該方法基于將優(yōu)化問(wèn)題重新制定為使用Karush–Kuhn–Tucker條件的本地單層優(yōu)化。在[137]中,博弈論被用來(lái)建模其他車輛的決策制定。他們提出了一個(gè)并行游戲交互模型(PGIM),用于提供積極和社會(huì)合規(guī)的駕駛交互。為了解決環(huán)境不確定性,將博弈論的納什均衡概念擴(kuò)展到POMDPs。在[215]中,作者通過(guò)構(gòu)建關(guān)于其他道路使用者目標(biāo)和約束的多個(gè)假設(shè),對(duì)其他道路使用者的意圖存在不確定性進(jìn)行了考慮。
討論與未來(lái)挑戰(zhàn)
在這次全面的調(diào)研中,介紹了對(duì)自動(dòng)駕駛進(jìn)展至關(guān)重要的兩個(gè)關(guān)鍵部分:人類行為研究和交互建模。這些部分構(gòu)成了理解和優(yōu)化自動(dòng)駕駛場(chǎng)景中復(fù)雜交交互態(tài)的基礎(chǔ)。在本部分,將強(qiáng)調(diào)未來(lái)自動(dòng)駕駛研究中交互場(chǎng)景的挑戰(zhàn)和研究方向。
人類行為研究
在社會(huì)對(duì)自動(dòng)駕駛的強(qiáng)烈愿望驅(qū)動(dòng)下,人類行為研究在近年來(lái)再次成為一個(gè)熱門話題,尤其是在自動(dòng)駕駛汽車背景下的研究。為了更好地理解自動(dòng)駕駛汽車交互過(guò)程中的行人行為,仍然需要克服許多挑戰(zhàn)。
總體而言,駕駛員行為模型的探索是一個(gè)具有潛力的研究領(lǐng)域,有望在交通系統(tǒng)的安全性和效率方面取得實(shí)質(zhì)性的改進(jìn)。然而,在這些模型的開(kāi)發(fā)和驗(yàn)證方面仍有大量工作需要進(jìn)行。未來(lái)研究應(yīng)優(yōu)先考慮創(chuàng)建更全面的模型,涵蓋更廣泛的因素,包括駕駛員的心理狀態(tài)、周圍環(huán)境以及與道路上其他人的交互。
對(duì)于行人行為研究,一個(gè)重要的挑戰(zhàn)是溝通。首先,盡管大多數(shù)研究者都同意eHMI的有效性,但在其內(nèi)容、形式和視角方面仍然缺乏共識(shí)。一個(gè)懸而未決的問(wèn)題是,eHMI是否應(yīng)該是擬人化的還是非擬人化的。對(duì)于文本和非文本的eHMI,也出現(xiàn)了類似的問(wèn)題。此外,由于道路上存在多個(gè)行人,當(dāng)前的eHMI主要設(shè)計(jì)為一對(duì)一的相遇,這可能會(huì)誤導(dǎo)其他行人。還存在許多類似的問(wèn)題,阻礙了eHMI的標(biāo)準(zhǔn)化。另一方面,由于諸如車輛運(yùn)動(dòng)學(xué)之類的隱含信號(hào)被廣泛接受、普遍、常見(jiàn)且可靠,因此它們的關(guān)鍵作用不能被忽視。雖然研究人員已經(jīng)嘗試通過(guò)操縱隱含信號(hào)(如車輛減速率、橫向距離和俯仰)來(lái)影響行人,但這些努力不足以確保安全有效的溝通。這些溝通方法缺乏相關(guān)理論支持,以證明溝通信息的準(zhǔn)確有效傳遞。此外,在研究方法方面,包括車輛駕駛行為設(shè)計(jì)、主觀和客觀實(shí)驗(yàn)設(shè)計(jì)等方面,可靠的研究范式的缺乏也是一個(gè)問(wèn)題。另外,如何有效而流暢地將eHMI和隱含信號(hào)結(jié)合起來(lái),以利用雙方的優(yōu)勢(shì),也是一個(gè)有趣的研究方向。
另一個(gè)挑戰(zhàn)是行人行為研究。行人的決策制定和行為模式受到交互情境、交通環(huán)境和參與者多樣性的影響。然而,這些方面目前缺乏足夠的研究關(guān)注?,F(xiàn)有研究通常側(cè)重于特定和簡(jiǎn)單的交互情境,以控制變量或簡(jiǎn)化研究復(fù)雜性。然而,現(xiàn)實(shí)生活中涉及大量復(fù)雜情景,包括多車道、雙向或非結(jié)構(gòu)化道路的過(guò)路口、面對(duì)密集連續(xù)交通流的過(guò)路口、多行人過(guò)馬路的情景等。此外,行人的異質(zhì)性,如性別、年齡、分心和群體效應(yīng),也在交互中發(fā)揮著重要作用。值得注意的是,許多影響因素,如等待時(shí)間和分心,仍然缺乏共識(shí)。因此,由于缺乏充足且可靠的結(jié)果,研究結(jié)論主要依賴于假設(shè),突顯了對(duì)行人道路行為基本機(jī)制理解的不足。
關(guān)于行人行為建模,近年來(lái)基于學(xué)習(xí)的方法變得越來(lái)越吸引人。端到端的深度神經(jīng)網(wǎng)絡(luò)可以有效捕捉復(fù)雜的行為機(jī)制,在行人意圖預(yù)測(cè)和軌跡預(yù)測(cè)領(lǐng)域取得了顯著進(jìn)展。然而,其黑盒性質(zhì)不能忽視。這些方法需要大量的數(shù)據(jù)來(lái)實(shí)現(xiàn)穩(wěn)健的性能,這限制了它們對(duì)數(shù)據(jù)不足的零星案例的可擴(kuò)展性。此外,黑盒模型在解釋其決策和行為邏輯方面存在困難,這給建模帶來(lái)了新問(wèn)題。相反,專家模型,如社會(huì)力模型、證據(jù)積累模型或博弈論模型,具有堅(jiān)實(shí)的心理和行為基礎(chǔ),其行為決策邏輯清晰且可解釋。然而,大多數(shù)這些模型只在有限的數(shù)據(jù)集上進(jìn)行了驗(yàn)證,或者仍處于實(shí)驗(yàn)室驗(yàn)證階段,缺乏大量的工程實(shí)踐。因此,未來(lái)需要進(jìn)一步完善專家模型的理論,并在大量真實(shí)數(shù)據(jù)集上進(jìn)行廣泛驗(yàn)證。此外,專家模型和數(shù)據(jù)驅(qū)動(dòng)模型在不同方面具有優(yōu)勢(shì)。可能的未來(lái)趨勢(shì)是找到兩種模型共同使用的平衡點(diǎn)。
最后,考慮到關(guān)于自動(dòng)駕駛的整體文獻(xiàn)中只有很小一部分明確考慮了行人行為,有必要增加行人行為模型的應(yīng)用,可能包括但不限于行人行為預(yù)測(cè)、自動(dòng)駕駛汽車行為設(shè)計(jì)和虛擬自動(dòng)駕駛汽車驗(yàn)證。
交互建模
隨著自動(dòng)駕駛技術(shù)的不斷發(fā)展,對(duì)交互建模的研究將在解決挑戰(zhàn)和推動(dòng)更安全、可靠的自動(dòng)駕駛車輛發(fā)展中發(fā)揮關(guān)鍵作用。
自動(dòng)駕駛研究中引起關(guān)注的一種突出方法是使用基于學(xué)習(xí)的方法。這些方法具有端到端解決方案的吸引力,直接將感知輸入和目的地知識(shí)映射到自動(dòng)駕駛車輛的行為中。然而,這樣的系統(tǒng)可能表現(xiàn)為黑盒,導(dǎo)致在出現(xiàn)故障時(shí)解釋性問(wèn)題以及對(duì)模型進(jìn)行驗(yàn)證的困難。此外,完成整個(gè)駕駛過(guò)程的任務(wù)龐大,即學(xué)習(xí)整個(gè)駕駛過(guò)程,這也帶來(lái)了重大挑戰(zhàn)。因此,當(dāng)前的研究努力將這一任務(wù)分解為子任務(wù),包括路線規(guī)劃、感知、運(yùn)動(dòng)規(guī)劃和控制,并利用基于學(xué)習(xí)的方法來(lái)解決這些部分挑戰(zhàn)。
通過(guò)模仿學(xué)習(xí)或在深度強(qiáng)化學(xué)習(xí)(DRL)方法中進(jìn)行仿真來(lái)學(xué)習(xí)交互行為的優(yōu)勢(shì)也在不斷增強(qiáng)。然而,挑戰(zhàn)依然存在。大多數(shù)基于深度學(xué)習(xí)的決策假設(shè)理想的道路場(chǎng)景和對(duì)周圍環(huán)境的完美感知。然而,現(xiàn)實(shí)世界的條件往往涉及遮擋、傳感器噪聲和環(huán)境異常。在這些偶發(fā)事件中保持系統(tǒng)性能并處理部分或嘈雜信息是一個(gè)持續(xù)存在的研究挑戰(zhàn)。不確定性來(lái)自周圍交通參與者的不可預(yù)測(cè)行為,以及傳感器噪聲和車輛模型。此外,在仿真環(huán)境中訓(xùn)練的模型(如DRL模型)引發(fā)了一個(gè)問(wèn)題,即如何彌合仿真和現(xiàn)實(shí)之間的差距。已經(jīng)提出了幾種策略,包括使仿真更加現(xiàn)實(shí)、領(lǐng)域隨機(jī)化和領(lǐng)域自適應(yīng)。這些方法旨在使模型能夠應(yīng)對(duì)現(xiàn)實(shí)世界的不可預(yù)測(cè)性和復(fù)雜性,確保其在道路上有效應(yīng)用所學(xué)到的知識(shí)。
學(xué)習(xí)為基礎(chǔ)的方法的另一種替代方法是基于模型的方法。這組方法包括博弈論模型、行為模型(在前一部分中已討論)、社會(huì)力和勢(shì)場(chǎng)。
博弈論提供了靈活性和適應(yīng)性,可以有效處理各種情況,而無(wú)需依賴特定的數(shù)據(jù)分布。其關(guān)鍵優(yōu)勢(shì)之一是能夠在給定情境中處理道路使用者的規(guī)劃和預(yù)測(cè)。然而,計(jì)算方面存在一種權(quán)衡。隨著道路使用者數(shù)量和時(shí)間范圍的增加,計(jì)算負(fù)擔(dān)也增加。研究人員提出了一些增強(qiáng)博弈論解決方案的策略,包括分層博弈論公式、將周圍道路使用者的優(yōu)化問(wèn)題限制為近似解決方案、級(jí)別k博弈論,或提高非線性優(yōu)化求解器的性能。
另一方面,社會(huì)力或勢(shì)場(chǎng)方法提供了一種快速計(jì)算的解決方案。它們可以用于預(yù)測(cè)周圍道路使用者的行為,也可以用于自動(dòng)駕駛車輛的控制。社會(huì)力模型依賴于對(duì)人類行為的簡(jiǎn)化假設(shè)。它們通常將行人視為具有固定特征的粒子或道路使用者,忽視了人類決策制定的認(rèn)知方面,這可能導(dǎo)致對(duì)復(fù)雜且動(dòng)態(tài)的人類行為的不切實(shí)際的表示。這些方法的未來(lái)研究方向包括整合認(rèn)知元素或上下文信息,如道路規(guī)則和交通信號(hào)。探索整合機(jī)器學(xué)習(xí)技術(shù)以提高社會(huì)力模型的適應(yīng)性和預(yù)測(cè)能力也是可能的未來(lái)研究方向。
現(xiàn)有研究主要集中在車輛之間的交互中,這在自動(dòng)駕駛中無(wú)疑起著關(guān)鍵作用。然而,有迫切需要開(kāi)發(fā)能夠處理與人類道路用戶的交互,尤其是行人交互的方法。隨著自動(dòng)駕駛領(lǐng)域的不斷發(fā)展,揭示治理與各種道路用戶之間的溝通和交互的理論和模型,將在技術(shù)上變得更加重要,有望推動(dòng)自動(dòng)駕駛場(chǎng)景中的安全性和效率。
原文鏈接:https://mp.weixin.qq.com/s/VDDLPUHU3HsQZ08iaFDGWw