自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

像人類一樣開車:大語(yǔ)言模型重新思考自動(dòng)駕駛

人工智能 新聞
本文探討用大型語(yǔ)言模型(LLM)以類似人類的方式理解駕駛環(huán)境的潛力,并分析其在面對(duì)復(fù)雜場(chǎng)景時(shí)的推理、解釋和記憶能力。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

這是7月份采用大語(yǔ)言模型研究自動(dòng)駕駛的論文“Drive Like a Human: Rethinking Autonomous Driving with Large Language Models“,來(lái)自上海AI實(shí)驗(yàn)室和華東師范。

本文探討用大型語(yǔ)言模型(LLM)以類似人類的方式理解駕駛環(huán)境的潛力,并分析其在面對(duì)復(fù)雜場(chǎng)景時(shí)的推理、解釋和記憶能力。傳統(tǒng)的基于優(yōu)化和模塊化的自動(dòng)駕駛(AD)系統(tǒng)在處理長(zhǎng)尾極端情況時(shí)面臨固有的性能限制。為了解決這個(gè)問(wèn)題,作者思考一個(gè)理想的AD系統(tǒng)應(yīng)該像人一樣駕駛,通過(guò)連續(xù)駕駛積累經(jīng)驗(yàn),用常識(shí)解決問(wèn)題。為了實(shí)現(xiàn)這一目標(biāo),確定AD系統(tǒng)所需的三個(gè)關(guān)鍵能力:推理、解釋和記憶。通過(guò)構(gòu)建閉環(huán)系統(tǒng)來(lái)展示LLM在駕駛場(chǎng)景中使用LLM的可行性,展示其理解和環(huán)境交互能力。

如圖就是GPT-3.5 在 高速環(huán)境中進(jìn)行閉環(huán)駕駛的示意圖:(a) GPT-3.5 用感知工具觀察高速環(huán)境并做出控制車輛的決策,形成閉環(huán)。(b) GPT-3.5 采用 ReAct 策略(來(lái)自論文“React: Synergizing reasoning and acting in language models”. arXiv 2210.03629)來(lái)規(guī)劃動(dòng)作和使用工具,同時(shí)通過(guò)思考、行動(dòng)和觀察的循環(huán)來(lái)感知周圍環(huán)境。

與人類一樣,GPT-3.5 在駕駛時(shí)評(píng)估其行為的潛在后果,并權(quán)衡結(jié)果以做出最明智的決定。與廣泛使用的基于強(qiáng)化學(xué)習(xí) (RL) 和基于搜索的方法不同,GPT-3.5 不僅可以解釋場(chǎng)景和操作,還可以利用常識(shí)來(lái)優(yōu)化其決策過(guò)程。

與基于 RL 的方法相比,GPT-3.5 在 高速環(huán)境中實(shí)現(xiàn)了超過(guò) 60% 的零樣本通過(guò)率,無(wú)需任何微調(diào)。相比之下,基于 RL 的方法嚴(yán)重依賴多次迭代來(lái)實(shí)現(xiàn)有競(jìng)爭(zhēng)力的性能。例如,如圖(a)所示,由于碰撞受到嚴(yán)厲懲罰,基于RL的智體學(xué)習(xí)了一種策略,為了防止碰撞,在開始時(shí)減速,為隨后的加速創(chuàng)造廣闊的空間。這表明基于RL的方法經(jīng)常產(chǎn)生這種意想不到的解決方案?;谒阉鞯姆椒ㄍㄟ^(guò)優(yōu)化目標(biāo)函數(shù)來(lái)做出決策,忽略函數(shù)中未提及的未定義部分。如圖(b)所示,基于搜索的智體可能會(huì)表現(xiàn)出激進(jìn)的變道行為以實(shí)現(xiàn)高駕駛效率,從而增加碰撞風(fēng)險(xiǎn)。此外,即使沒(méi)有其他車輛在前方,基于搜索的方法也可能進(jìn)行無(wú)意義的變道操作。這可能是因?yàn)?,?duì)于基于搜索的智體來(lái)說(shuō),在安全的前提下,變道和保持速度在目標(biāo)功能中具有同等的優(yōu)先級(jí)。因此,智體隨機(jī)選擇其中一個(gè)操作。

總之,基于RL和基于搜索的方法都不能真正像人類一樣思考和駕駛,因?yàn)槿狈ΤWR(shí)、解釋場(chǎng)景以及權(quán)衡利弊的能力。相比之下,GPT-3.5 可以解釋每個(gè)動(dòng)作的后果,通過(guò)提供提示,可以使 GPT-3.5 以價(jià)值為導(dǎo)向、并做出更像人類的決策。

雖然人類駕駛員和以前基于優(yōu)化的AD系統(tǒng)都擁有基本的駕駛技能,但根本區(qū)別在于人類對(duì)世界有常識(shí)性的理解。常識(shí)是,從日常生活中積累的對(duì)周圍發(fā)生的事情做合理而實(shí)用的判斷[11]。有助于駕駛的常識(shí)可以從日常生活的各個(gè)方面得出。當(dāng)出現(xiàn)新的駕駛情況時(shí),人類駕駛員可以根據(jù)常識(shí)快速評(píng)估場(chǎng)景并做出合理的決定。相比之下,傳統(tǒng)的AD系統(tǒng)可能在駕駛領(lǐng)域有經(jīng)驗(yàn),但缺乏常識(shí),因此無(wú)法應(yīng)對(duì)這種情況。

像GPT-3.5這樣的LLM已經(jīng)接受了大量自然語(yǔ)言數(shù)據(jù)的訓(xùn)練,并且對(duì)常識(shí)了如指掌[2]。這標(biāo)志著與傳統(tǒng)AD方法的重大背離,使LLM能夠像人類駕駛員一樣用常識(shí)推理復(fù)雜的駕駛場(chǎng)景。

如圖所示,兩張相似但不同的照片被輸入LLM。第一張照片描繪了一輛皮卡車在卡車車廂里攜帶幾個(gè)交通錐前往目的地。第二張照片還描繪了一輛皮卡的卡車車廂里有交通錐,但周圍地面上散落著其他交通錐。由于 GPT-3.5 缺乏處理包括圖像在內(nèi)的多模態(tài)輸入的能力,文中用 LLaMA-Adapter v2 視覺(jué)指令模型(來(lái)自論文“Llama-adapter v2: Parameter-efficient visual instruction model“,arXiv 2304.15010)作為圖像處理前端。指示LLaMA Adapter盡可能詳細(xì)地描述照片。然后將此描述用作觀察,要求 GPT-3.5 評(píng)估該場(chǎng)景是否具有潛在危險(xiǎn),并為假設(shè)跟隨卡車的自車做出決定。在圖(a)中描述的第一個(gè)案例中,LLaMA-Adapter識(shí)別出照片中的皮卡車攜帶多個(gè)交通錐,并推斷它可能正在將它們運(yùn)送到目的地?;谶@些觀察結(jié)果,GPT-3.5 成功分析了駕駛場(chǎng)景。GPT-3.5 沒(méi)有被交通錐的存在所誤導(dǎo),而是認(rèn)為這種情況是無(wú)害的,基于卡車將貨物運(yùn)送到目的地是很常見(jiàn)的。GPT-3.5 建議自車沒(méi)有必要減速,并警告說(shuō)不必要的減速可能對(duì)交通流量造成危險(xiǎn)。對(duì)于圖(b)中描述的第二個(gè)案例,交通錐不僅在卡車車廂內(nèi),而且散落在地面上,用LLaMA-Adapter準(zhǔn)確表示這個(gè)內(nèi)容。盡管與第一個(gè)案例略有不同,但 GPT-3.5 的反應(yīng)截然相反。它認(rèn)為這種情況具有潛在的危險(xiǎn),因?yàn)榭ㄜ囍車⒙涞慕煌ㄥF,并建議自車減速并保持一定距離,避免與這些交通錐發(fā)生任何碰撞。

以上的例子展示了LLM在駕駛場(chǎng)景中強(qiáng)大的零樣本理解和推理能力。利用常識(shí)知識(shí),不僅讓LLM能夠更好地理解場(chǎng)景中的語(yǔ)義信息,還能讓其做出更理性的決策,更符合人類的駕駛行為。因此,擁有常識(shí)知識(shí)可以提高自動(dòng)駕駛系統(tǒng)能力的上限,使其能夠處理未知的長(zhǎng)尾情況,真正接近人類駕駛員的駕駛能力。

持續(xù)學(xué)習(xí)[28]是人類駕駛的另一個(gè)關(guān)鍵方面。新手司機(jī)在遇到復(fù)雜的交通狀況時(shí),由于經(jīng)驗(yàn)有限,通常會(huì)謹(jǐn)慎駕駛。隨著時(shí)間的推移,隨著駕駛經(jīng)驗(yàn)的積累,駕駛員會(huì)遇到新的交通場(chǎng)景,發(fā)展新的駕駛技能,并鞏固他們以前的經(jīng)驗(yàn),最終成為經(jīng)驗(yàn)豐富的駕駛員?;趦?yōu)化的方法旨在通過(guò)獲取越來(lái)越多的失敗案例并重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)模仿持續(xù)學(xué)習(xí)的過(guò)程。然而,這種方法不僅乏味且昂貴,而且從根本上無(wú)法實(shí)現(xiàn)持續(xù)學(xué)習(xí)。常規(guī)駕駛和長(zhǎng)尾極端情況案例之間的分布差異對(duì)平衡兩者構(gòu)成了重大挑戰(zhàn),最終導(dǎo)致“災(zāi)難性遺忘”。因此,需要一種更有效的方法來(lái)實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)中真正的持續(xù)學(xué)習(xí)。

下圖給出了記憶過(guò)程的示例。該場(chǎng)景涉及一輛藍(lán)色自車和一輛黃車在一條略寬于汽車兩倍的狹窄車道上在相反方向相遇。將場(chǎng)景轉(zhuǎn)換為結(jié)構(gòu)化文本輸入GPT-3.5后,模型很好地理解了場(chǎng)景,包括車輛的狀態(tài)、方向和目的地。然而,當(dāng)要求它對(duì)場(chǎng)景做出決定時(shí),GPT-3.5 給出了一個(gè)安全但過(guò)于謹(jǐn)慎的建議,即自車應(yīng)該停下來(lái)等待另一輛車先通過(guò)。為了提高LLM的性能,專家就人類駕駛員如何處理這種情況提供了實(shí)用的建議,其中包括保持汽車移動(dòng)并將其稍微向左輕推。LLM然后認(rèn)識(shí)到有足夠的空間讓兩輛車通過(guò),減速可能會(huì)擾亂交通流量。它將情況總結(jié)為“同一車道上的兩輛車相互靠近”,并記錄記憶以及正確的決定。利用這些記憶,輸入了另一個(gè)場(chǎng)景,即兩輛車以不同的速度和位置在狹窄的小巷中相遇,并要求LLM做出決定。LLM成功地認(rèn)識(shí)到這只是“同一車道上的兩輛車相互靠近”決策場(chǎng)景的另一種變型,并建議自車?yán)^續(xù)行駛而不需減速等待,是一種安全的辦法。

記憶能力不斷收集駕駛案例以獲得經(jīng)驗(yàn),并通過(guò)檢索現(xiàn)有記憶來(lái)輔助決策,賦予LLM在自動(dòng)駕駛領(lǐng)域的持續(xù)學(xué)習(xí)能力。此外,這大大降低了LLM在類似情況下的決策成本,并提高了其實(shí)際性能。

原文鏈接:https://mp.weixin.qq.com/s/DQpGuGWAona7JHKlQuA3eQ

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2021-12-21 15:28:30

廣義形狀GSE自動(dòng)駕駛

2023-09-16 13:30:37

AI訓(xùn)練

2024-03-19 13:12:36

自動(dòng)駕駛模型

2024-04-26 08:53:46

自動(dòng)駕駛人工智能大型語(yǔ)言模型

2024-08-14 14:43:00

2021-12-07 10:12:31

自動(dòng)駕駛數(shù)據(jù)汽車

2019-08-21 08:45:25

2015-04-09 11:27:34

2024-05-29 09:14:11

2021-10-19 10:08:39

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-04-23 15:13:16

算法模型技術(shù)

2023-12-08 10:10:56

模型論文調(diào)研

2022-07-28 14:46:01

人工智能機(jī)器人計(jì)算機(jī)科學(xué)

2020-09-30 17:12:09

人工智能技術(shù)數(shù)據(jù)

2020-01-09 17:03:29

人工智能技術(shù)算法

2023-10-24 09:53:56

自動(dòng)駕駛模型

2022-11-24 12:22:39

2022-07-12 14:56:30

AI模型研究

2021-10-31 08:09:07

網(wǎng)絡(luò)攻擊黑客網(wǎng)絡(luò)安全

2020-10-11 21:39:35

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)