GPT-4V在自動駕駛上應用前景如何?面向真實場景的全面測評來了
GPT-4V 的發(fā)布讓許多計算機視覺(CV)應用看到了新的可能。一些研究人員開始探索 GPT-4V 的實際應用潛力。
最近,一篇題為《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的論文針對自動駕駛場景對 GPT-4V 的能力進行了難度遞增的測試,從情景理解到推理,再到作為真實場景駕駛員的連續(xù)判斷和決策。
論文地址:https://arxiv.org/pdf/2311.05332.pdf
具體來說,論文對 GPT-4V 在自動駕駛領(lǐng)域的探索主要集中在以下幾個方面:
1、情景理解:該測試旨在評估 GPT-4V 的基本識別能力,包括識別駕駛時的天氣和光照條件,識別不同國家的交通信號燈和標志,以及評估不同類型攝像頭拍攝的照片中其他交通參與者的位置和行動。此外,出于好奇,他們還探索了不同視角的模擬圖像和點云圖像。
2、推理:在這一階段,研究者深入評估了 GPT-4V 在自動駕駛環(huán)境下的因果推理能力。這項評估包括幾個關(guān)鍵方面:首先,他們仔細研究了它在處理復雜 corner case(邊緣情況,即發(fā)生概率較低的可能場景)時的表現(xiàn),這些情況通常是對數(shù)據(jù)驅(qū)動感知系統(tǒng)的挑戰(zhàn)。其次,他們評估了它在提供全景視圖(surround view)方面的能力,這是自動駕駛應用中的一項重要功能。鑒于 GPT-4V 無法直接處理視頻數(shù)據(jù),他們利用串聯(lián)的時間序列圖像作為輸入來評估其時間相關(guān)性能力。此外,他們還進行了測試,以驗證其將現(xiàn)實世界場景與導航圖像關(guān)聯(lián)起來的能力,從而進一步檢驗其對自動駕駛場景的整體理解能力。
3、駕駛:為了充分發(fā)揮 GPT-4V 的潛力,研究者讓它扮演一名經(jīng)驗豐富的駕駛員,讓它在真實的駕駛環(huán)境中根據(jù)環(huán)境做出決策。他們的方法是以一致的幀率對駕駛視頻進行采樣,然后逐幀輸入 GPT-4V。為了幫助它做出決策,他們提供了基本的車速和其他相關(guān)信息,并告知了每段視頻的駕駛目標。他們要求 GPT-4V 采取必要行動,并對其選擇做出解釋,從而挑戰(zhàn)其在實際駕駛場景中的能力極限。
測試采用了經(jīng)過精心挑選的代表不同駕駛場景的圖片和視頻。測試樣本來自不同渠道,包括 nuScenes、Waymo Open 數(shù)據(jù)集、Berkeley Deep Drive-X (eXplanation) Dataset (BDD-X)、D2 -city、Car Crash Dataset (CCD)、TSDD、CODA、ADD 等開源數(shù)據(jù)集,以及 DAIR-V2X 和 CitySim 等 V2X 數(shù)據(jù)集。此外,還有一些樣本來自 CARLA 模擬環(huán)境,其他樣本則來自互聯(lián)網(wǎng)。值得注意的是,測試中使用的圖像數(shù)據(jù)可能包括時間戳截至 2023 年 4 月的圖像,有可能與 GPT-4V 模型的訓練數(shù)據(jù)重疊,而本文中使用的文本查詢完全是重新生成的。
實驗結(jié)果表明,GPT-4V 在情景理解、意圖識別和駕駛決策等方面展現(xiàn)出超越現(xiàn)有自動駕駛系統(tǒng)的潛力。
在 corner case 中,GPT-4V 可利用其先進的理解能力來處理分布外(OOD)的情況,并能準確評估周圍交通參與者的意圖。GPT-4V 利用多視角圖像和時間照片實現(xiàn)對環(huán)境的完整感知,準確識別交通參與者之間的動態(tài)互動。此外,它還能推斷出這些行為背后的潛在動機。他們還見證了 GPT-4V 在開放道路上做出連續(xù)決策的性能。它甚至能以類似人類的方式解釋導航應用程序的用戶界面,協(xié)助、指導駕駛員進行決策。總之,GPT-4V 的表現(xiàn)證明了視覺語言模型在應對自動駕駛領(lǐng)域復雜挑戰(zhàn)方面的巨大潛力。
需要注意的是,研究者詳述的所有實驗都是在 2023 年 11 月 5 日之前,利用網(wǎng)絡(luò)托管的 GPT-4V (ision)(9 月 25 日的版本)進行的。最新版本的 GPT-4V 在 11 月 6 日 OpenAI DevDay 之后進行了更新,在呈現(xiàn)相同圖像時可能會產(chǎn)生與本研究測試結(jié)果不同的反應。
情景理解能力
要實現(xiàn)安全有效的自動駕駛,一個基本前提是清楚透徹地理解當前場景。該研究主要關(guān)注兩個方面:模型對周圍環(huán)境的理解、模型對各種交通參與者的行為和狀態(tài)的理解,旨在通過評估闡明 GPT-4V 解釋動態(tài)交通環(huán)境的能力。
理解環(huán)境
為了評估 GPT-4V 理解其周圍環(huán)境的能力,該研究進行了一系列測試,涵蓋以下關(guān)鍵方面:判斷一天中的時間、了解當前天氣狀況、識別和解釋交通燈及標志。
如下圖 2 所示,GPT-4V 可以識別出前視圖像是一天中什么時間的場景,例如「傍晚」:
天氣是一個顯著影響駕駛行為的關(guān)鍵環(huán)境因素。該研究從 nuScenes 數(shù)據(jù)集中選擇了在不同天氣條件下,在同一路口拍攝的四張照片,要求 GPT-4V 識別這些圖像中的天氣狀況,結(jié)果如下圖 3 所示:
在識別和解釋交通燈及標志方面,GPT-4V 的表現(xiàn)明顯存在不足。如下圖 4 所示,GPT-4V 在夜間條件下成功識別出黃色路燈和紅色交通燈。然而,在圖 5 中,當圖像中的交通燈在遠處時(圖像顯示較小),GPT-4V 就錯誤地將綠燈的倒計時識別為紅燈的倒計時。
交通標志包含駕駛員需要遵守的各種規(guī)則和說明。自動駕駛系統(tǒng)需要識別交通標志、理解并遵守這些規(guī)則,從而降低交通事故的風險,提高駕駛安全性。
從下圖 6 可以看出,GPT-4V 可以識別大多數(shù)路標,包括附近的「SLOW」和遠處的限高「4.5m」,但錯誤地識別了「Speed Bump」標志。GPT-4V 具有一定的交通標志識別能力,但仍有進一步增強的空間。
理解交通參與者
如下圖 7(左)所示,模型能夠完整、準確地描述駕駛場景:識別行人、交通標志、交通燈狀態(tài)和周圍環(huán)境。圖 7 (右)顯示模型可以識別車輛類型及其尾燈,并可以猜測其打開尾燈的意圖。然而,GPT-4V 也輸出了一些不正確的描述,例如認為前面的車有后視攝像頭。
該研究評估了 GPT-4V 使用各種傳感器輸入理解交通參與者行為的能力,包括 2D 圖像(圖 9)、3D 點云的可視化(圖 10 )、從 V2X 設(shè)備(圖 11)和自動駕駛模擬軟件(圖 12)獲取的圖像。
高級推理能力
推理是正確駕駛行為的另一個重要因素。鑒于交通環(huán)境的動態(tài)性和不可預測性,駕駛員經(jīng)常會遇到一系列意外事件。面對這種不可預見的情況,熟練的駕駛員必須憑借經(jīng)驗和常識做出準確的判斷和決策。該研究進行了一系列的測試來評估 GPT-4V 對意外事件的響應。
Corner Case
如圖 13(左)所示,GPT-4V 可以清晰地描繪出不常見車輛的外觀、地面上的交通錐以及車輛旁邊的工作人員。識別這些條件后,GPT-4V 會意識到自我車輛應稍微向左移動,與右側(cè)工作區(qū)域保持安全距離,并小心駕駛。
多視圖圖像
通過利用多視角攝像頭,GPT-4V 可以捕捉駕駛環(huán)境的全面視圖,該研究評估了 GPT-4V 處理多視圖圖像的能力。
如下圖 16 所示,該研究選擇使用一組周圍環(huán)境圖像并以正確的順序?qū)⑺鼈冚斎氲侥P椭?。結(jié)果表明,GPT-4V 能夠熟練地識別場景中的各種元素,例如建筑物、車輛、障礙物和停車場,甚至可以從重疊的信息中推斷出場景中有兩輛汽車,其中一輛白色 SUV,一輛卡車。然而,GPT-4V 會錯誤地識別出人行橫道。
如下圖 17 所示,在另一個實驗中,GPT-4V 提供了對場景基本準確的描述,但也出現(xiàn)了一些識別錯誤,特別是在車輛的數(shù)量和形狀方面。值得注意的是,GPT-4V 會產(chǎn)生一些令人困惑的錯覺,例如認為圖片上有左轉(zhuǎn)標志。研究團隊推測這些問題可能是由于 GPT-4V 的空間推理能力有限。
此外,該研究還嘗試給出正確的前視圖,讓 GPT-4V 識別并給亂序的周圍圖像進行排序。盡管模型進行了大量看似有意義的分析和推理,但最終仍然輸出錯誤答案。顯然,GPT-4V 在建立相鄰圖像之間的連接方面遇到了挑戰(zhàn)。
時間序列
為了評估 GPT-4V 理解時間序列圖像的能力,該研究從視頻片段中提取四個關(guān)鍵幀,用序列號標記它們,并將它們組合成單個圖像以供輸入,要求 GPT-4V 描述該時間段內(nèi)發(fā)生的事件、自我車輛采取的行動及原因。測試結(jié)果如下圖 19、20、21、22 所示:
此外,在實際駕駛場景中,駕駛員經(jīng)常利用外部設(shè)備的輔助信息來增強決策能力,例如地圖導航 app。該研究為 GPT-4V 配備了前視攝像頭圖像以及來自地圖軟件的相應導航信息。
下圖 23、24 表明,GPT-4V 可以利用前視攝像頭和地圖導航 app 信息準確定位其位置,并給出相應的駕駛建議,但在一些情況下給出的建議是錯誤的。
駕駛能力
自動駕駛算法的最終目標是復制人類駕駛員的決策能力。實現(xiàn)這一目標需要精確識別、空間感知以及對各種交通要素之間時空關(guān)系的深入理解。該研究通過在幾個不同的現(xiàn)實駕駛場景中測試 GPT-4V 的決策能力來評估 GPT-4V 在自動駕駛方面的潛力。
例如,為了測試 GPT-4V 在封閉區(qū)域內(nèi)的駕駛決策能力,該研究選擇的場景是「右轉(zhuǎn)離開停車場」,并需要通過安檢,測試結(jié)果如下圖 25 所示。
該研究還選擇「交通繁忙的十字路口」場景進行了測試,結(jié)果如下圖 26 所示:
局限性總結(jié)
在測試中,研究人員發(fā)現(xiàn) GPT-4V 在以下任務(wù)中表現(xiàn)不佳:
1、區(qū)分左右:如圖 17 所示,在一些情況下,模型在識別方向方面遇到困難,而這正是自主導航的一個關(guān)鍵方面。圖 8 和圖 21 也顯示了類似的問題。這些圖突出顯示了模型在解釋復雜路口或做出變道決策時偶爾出現(xiàn)的混亂。
2、信號燈識別:在圖 12、15、22、26 和 29 中發(fā)現(xiàn)了該問題。研究者懷疑出現(xiàn)這一問題的原因是全圖中包含大量語義信息,導致交通信號燈的嵌入信息丟失。當圖像中的交通燈區(qū)域被裁剪并單獨輸入時,模型能夠成功識別,如圖 5 所示。
3、視覺定位任務(wù):如圖 7 所示,GPT-4V 很難指定像素級坐標或邊界框,只能指示圖像中的大致區(qū)域。
4、空間推理:準確的空間推理對于自動駕駛汽車的安全運行至關(guān)重要。無論是如圖 18 所示的多視角圖像拼接,還是如圖 21 所示的滑板車與自動駕駛汽車之間相對位置關(guān)系的估算,GPT-4V 都難以做出精確的判斷。這可能源于根據(jù)二維圖像輸入理解和解釋三維空間的內(nèi)在復雜性。
感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。