伯克利開源首個泊車場景下的高清數(shù)據(jù)集和預(yù)測模型,支持目標(biāo)識別、軌跡預(yù)測
在自動駕駛技術(shù)不斷迭代的當(dāng)下,車輛的行為和軌跡預(yù)測對高效、安全駕駛有著極為重要的意義。動力學(xué)模型推演、可達性分析等傳統(tǒng)的軌跡預(yù)測的方法雖然有著形式明晰、可解釋性強的優(yōu)點,但在復(fù)雜的交通環(huán)境中,其對于環(huán)境和物體交互的建模能力較為有限。因此,近年來大量研究和應(yīng)用都基于各種深度學(xué)習(xí)方法(例如 LSTM、CNN、Transformer、GNN 等),各類數(shù)據(jù)集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也紛紛涌現(xiàn),為訓(xùn)練和評估深度神經(jīng)網(wǎng)絡(luò)模型提供了強力支持,不少 SOTA 模型例如 GroupNet、Trajectron++、MultiPath 等都表現(xiàn)出了良好的性能。
以上模型和數(shù)據(jù)集都集中在正常的道路行駛場景下,并充分利用車道線、交通燈等基礎(chǔ)設(shè)施和特征輔助預(yù)測過程;由于交通法規(guī)的限制,絕大多數(shù)車輛的運動方式也較為明確。然而,在自動駕駛的 “最后一公里”—— 自動泊車場景下,我們將面對不少新的困難:
- 停車場內(nèi)的交通規(guī)則和車道線要求并不嚴(yán)格,車輛也經(jīng)常隨意行駛 “抄近路”
- 為了完成泊車任務(wù),車輛需要完成較為復(fù)雜的泊車動作,包括頻繁的倒車、停車、轉(zhuǎn)向等。在駕駛員經(jīng)驗不足的情況下,泊車可能成為一個漫長的過程
- 停車場內(nèi)障礙物較多且雜亂,車間距離較近,稍不留神就可能導(dǎo)致碰撞和剮蹭
- 停車場內(nèi)行人往往隨意穿行,車輛需要更多的避讓動作
在這樣的場景下,簡單套用現(xiàn)有的軌跡預(yù)測模型難以達到理想的效果,而重新訓(xùn)練模型又缺乏相應(yīng)數(shù)據(jù)的支持。當(dāng)下基于停車場景的數(shù)據(jù)集例如 CNRPark+EXT 和 CARPK 等,都僅為空閑停車位檢測而設(shè)計,圖片來源于提供監(jiān)控相機第一人稱視角、采樣率低、且遮擋較多,無法用于軌跡預(yù)測。
在 2022 年 10 月剛剛結(jié)束的第 25 屆 IEEE 智能交通系統(tǒng)國際會議 (IEEE ITSC 2022) 中,來自加州大學(xué)伯克利分校的研究者們發(fā)布了首個針對停車場景的高清視頻 & 軌跡數(shù)據(jù)集,并在此數(shù)據(jù)集的基礎(chǔ)上,利用 CNN 和 Transformer 架構(gòu)提出了名為 “ParkPredict+” 的軌跡預(yù)測模型。
- 論文鏈接:https://arxiv.org/abs/2204.10777
- 數(shù)據(jù)集主頁、試用和下載申請:https://sites.google.com/berkeley.edu/dlp-dataset (如無法訪問,可嘗試備用頁面 https://cutt.ly/dlp-notion )
- 數(shù)據(jù)集 Python API:https://github.com/MPC-Berkeley/dlp-dataset
數(shù)據(jù)集信息
數(shù)據(jù)集由無人機進行采集,總時長為 3.5 小時,視頻分辨率為 4K,采樣率 25Hz。視野范圍覆蓋了約 140m x 80m 的停車場區(qū)域,共計約 400 個停車位。數(shù)據(jù)集經(jīng)過精確標(biāo)注,共采集到 1216 輛機動車、3904 輛自行車和 3904 位行人的軌跡。
經(jīng)過重新處理后,軌跡數(shù)據(jù)可以 JSON 的形式讀取,并加載為連接圖(Graph)的數(shù)據(jù)結(jié)構(gòu):
- 個體(Agent):每個個體(Agent)即為一個在當(dāng)前場景(Scene)下運動的物體,具備幾何形狀、類型等屬性,其運動軌跡被儲存為一個包含實例(Instance)的鏈表(Linked List)
- 實例(Instance):每個實例(Instance)即為一個個體(Agent)在一幀(Frame)中的狀態(tài),包含其位置、轉(zhuǎn)角、速度和加速度。每個實例都包含指向該個體在前一幀和后一幀下實例的指針
- 幀(Frame):每一幀(Frame)即為一個采樣點,其包含當(dāng)前時間下所有可見的實例(Instance),和指向前一幀和后一幀的指針
- 障礙物(Obstacle):障礙物即為在此次記錄中完全沒有移動的物體,包含各個物體的位置、轉(zhuǎn)角和幾何尺寸
- 場景(Scene):每個場景(Scene)對應(yīng)于一個錄制的視頻文件,其包含指針,指向該錄制的首幀和尾幀、所有個體(Agent)和所有障礙物(Obstacle)
數(shù)據(jù)集提供兩種下載格式:
僅 JSON(推薦):JSON 文件包含所有個體的類型、形狀、軌跡等信息,可以通過開源的 Python API 直接讀取、預(yù)覽、并生成語義圖像(Semantic Images)。如果研究目標(biāo)僅為軌跡和行為預(yù)測,JSON 格式可以滿足所有的需求。
原視頻和標(biāo)注:如果研究是基于相機原圖像(Raw Image)的目標(biāo)檢測、分隔、追蹤等機器視覺領(lǐng)域課題,那么可能會需要下載原視頻和標(biāo)注。如有此需要,需要在數(shù)據(jù)集申請中明確描述該研究需求。另外,標(biāo)注文件需自行解析。
行為和軌跡預(yù)測模型:ParkPredict+
作為應(yīng)用示例,在 IEEE ITSC 2022 的論文《ParkPredict+: Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究團隊利用此數(shù)據(jù)集,基于 CNN 和 Transformer 架構(gòu)實現(xiàn)了在停車場場景下車輛的意圖(Intent)和軌跡(Trajectory)預(yù)測。
團隊利用 CNN 模型,通過構(gòu)建語義圖像(Semantic Images),實現(xiàn)了對于車輛意圖(Intent)分布概率的預(yù)測 。該模型僅需要構(gòu)建車輛局部的環(huán)境信息,且可根據(jù)當(dāng)前環(huán)境,不斷變化可供選擇的意圖數(shù)量。
團隊通過改進 Transformer 模型,將意圖(Intent)預(yù)測結(jié)果、車輛的運動歷史、周邊環(huán)境的語義圖作為輸入提供,實現(xiàn)了多模態(tài)(Multi-modal)的意圖和行為預(yù)測。
總結(jié)
- 作為首個針對泊車場景的高精度數(shù)據(jù)集,Dragon Lake Parking (DLP) 數(shù)據(jù)集可為該場景下大規(guī)模目標(biāo)識別和追蹤、空閑車位檢測、車輛和行人的行為和軌跡預(yù)測、模仿學(xué)習(xí)等研究提供數(shù)據(jù)和 API 支持
- 通過使用 CNN 和 Transformer 架構(gòu),ParkPredict + 模型在泊車場景下的行為和軌跡預(yù)測中展現(xiàn)除了良好的能力
- Dragon Lake Parking (DLP) 數(shù)據(jù)集已開放試用和申請,可通過訪問數(shù)據(jù)集主頁 https://sites.google.com/berkeley.edu/dlp-dataset 了解詳細信息(如無法訪問,可嘗試備用頁面 ??https://cutt.ly/dlp-notion?? )