自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動駕駛和自然語言如何結(jié)合?NuPrompt來了!

人工智能 新聞
本文開發(fā)了一個簡單的端到端基線模型,稱為PromptTrack,它有效地融合了新構(gòu)建的提示推理分支中的跨模態(tài)特征,以預(yù)測參考目標(biāo)(referent objects),顯示了令人印象深刻的性能。

原標(biāo)題:Language Prompt for Autonomous Driving

論文鏈接:https://arxiv.org/pdf/2309.04379.pdf

作者單位:北京理工大學(xué) 澳門大學(xué) MEGVII Technology 北京人工智能研究院

代碼鏈接:https://github.com/wudongming97/Prompt4Drivinguunw

論文思路

計算機視覺領(lǐng)域的一個新趨勢是根據(jù)自然語言提示符表示的靈活的人類命令捕獲感興趣的目標(biāo)。然而,由于缺乏配對提示實例(prompt-instance)數(shù)據(jù),在駕駛場景中使用語言提示的進展陷入了瓶頸。為了解決這個問題,本文提出了第一個以目標(biāo)為中心的語言提示集,用于3D、多視圖和多幀空間中的駕駛場景,名為NuPrompt。它擴展了Nuscenes的數(shù)據(jù)集,構(gòu)造了總共35367個語言描述,每個描述平均引用5.3個目標(biāo)軌跡?;谛禄鶞?zhǔn)中的目標(biāo)-文本對(object-text pairs),本文制定了一個新的基于提示的駕駛?cè)蝿?wù),即使用語言提示來預(yù)測所描述的目標(biāo)的跨視圖和幀的軌跡(trajectory)。此外,本文還提供了一個簡單的基于Transformer的端到端基線模型,名為PromptTrack。實驗表明,本文的PromptTrack在NuPrompt上取得了令人印象深刻的性能。本文希望這項工作能為自動駕駛社區(qū)提供更多新的見解。

主要貢獻

本文提出了一種新的大規(guī)模語言提示集(language prompt set),名為NuPrompt。據(jù)本文所知,它是第一個專門研究視頻領(lǐng)域多個感興趣的3D目標(biāo)的數(shù)據(jù)集。

本文構(gòu)造了一個新的基于提示的駕駛感知任務(wù),要求使用語言提示作為語義線索來預(yù)測目標(biāo)的軌跡。

本文開發(fā)了一個簡單的端到端基線模型,稱為PromptTrack,它有效地融合了新構(gòu)建的提示推理分支中的跨模態(tài)特征,以預(yù)測參考目標(biāo)(referent objects),顯示了令人印象深刻的性能。

網(wǎng)絡(luò)設(shè)計

為了推進駕駛場景中提示學(xué)習(xí)的研究,本文提出了一種新的大規(guī)模基準(zhǔn),名為NuPrompt?;鶞?zhǔn)測試是建立在流行的多視圖3D目標(biāo)檢測數(shù)據(jù)集Nuscenes[2]上的。本文將語言提示分配給具有相同特征的目標(biāo)集合,以便為它們奠定基礎(chǔ)(for grounding them)。從本質(zhì)上講,這個基準(zhǔn)提供了許多3D實例-文本匹配,具有三個主要屬性: 

1.真實駕駛描述。

與現(xiàn)有的基準(zhǔn)測試只表示來自模塊化圖像的2D目標(biāo)不同,本文數(shù)據(jù)集的提示描述了來自3D、環(huán)顧四周和長時間空間的各種與駕駛相關(guān)的目標(biāo)。圖1展示了一個典型的例子,即一輛車在多個視圖中從后面到前面超過了我們的車。

2.實例級提示標(biāo)注。

每個提示符都表示一個細粒度的、有區(qū)別的、以目標(biāo)為中心的描述,并允許它覆蓋任意數(shù)量的驅(qū)動目標(biāo)。

3.大規(guī)模語言提示。

就提示符的數(shù)量而言,NuPrompt可以與當(dāng)前最大的數(shù)據(jù)集[7]相媲美,即包含35367個語言提示符。

與基準(zhǔn)一起,本文制定了一個新的基于提示的感知任務(wù),其主要目標(biāo)是使用給定的語言提示來預(yù)測和跟蹤駕駛環(huán)境中的多個 3D目標(biāo)。該任務(wù)的難點在于兩個方面:跨幀時間關(guān)聯(lián)和跨模態(tài)語義理解。為了解決這一挑戰(zhàn),本文提出了一種端到端的基線,它建立在camera-only 3D tracker PF-Track[24]上,命名為PromptTrack。請注意,PF-Track通過它的過去和未來推理分支展示了出色的時空建模。此外,本文增加了一個快速推理分支來進行跨模態(tài)的融合和理解。具體來說,本文的提示推理涉及到提示嵌入和查詢特征之間的交叉注意力,這些特征來自過去的推理,進一步預(yù)測 prompt-referred 目標(biāo)。

圖5。PromptTrack的總體架構(gòu)。對于每一幀,視覺特征和查詢首先被輸入到Transformer解碼器中,以產(chǎn)生類似于原始DETR框架的解碼查詢。然后,過去的推理通過處理歷史查詢來增強和改進策略,而未來的推理則有利于使用預(yù)測位置進行跨幀查詢傳播。最后,快速推理分支預(yù)測 prompt-referred 軌跡。該模型采用在線模式進行評價,訓(xùn)練可進行端到端 differentiated。

圖片

圖2。語言提示標(biāo)注過程Pipeline,包括三個步驟:語言元素收集、語言元素組合、描述生成。首先,在語言元素收集階段,本文將每個語言標(biāo)簽與 referent objects 配對。然后,在語言元素組合階段,選擇并組合某些語言元素。最后,根據(jù)得到的組合,在描述生成階段采用大型語言模型(LLM)創(chuàng)建語言描述。

圖片

圖1。一個來自NuPrompt的典型例子。語言提示“正在超車的車輛”,在三維、多幀、多視圖空間內(nèi)精確注釋并匹配駕駛目標(biāo)。NuPrompt包含35367個目標(biāo)-提示符對。

圖3。NuPrompt的前100個單詞的詞云。它有大量的詞來描述駕駛物體的外觀,如“黑”、“白”、“紅”等,并涵蓋了許多運動場景,如“走”、“動”、“過”等。

圖4。NuPrompt的統(tǒng)計信息:(a)每個提示符的實例數(shù)分布和(b)每個提示符的框數(shù)分布。

實驗結(jié)果

圖片圖片圖片圖片

引用

Wu, D., Han, W., Wang, T., Liu, Y., Zhang, X., & Shen, J. (2023). Language Prompt for Autonomous Driving. ArXiv. /abs/2309.04379

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2013-01-16 16:05:49

語義云App自然語言

2023-10-25 09:50:07

自動駕駛訓(xùn)練

2021-02-23 09:03:11

自動駕駛AI人工智能

2022-07-12 09:42:10

自動駕駛技術(shù)

2021-11-18 22:43:56

自動駕駛技術(shù)安全

2023-07-17 11:27:56

2023-12-18 10:15:30

自動駕駛自然語言

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2020-04-21 16:01:13

自動駕駛新基建工信部

2023-02-13 12:15:41

自動駕駛算法

2022-07-05 11:21:12

自動駕駛汽車技術(shù)

2018-10-24 14:16:33

自動駕駛道路測試牌照

2019-07-30 13:18:25

自動駕駛L2駕駛

2021-05-13 07:17:13

Snownlp自然語言處理庫

2018-09-04 19:30:29

人工智能自動駕駛機器學(xué)習(xí)

2023-10-13 09:43:36

自動駕駛數(shù)據(jù)

2020-09-28 14:00:06

自動駕駛AI網(wǎng)絡(luò)

2021-12-01 10:21:27

自動駕駛技術(shù)人工智能
點贊
收藏

51CTO技術(shù)棧公眾號