自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Waabi最新 | UnO:用于感知和預(yù)測(cè)的無監(jiān)督占用場(chǎng)

人工智能 新聞
本文的目標(biāo)是學(xué)習(xí)一個(gè)能夠利用大規(guī)模未標(biāo)注LiDAR數(shù)據(jù)的世界模型,并且能夠輕松且有效地遷移到下游感知和預(yù)測(cè)任務(wù)中。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

原標(biāo)題:UnO: Unsupervised Occupancy Fields for Perception and Forecasting

論文鏈接:https://arxiv.org/pdf/2406.08691

項(xiàng)目鏈接:https://waabi.ai/uno/

作者單位:Waabi 多倫多大學(xué)

圖片

論文思路:

感知世界并預(yù)測(cè)其未來狀態(tài)是自動(dòng)駕駛中的一項(xiàng)關(guān)鍵任務(wù)。監(jiān)督方法利用帶標(biāo)注的物體標(biāo)簽來學(xué)習(xí)世界模型——傳統(tǒng)上通過目標(biāo)檢測(cè)和軌跡預(yù)測(cè),或時(shí)序鳥瞰視角(BEV)占用場(chǎng)。然而,這些標(biāo)注代價(jià)高昂,且通常僅限于一組預(yù)定義的類別,無法涵蓋我們?cè)诘缆飞峡赡苡龅降乃星闆r。相反,本文通過從LiDAR數(shù)據(jù)中進(jìn)行自監(jiān)督學(xué)習(xí),來感知和預(yù)測(cè)一個(gè)連續(xù)的4D(時(shí)空)占用場(chǎng)。這個(gè)無監(jiān)督的世界模型可以輕松且有效地轉(zhuǎn)移到下游任務(wù)中。本文通過添加一個(gè)輕量級(jí)的學(xué)習(xí)渲染器來處理點(diǎn)云預(yù)測(cè),并在Argoverse 2、nuScenes和KITTI數(shù)據(jù)集中實(shí)現(xiàn)了最先進(jìn)的性能。為了進(jìn)一步展示其可遷移性,本文微調(diào)本文的模型用于BEV語義占用預(yù)測(cè),并顯示其在標(biāo)注數(shù)據(jù)稀缺時(shí),優(yōu)于全監(jiān)督的最先進(jìn)方法。最后,與之前最先進(jìn)的時(shí)空幾何占用預(yù)測(cè)方法相比,本文的4D世界模型在識(shí)別與自動(dòng)駕駛相關(guān)的物體類別上實(shí)現(xiàn)了更高的召回率。

論文設(shè)計(jì):

為了讓自動(dòng)駕駛車輛(SDV)能夠有效且安全地規(guī)劃其行動(dòng),它必須能夠感知環(huán)境并預(yù)測(cè)其未來的演變。為了執(zhí)行這兩項(xiàng)任務(wù),已經(jīng)發(fā)展了兩種范式。最常見的方法是檢測(cè)場(chǎng)景中的一組離散物體,然后預(yù)測(cè)每個(gè)物體的可能未來軌跡 [5, 8, 11, 20, 21, 25, 35, 37, 39]。最近,鳥瞰視角(BEV)語義占用場(chǎng) [1, 6, 15, 27, 31, 34] 變得流行起來,因?yàn)樗鼈儽苊饬藢?duì)置信度分?jǐn)?shù)進(jìn)行閾值處理,并且更好地表示了對(duì)未來運(yùn)動(dòng)的不確定性。

這些方法利用來自人工標(biāo)注的監(jiān)督來學(xué)習(xí)世界模型。不幸的是,它們的性能受限于人工標(biāo)注的規(guī)模和表達(dá)能力。由于這些標(biāo)簽的成本高昂,可用的標(biāo)注數(shù)據(jù)量比未標(biāo)注數(shù)據(jù)的量級(jí)要小得多。此外,這些標(biāo)簽通常局限于一組預(yù)定義的物體類別,并且物體形狀用3D邊界框來近似,對(duì)于許多類別來說,這是一個(gè)非常粗糙的近似。因此,罕見事件和不常見的物體很少包含在標(biāo)注數(shù)據(jù)中,限制了當(dāng)前自動(dòng)駕駛系統(tǒng)的安全性。

這促使本文開發(fā)能夠利用大量未標(biāo)注傳感器數(shù)據(jù)來學(xué)習(xí)世界表示的方法。先前的工作提出直接從過去的點(diǎn)云預(yù)測(cè)未來的點(diǎn)云 [28, 36, 38, 40]。然而,這使得任務(wù)變得不必要地困難,因?yàn)槟P筒粌H必須學(xué)習(xí)世界模型,還必須學(xué)習(xí)傳感器的外參和內(nèi)參以及LiDAR的屬性,如光線反射率,這是一種復(fù)雜的材料和入射角(materials and incidence angle)函數(shù)。為了解決這個(gè)問題,4D-OCC [23] 提出了利用已知的傳感器內(nèi)參和外參來學(xué)習(xí)未來的幾何占用體素網(wǎng)格。然而,該方法受限于使用量化的體素網(wǎng)格和通過回歸優(yōu)化光密度的LiDAR深度渲染目標(biāo)。正如本文的實(shí)驗(yàn)所示,這導(dǎo)致模型在學(xué)習(xí)世界動(dòng)態(tài)時(shí)遇到困難。此外,所學(xué)習(xí)的表示是否對(duì)點(diǎn)云預(yù)測(cè)以外的下游任務(wù)有用仍然未知。

本文的目標(biāo)是學(xué)習(xí)一個(gè)能夠利用大規(guī)模未標(biāo)注LiDAR數(shù)據(jù)的世界模型,并且能夠輕松且有效地遷移到下游感知和預(yù)測(cè)任務(wù)中。為此,本文提出了一項(xiàng)新的無監(jiān)督任務(wù):從LiDAR觀測(cè)中預(yù)測(cè)連續(xù)的4D(3D空間和時(shí)間)占用場(chǎng)(圖1.a)。這一目標(biāo)適合于學(xué)習(xí)通用表示,因?yàn)闇?zhǔn)確預(yù)測(cè)時(shí)空占用場(chǎng)需要理解世界的幾何結(jié)構(gòu)(例如,預(yù)測(cè)部分遮擋物體的形狀)、動(dòng)態(tài)(例如,預(yù)測(cè)移動(dòng)物體未來的位置)和語義(例如,理解道路規(guī)則)。重要的是,本文采用了一種隱式架構(gòu),使本文的模型能夠在空間和未來時(shí)間的任何連續(xù)點(diǎn)(x, y, z, t)進(jìn)行查詢。本文稱之為UNO(UNsupervised Occupancy)的世界模型,能夠?qū)W習(xí)常識(shí)性概念,例如物體的完整范圍,即使輸入的LiDAR數(shù)據(jù)只能看到物體的一部分。預(yù)測(cè)具有相關(guān)不確定性的多模態(tài)未來的能力也隨之而來;例如,UNO可以預(yù)測(cè)一輛車可能會(huì)或不會(huì)變道,而行人可能會(huì)留在人行道上或進(jìn)入人行橫道。

為了展示本文的世界模型的通用性和有效性,本文展示了它可以遷移到兩個(gè)重要的下游任務(wù):點(diǎn)云預(yù)測(cè)(圖1.b)和監(jiān)督的BEV語義占用預(yù)測(cè)(圖1.c)。對(duì)于點(diǎn)云預(yù)測(cè),UNO通過在占用預(yù)測(cè)的基礎(chǔ)上學(xué)習(xí)一個(gè)簡(jiǎn)單的光線深度渲染器,超越了Argoverse 2、nuScenes和KITTI中的最先進(jìn)方法。對(duì)于BEV語義占用預(yù)測(cè),本文展示了微調(diào)UNO能夠優(yōu)于完全監(jiān)督的方法,特別是在可用于訓(xùn)練的標(biāo)簽有限時(shí),這種改進(jìn)尤為顯著,展示了令人印象深刻的少樣本泛化能力。

圖片

圖1. 本文展示了UNO,這是一種世界模型,能夠從未標(biāo)注數(shù)據(jù)中學(xué)習(xí)預(yù)測(cè)隨時(shí)間變化的3D占用情況(a)。該模型可以輕松且有效地遷移到下游任務(wù),如點(diǎn)云預(yù)測(cè)(b)和鳥瞰視角語義占用預(yù)測(cè)(c)。

圖片

圖片

實(shí)驗(yàn)結(jié)果:

圖片

圖4. UNO在兩個(gè)不同示例上的可視化。本文標(biāo)注了以下值得注意的觀察:(A) 右轉(zhuǎn)車輛的預(yù)測(cè),(B) 僅從LiDAR數(shù)據(jù)的部分視角觀察到的物體范圍,(C) 移動(dòng)車輛的預(yù)測(cè),其中擴(kuò)展的占用表示對(duì)未來加速度的不確定性,(D) 對(duì)人行道上行走行人的預(yù)測(cè),(E) 預(yù)測(cè)車輛繞過停放的汽車進(jìn)行變道,(F) 對(duì)變道車輛的持久點(diǎn)云預(yù)測(cè),(G) 感知小物體如錐形標(biāo)。

圖片

圖5. BEV語義占用結(jié)果。微調(diào)UNO與最先進(jìn)的監(jiān)督方法在不同監(jiān)督規(guī)模下的對(duì)比。

圖片

圖6. 微調(diào)后的UNO的BEV語義占用預(yù)測(cè)。本文可視化了地圖以提供上下文,但這不是模型的輸入。A:準(zhǔn)確感知場(chǎng)景中擁擠的區(qū)域,B:預(yù)測(cè)左轉(zhuǎn)結(jié)束,顯示出隱式地圖理解,C:對(duì)移動(dòng)物體進(jìn)行準(zhǔn)確的未來預(yù)測(cè)。

圖片

圖7. 在Argoverse 2傳感器數(shù)據(jù)集上的無監(jiān)督占用召回率比較,結(jié)果在預(yù)測(cè)時(shí)間范圍內(nèi)取平均值。召回率是在0.7的精度下計(jì)算的。?表示最稀有的25%的類別,?表示按邊界框體積計(jì)算最小的25%的類別。

總結(jié):

本文提出了UNO,這是一種強(qiáng)大的無監(jiān)督占用世界模型,能夠從過去的LiDAR數(shù)據(jù)中預(yù)測(cè)4D幾何占用場(chǎng)。為了解決這個(gè)問題,本文利用未來點(diǎn)云所隱含的占用作為監(jiān)督,來訓(xùn)練一個(gè)可以在任意連續(xù)的 (x, y, z, t) 點(diǎn)上查詢的隱式架構(gòu)。UNO不僅能夠從未標(biāo)注數(shù)據(jù)中實(shí)現(xiàn)對(duì)世界幾何、動(dòng)態(tài)和語義的出色理解,而且也能夠有效且輕松地遷移到執(zhí)行下游任務(wù)。為了展示這一能力,本文證明了UNO在點(diǎn)云預(yù)測(cè)和有監(jiān)督的BEV語義占用預(yù)測(cè)任務(wù)上優(yōu)于最先進(jìn)的方法。本文希望UNO和未來在無監(jiān)督世界模型方面的工作能夠?yàn)樽詣?dòng)駕駛帶來更高的安全性,特別是對(duì)脆弱和稀有道路使用者。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2019-07-10 05:47:37

GAN無監(jiān)督表征學(xué)習(xí)機(jī)器學(xué)習(xí)

2023-11-28 12:03:46

人工智能無監(jiān)督學(xué)習(xí)算法

2020-06-02 10:28:17

機(jī)器學(xué)習(xí)技術(shù)人工智能

2024-09-05 11:48:33

2020-11-11 09:00:00

機(jī)器學(xué)習(xí)技術(shù)人工智能

2022-08-19 09:00:00

人工智能GANs生成模型

2024-07-11 10:38:02

2012-10-25 11:27:40

BYOD無感知認(rèn)證Portal認(rèn)證

2021-05-12 15:22:07

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2023-11-23 15:54:01

人工智能監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)

2023-11-28 09:37:12

3D自動(dòng)駕駛

2024-01-02 11:43:39

地圖AI

2022-12-13 10:13:09

智能駕駛

2020-04-28 17:26:04

監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)

2023-11-28 09:24:51

自動(dòng)駕駛地圖

2023-11-15 18:40:27

半監(jiān)督學(xué)習(xí)人工智能

2023-10-13 15:34:55

時(shí)間序列TimesNet

2023-08-28 16:49:08

物聯(lián)網(wǎng)傳感器

2017-11-09 14:04:22

無監(jiān)督學(xué)習(xí)數(shù)據(jù)缺失數(shù)據(jù)集

2017-10-09 23:21:08

無監(jiān)督學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)