自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeuRAD: 用于自動駕駛的神經渲染(多數據集SOTA)

智能汽車 人工智能
本文目標是學習一種表示,從中可以生成真實的傳感器數據,其中可以改變自車平臺、行動者的姿態(tài),或者兩者兼而有之。

論文"NeuRAD: Neural Rendering for Autonomous Driving",來自Zenseact,Chalmers科技大學,Linkoping大學和Lund大學。

圖片神經輻射場(NeRF)在自動駕駛(AD)社區(qū)中越來越受歡迎。最近的方法顯示了NeRFs在閉環(huán)模擬、AD系統(tǒng)測試和訓練數據增強技術方面的潛力。然而,現有的方法往往需要長的訓練時間、密集的語義監(jiān)督,缺乏可推廣性。這反過來又阻礙了NeRF在AD中的大規(guī)模應用。本文提出NeuRAD,一種針對動態(tài)AD數據的穩(wěn)健的新視圖合成方法。該方法具有簡單的網絡設計、包括相機和激光雷達的傳感器建模(包括滾動快門、光束發(fā)散和光線降落),適用于開箱即用的多個數據集。

如圖所示:NeuRAD是一種為動態(tài)汽車場景量身定制的神經渲染方法??梢愿淖冏攒嚭推渌缆肥褂谜叩淖藨B(tài),也可以自由添加和/或移除參與者。這些功能使NeuRAD適合作為傳感器逼真的閉環(huán)模擬器或強大數據增強引擎等組件的基礎。

圖片本文目標是學習一種表示,從中可以生成真實的傳感器數據,其中可以改變自車平臺、行動者的姿態(tài),或者兩者兼而有之。假設可以訪問由移動平臺收集的數據,由設定的相機圖像和激光雷達點云組成,以及對任何移動行動者大小和姿態(tài)的估計。為了實用性,該方法需要在主要汽車數據集上的重建誤差方面表現良好,同時將訓練和推理時間保持在最低限度。

如圖是本文提出方法NeuRAD的概覽:學習一個用于汽車場景的靜態(tài)和動態(tài)的聯合神經特征場,通過行動者-覺察的哈希編碼來區(qū)分。落入行動者邊框內的點被轉換為行動者局部坐標,并與行動者索引一起用于查詢4D哈希網格。用上采樣CNN將體渲染的光線級特征解碼為RGB值,并用MLP將其解碼為光線降落概率和強度。

圖片在新視圖合成[4,47]的工作基礎上,作者用神經特征場(NFF)、NeRFs[25]的推廣和類似方法[23]對世界進行建模。

為了渲染圖像,對一組相機射線進行體渲染,生成特征圖F。如[47]所示,然后依靠CNN來渲染最終圖像。在實踐中,特征圖的分辨率低于圖像,并且用CNN進行上采樣。這樣能夠大幅減少查詢的光線數量。

激光雷達傳感器允許自動駕駛車輛測量一組離散點的深度和反射率(強度)。他們通過發(fā)射激光束脈沖和測量飛行時間來確定距離和反射率的返回功率。為了捕捉這些特性,將來自姿態(tài)激光雷達傳感器的傳輸脈沖建模為一組射線,并使用類似體渲染技術。

考慮不返回任何點的激光束射線。如果返回功率過低,就會出現一種現象,稱為射線降落,這對于減少模擬-實際差別的建模非常重要[21]。通常,這樣的光線傳播得很遠而不會碰到表面,或者碰到光束反彈到空地上的表面,例如鏡子、玻璃或潮濕的路面。對這些影響進行建模對于傳感器真實模擬很重要,但如[14]所述,很難完全基于物理來捕捉,因為它們依賴于(通常未公開的)低層傳感器檢測邏輯的細節(jié)。因此,選擇從數據中學習光線降落。與強度類似,可體渲染光線特征,并將其通過一個小MLP來預測光線下降概率pd(r)。請注意,與[14]不同的是,不對激光雷達光束的二次回波進行建模,因為實驗中五個數據集中不存在此信息。

將神經特征場(NFF)的定義擴展為學習函數(s,f)=NFF(x,t,d),其中x是空間坐標,t表示時間,d表示視角方向。重要的是,該定義引入了時間作為輸入,這對于場景的動態(tài)方面建模至關重要。

神經架構

NFF架構遵循NeRF[4,27]中公認的最佳方法。給定位置x和時間t,查詢行動者-覺察哈希編碼。然后,這種編碼輸入到一個小MLP中,該感知器計算有符號距離s和中間特征g。用球諧波[27]對視圖方向d進行編碼,使模型能夠捕捉反射和其他與視圖相關的效果。最后,通過第二個MLP聯合處理方向編碼和中間特征,用g的跳躍連接來增強,從而產生特征f。

場景構成

與之前的工作[18,29,46,47]類似,將世界分解為兩個部分,靜態(tài)背景和一組剛性動態(tài)行動者,每個行動者由一個3D邊框和一組SO(3)姿態(tài)定義。提供雙重目的:簡化學習過程,并允許一定程度的可編輯性,在訓練后可以動態(tài)行動者生成新場景。與之前不同場景元素使用單獨NFF的方法不同,本文用一個單個統(tǒng)一NFF,其中所有網絡都是共享的,靜態(tài)和動態(tài)組件之間的區(qū)別由行動者-覺察的哈希編碼透明處理。編碼策略很簡單:根據給定樣本(x,t)是否位于行動者邊框內,用兩個函數中的一個對其進行編碼。

無界靜態(tài)場景

用多分辨率哈希網格[27]表示靜態(tài)場景,因為這已被證明是一種高度表達和高效的表示。然而,為了將無界場景映射到網格上,采用MipNerf-360[3]中提出的收縮方法。這能夠用單個哈希網格準確地表示附近的道路元素和遠處的云。相比之下,現有的方法利用專用的NFF來捕捉天空和其他遙遠的區(qū)域[47]。

剛性動態(tài)行動者

當樣本(x,t)落在行動者的邊框內時,其空間坐標x和視角方向d在給定時間t轉換到行動者的坐標系。忽略之后的時間方面,并從與時間無關的多分辨率哈希網格中采樣特征,就像靜態(tài)場景一樣。簡單地說,需要分別對多個不同的哈希網格進行采樣,每個行動者是一個。然而,轉而使用單個4D哈希網格,其中第四個維度對應于行動者索引。這種方法允許并行地對所有行動者特征進行采樣,在匹配單獨哈希網格性能的同時實現顯著的加速。

多尺度場景問題

將神經渲染應用于汽車數據的最大挑戰(zhàn)之一是處理這些數據中存在的多個細節(jié)級。當車輛行駛很長距離時,無論是從遠處還是近距離都可以看到許多表面。在這些多尺度設置中天真地應用iNGP[27]或NeRF的位置嵌入會導致混疊偽影[2]。為了解決這一問題,許多方法將射線建模為截錐體,截錐體縱向由bin的大小決定,徑向由像素面積以及與傳感器的距離決定[2,3,13]。

Zip-NeRF[4]是目前iNGP哈希網格的唯一抗混疊(anti-aliasing)方法,它結合了兩種截頭體建模技術:多采樣和降低權重。在多采樣中,對截頭體多個位置的位置嵌入進行平均,捕捉縱向和徑向范圍。對于降低權重,每個樣本都被建模為各向同性高斯,網格特征的權重與單元(cell)大小和高斯方差之間比例成比,從而有效地抑制更精細的分辨率。雖然組合技術顯著提高了性能,但多重采樣也顯著增加了運行時間。所以本文目標是以最小的運行影響結合規(guī)模信息。受Zip-NeRF的啟發(fā),作者提出了一種直觀的降低權重方案,根據哈希網格特征相對于截頭體的大小對其進行權重降低。

高效采樣

渲染大規(guī)模場景的另一個困難是需要高效的采樣策略。在一張圖像中,可能想在附近的交通標志上渲染詳細的文本,同時捕捉幾公里外摩天大樓之間的視差效果。為了實現這兩個目標,對射線進行均勻采樣將需要每條射線數千個樣本,這在計算上是不可行的。以前的工作在很大程度上依賴激光雷達數據來修剪樣本[47],因此很難在激光雷達的工作之外進行渲染。

相反,本文根據冪函數[4]沿射線渲染樣本,使得樣本之間的空間隨著與射線原點的距離而增加。即便如此,不可能在樣本數量急劇增加的情況下滿足所有相關條件。因此,還采用兩輪的提議采樣(proposal sampling)[25],其中查詢NFF(neural feature field)的輕量級版本,生成沿射線的權重分布。然后,根據這些權重渲染一組新的樣本。經過兩輪這個過程后,得到了一組精細的樣本,這些樣本集中在射線上的相關位置,可以用來查詢全尺寸NFF。為了監(jiān)督所提出的網絡,采用了一種抗混疊的在線蒸餾方法[4],并進一步使用激光雷達進行監(jiān)督。

建模滾動快門

在基于NeRF的標準公式中,假設每個圖像都是從一個原點o捕獲的。然而,許多相機傳感器都有滾動快門,即像素行是按順序捕獲的。因此,相機傳感器可以在第一行的捕獲和最后一行的捕獲之間移動,打破了單一原點的假設。雖然合成數據[24]或慢速手持相機拍攝的數據不是問題,但滾動快門在快速移動車輛的拍攝中變得明顯,尤其是側面相機。同樣的影響也存在于激光雷達中,每次掃描通常在0.1s內收集,當以高速公路速度行駛時,這相當于幾米移動。即使對于自我運動補償的點云,這些差異也可能導致有害的視線誤差,即3D點轉化為穿過其他幾何的射線。為了減輕這些影響,為每條光線指定單獨的時間并根據估計的運動調整其原點,這樣對滾動快門進行建模。由于滾動快門會影響場景的所有動態(tài)元素,因此會對每個單獨的光線時間,行動者姿態(tài)做線性插值。

不同的相機設置

模擬自動駕駛序列時的另一個問題是,圖像來自不同的相機,具有潛在的不同捕獲參數,如曝光。在這里,從“NeRFs in the wild”[22]的研究中獲得了靈感,其中為每個圖像學習外觀嵌入,并與其特征一起傳遞到第二個MLP。然而,當知道哪個圖像來自哪個傳感器時,反而為每個傳感器學習單個嵌入,從而最大限度地減少過擬合的可能性,并允許在生成新視圖時使用這些傳感器嵌入。當渲染特征而不是顏色時,在體渲染后應用這些嵌入,顯著減少了計算開銷。

含噪的行動者姿態(tài)

模型依賴于對動態(tài)行動者姿態(tài)的估計,無論其是以注釋的形式還是作為跟蹤輸出。為了解決缺陷,將行動者姿態(tài)作為可學習的參數納入模型中,并對其進行聯合優(yōu)化。姿態(tài)參數化為平移t和旋轉R,用6D-表示[50]。

注:NeuRAD是在開源項目Nerfstudio[33]中實現的。用Adam[17]optimizer訓練方法,進行20000次迭代。使用一臺英偉達A100,訓練大約需要1個小時。

復現UniSim:UniSim[47]是一種神經閉環(huán)傳感器模擬器。它具有逼真的渲染效果,對可用的監(jiān)督幾乎沒有任何假設,即它只需要相機圖像、激光雷達點云、傳感器姿態(tài)和帶有動態(tài)行動者軌跡的3D邊框。這些特性使UniSim成為一個合適的基線,因為它很容易應用于新自動駕駛數據集。然而,該代碼是封閉源代碼,也沒有非官方的實現。因此,本文選擇重新實現UniSim,作為自己的模型,在Nerfstudio[33]中這樣實現。由于UniSim的主要文章沒有詳細說明許多模型細節(jié),只能依賴于IEEE Xplore提供的補充材料。盡管如此,一些細節(jié)仍然是未知的,作者已經調整了這些超參數,匹配10個選定PandaSet[45]序列的報告性能。

責任編輯:張燕妮 來源: 計算機視覺深度學習和自動駕駛
相關推薦

2017-03-07 13:55:30

自動駕駛神經網絡深度學習

2024-01-10 09:25:21

自動駕駛視圖

2023-10-11 10:22:55

數據集計算機

2024-09-04 10:20:00

自動駕駛模型

2020-08-25 19:18:23

自動駕駛人工智能AI

2024-08-20 08:42:33

自動駕駛算法

2024-06-05 09:22:43

2022-10-27 10:18:25

自動駕駛

2022-01-05 14:23:10

mobileye英特爾CES

2019-09-19 14:10:12

人工智能物聯網自動駕駛

2020-03-27 22:15:52

自動駕駛物聯網大數據

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2022-07-12 09:42:10

自動駕駛技術

2023-04-28 09:24:50

自動駕駛數據

2024-03-22 10:24:02

系統(tǒng)評估

2018-10-24 14:16:33

自動駕駛道路測試牌照

2024-04-17 09:50:28

自動駕駛端到端

2020-01-09 08:42:23

自動駕駛AI人工智能
點贊
收藏

51CTO技術棧公眾號