自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeO 360:用于室外場景稀疏視圖合成的神經(jīng)場

人工智能 智能汽車
本文的?法擴(kuò)展了 NeRF++ 使其具有可推廣性。?法的核?是以三平?形式表示的局部特征。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

論文:ICCV 2023 https://arxiv.org/pdf/2308.12967.pdf
作者單位:Georgia Institute of Technology;Toyota Research Institute

圖片圖片

近期的隱式神經(jīng)表示在新視角合成方面取得了很好的結(jié)果。然而,現(xiàn)有的方法需要從大量視角進(jìn)行昂貴的場景優(yōu)化,然而現(xiàn)實(shí)世界中感興趣的對象或背景僅從很少的視角觀察到,因此限制了這些方法在真實(shí)世界的無限城市環(huán)境中的應(yīng)用,為了克服這一挑戰(zhàn),本文引入了一種名為NeO 360的新方法,用于稀疏視角合成室外場景的神經(jīng)場表示。NeO 360是一種通用方法,可以從單個(gè)或少量定姿的RGB圖像重建360°場景。該方法的精髓在于捕捉復(fù)雜現(xiàn)實(shí)世界室外3D場景的分布,并使用混合的圖像條件三平面表示,可以從任何世界點(diǎn)進(jìn)行查詢。本文的表示結(jié)合了基于體素和鳥瞰圖(BEV)表示的優(yōu)點(diǎn),比每種方法都更有效和表達(dá)豐富。NeO 360的表示使本文能夠從大量的無界3D場景中進(jìn)行學(xué)習(xí),同時(shí)在推理過程中對新視角和新場景具有普適性,甚至可以從單個(gè)圖像中進(jìn)行推理。本文在提出的具有挑戰(zhàn)性的360°無界數(shù)據(jù)集NeRDS 360上演示了本文的方法,并展示了NeO 360在新視角合成方面優(yōu)于現(xiàn)有的通用方法,同時(shí)還提供了編輯和合成能力。項(xiàng)?主頁:zubair-irshad.github.io/projects/neo360.html

主要貢獻(xiàn)有哪些?

本文的?法擴(kuò)展了 NeRF++ 使其具有可推廣性。?法的核?是以三平?形式表示的局部特征。這種表示被構(gòu)建為三個(gè)垂直的交叉平?,其中每個(gè)平?從?個(gè)?度對 3D 環(huán)境進(jìn)?建模,通過合并它們可以實(shí)現(xiàn) 3D 場景的全?描述。NeO 360 的圖像條件三平?表示有效地對來?圖像級特征的信息進(jìn)?編碼,同時(shí)為任何世界點(diǎn)提供緊湊的可查詢表示。本文將這些特征與剩余局部圖像級特征相結(jié)合,從?量圖像中優(yōu)化多個(gè)?界 3D 場景。NeO 360 的 3D 場景表示可以為完整的 3D 場景構(gòu)建強(qiáng)?的先驗(yàn),從?只需?個(gè)擺好姿勢的 RGB 圖像即可實(shí)現(xiàn)對戶外場景進(jìn)??效的 360°新穎的視圖合成。全新?型 360°?界數(shù)據(jù)集包含 3 個(gè)不同地圖上的 70 多個(gè)場景。本文在 few-shot 新穎視圖合成和基于先驗(yàn)的采樣任務(wù)中證明了本文的?法在這個(gè)具有挑戰(zhàn)性的多視圖?界數(shù)據(jù)集上的有效性。除了學(xué)習(xí)完整場景的強(qiáng)? 3D表示之外,本文的?法還允許使? 3D ground truth邊界框?qū)饩€進(jìn)?推理時(shí)間修剪,從?能夠從?個(gè)輸?視圖進(jìn)?組合場景合成。總之,本文做出以下貢獻(xiàn):

  • 適?于室外場景的通? NeRF 架構(gòu)基于三平?表示來擴(kuò)展 NeRF 公式,以實(shí)現(xiàn) 360 度的有效few-shot新穎視圖合成360°?界的環(huán)境。
  • ?規(guī)模合成360°數(shù)據(jù)集,稱為 NeRDS 360,?于 3D 城市場景理解包含多個(gè)對象,通過密集的相機(jī)視點(diǎn)注釋捕獲?保真室外場景。
  • 本文提出的?法顯著優(yōu)于 NeRDS 360 數(shù)據(jù)集上的小樣本新穎視圖合成任務(wù)的所有基線, 有著 3-view novel-view 合成任務(wù)的 1.89 PNSR 和 0.11 SSIM 絕對提升值。

NeRDS 360 多視角數(shù)據(jù)集:

為什么構(gòu)建這個(gè)數(shù)據(jù)集?

  • 獲取精確的地面真實(shí) 3D 和 2D 信息(如更密集的視點(diǎn)標(biāo)注、3D 邊界框、語義和實(shí)例圖)具有挑戰(zhàn)性,因此可用于訓(xùn)練和測試的戶外場景非常有限。
  • 之前的方案主要集中在使用現(xiàn)有的戶外場景數(shù)據(jù)集進(jìn)行重建,這些數(shù)據(jù)集是安裝在自車載體上的攝像頭捕獲的全景視圖。在相鄰攝像頭視圖之間幾乎沒有重疊部分,而這種特征已被證明對于訓(xùn)練 NeRF 和多視圖重建方法很有用。隨著自車快速移動以及感興趣的對象在僅幾個(gè)視圖中被觀察到(通常小于 5 個(gè)),針對這些場景優(yōu)化基于對象的神經(jīng)輻射模型變得更加具有挑戰(zhàn)性。

數(shù)據(jù)集是怎樣的?

為了應(yīng)對這些挑戰(zhàn),本文提出了?個(gè)?于 3D 城市場景理解的?規(guī)模數(shù)據(jù)集。與現(xiàn)有數(shù)據(jù)集相?,本文的數(shù)據(jù)集由 75 個(gè)具有不同背景的戶外城市場景組成,包含超過 15,000 張圖像。這些場景提供 360°半球形視圖,捕捉各種照明條件下照亮的不同前景物體。此外,本文的數(shù)據(jù)集包含不限于前向駕駛視圖的場景,解決了先前數(shù)據(jù)集的局限性,例如攝像機(jī)視圖之間有限的重疊和覆蓋范圍。?于泛化評估的最接近的現(xiàn)有數(shù)據(jù)集是 DTU(80 個(gè)場景),主要包含室內(nèi)物體,不提供多個(gè)前景物體或背景場景。

數(shù)據(jù)集如何生成的?

本文使? Parallel Domain ?成合成數(shù)據(jù)以渲染?保真 360° 場景。本文選擇 3 個(gè)不同的地圖,即 SF 6thAndMission, SF GrantAndCalifornia and SF VanNessAveAndTurkSt 并在所有 3 個(gè)地圖上采樣 75 個(gè)不同場景作為本文的背景(3 個(gè)地圖上的所有 75 個(gè)場景都是彼此顯著不同的道路場景,在城市的不同視?拍攝)。本文選擇 50 種不同紋理的 20 輛不同的汽?進(jìn)?訓(xùn)練,并從每個(gè)場景中的 1 到 4 輛汽?中隨機(jī)采樣進(jìn)?渲染。本文將此數(shù)據(jù)集稱為NeRDS 360: NeRF for Reconstruction, Decomposition and Scene Synthesis of 360° outdoor scenes。訓(xùn)練集:本文總共?成了 15k 個(gè)渲染圖。通過在距汽?中?固定距離的半球形圓頂中對 200 個(gè)攝像機(jī)進(jìn)?采樣。測試集:本文提供了 4 輛不同汽?和不同背景的 5 個(gè)場景進(jìn)?測試,其中包括 100 個(gè)均勻分布在上半球的攝像機(jī),與訓(xùn)練時(shí)使?的攝像機(jī)分布不同。

本文使?不同的驗(yàn)證相機(jī)分布來測試本文的?法泛化到訓(xùn)練期間未?過的視點(diǎn)以及未?過的場景的能?。由于遮擋、背景多樣性以及具有各種閃電和陰影的渲染對象,本文的數(shù)據(jù)集和相應(yīng)的任務(wù)極具挑戰(zhàn)性。本文的任務(wù)需要重建 360° 使?少量觀察(即 1 到 5)的完整場景的半球形視圖,如Figure 5 中 的紅?攝像機(jī)所示。?使?所有 100 個(gè)半球視圖進(jìn)?評估,如Figure 5 中的綠?攝像機(jī)所示。因此,本文的任務(wù)需要強(qiáng)?的先驗(yàn)知識來合成室外場景的新穎視圖。

方法:

給定新場景的?個(gè)視圖的 RGB 圖像,NeO 360 進(jìn)行新穎視圖合成并渲染360度場景的3D場景表示。為了實(shí)現(xiàn)這??標(biāo),本文采?了由三平?表示組成的混合局部和全局特征表示,可以查詢?nèi)魏问澜琰c(diǎn)。形式上,如Figure 1所示,給定?些輸?圖像,的?個(gè)復(fù)雜的場景,其中n=1到5、以及他們相應(yīng)的相機(jī)位子,γγγ其中γ,NeO 360推斷近遠(yuǎn)背景的密度和輻射場(類似于 NeRF++),兩者的主要區(qū)別是NeO 360使?混合局部和全局特征來調(diào)節(jié)輻射場解碼器,?不是像經(jīng)典 NeRF 公式中所采?的那樣僅使?位置和觀察?向。

Image-Conditional Triplanar Representation(圖像條件三平?表示)

雖然NeRF能夠產(chǎn)??保真場景合成,但局限于很難推?到新穎場景。為了有效地使?場景先驗(yàn)并從?量?界 360° 數(shù)據(jù)中學(xué)習(xí),本文提出了?種圖像條件三平?表示,這種表示能夠?qū)哂型暾?表現(xiàn)?的 3D 場景進(jìn)??規(guī)模建模,?不會忽略其任何維度(如在 2D 或基于 BEV 的表示中)并避免??復(fù)雜性(如在基于體素的表示中)。本文的三平?表示由三個(gè)軸對?的正交平?組成,其中是空間分辨率,每個(gè)平面具有維特征。為了從輸?圖像構(gòu)建特征三平?,方法如下:

  • 本文?先使?經(jīng)過 ImageNet 預(yù)訓(xùn)練的 ConvNet backbone E提取低分辨率空間特征表示,其將原始輸入的圖像轉(zhuǎn)化為長寬分別變?yōu)?/2的特征圖。然后根據(jù)相機(jī)位姿和內(nèi)參沿著每條射線反投影為3D特征體數(shù)據(jù)。
  • 由于沿相機(jī)光線的所有特征在?格中都是相同的,因此本文通過額外的 MLP 進(jìn)?步學(xué)習(xí)各個(gè)特征的深度,,它將?格中的輸入體數(shù)據(jù)特征、在相機(jī)坐標(biāo)系中的網(wǎng)格位置和在世界坐標(biāo)系下的網(wǎng)格的方向用concatenated連接轉(zhuǎn)換到相機(jī)坐標(biāo)下輸出深度編碼特征。接下來通過在獨(dú)立的體特征維度上使用可學(xué)習(xí)的權(quán)重獲得三平?特征:其中的代表MLPs特征聚合,代表在維度累加之后的softmax得分。將特征投影到各個(gè)平?的動機(jī)之?是避免 3D CNN 的計(jì)算??復(fù)雜性,同時(shí)? BEV 或 2D 特征表示更具表現(xiàn)?但該類方法?基于體素的表示在計(jì)算上更有效,但省略  軸會損害它們的表達(dá)能?。相反,本文依靠 2D 卷積將構(gòu)建的圖像條件三平?轉(zhuǎn)換為新的  通道輸出,其中、同時(shí)對平?的空間維度進(jìn)?上采樣到圖像特征空間。學(xué)習(xí)到的卷積充當(dāng)修復(fù)?絡(luò)來填充缺失的特征。本文的三平?表示充當(dāng)全局特征表示,因?yàn)橹庇^上,從不同?度檢查時(shí)可以更好地表示復(fù)雜場景。這是因?yàn)槊總€(gè)都可以提供補(bǔ)充信息,可以幫助更有效地理解場景。

Deep Residual Local Features (深層殘差局部特征)

對于接下來的輻射場解碼階段,本文還使?特征作為渲染 MLP 的殘差連接。本文獲得從通過投影世界點(diǎn)使?其相機(jī)參數(shù)γ進(jìn)?源視圖,并通過雙線性插值在投影像素位置提取特征。請注意,局部和全局特征提取路徑共享相同的權(quán)重θ和編碼器。本文發(fā)現(xiàn),對于復(fù)雜的城市?界場景,僅使?局部特征導(dǎo)致遮擋和遠(yuǎn)處 360° 視角表現(xiàn)不佳。另???,僅使?全局特征會導(dǎo)致幻覺。本文的?法有效地結(jié)合了局部和全局特征表示,從?產(chǎn)?更準(zhǔn)確的 360° 從最?的?限場景的單?視圖進(jìn)?視圖合成。

Decoding Radiance Fields(解碼輻射場)

輻射場解碼器是用來預(yù)測顏?和密度σ對于任意 3D 位置和任意觀看?向從三平?和殘差特征 。本文使?模塊化實(shí)現(xiàn)的渲染 MLP。MLP 表示為:

其中,通過正交投影點(diǎn)進(jìn)?每個(gè)平?并執(zhí)?雙線性采樣獲得,且由三個(gè)雙線性采樣向量連接成

 。本文使用輸入圖像的視圖空間來建立本文的坐標(biāo)系,然后在這個(gè)特定的坐標(biāo)系中展示位置和攝像機(jī)射線。Near and Far Decoding MLPs類似于NeRF++,本文定義了兩個(gè)渲染MLP來解碼顏?和密 度信息,如下所示:

本文定義?個(gè)坐標(biāo)重映射函數(shù) (M) 類似于原始 NeRF++收縮位于單位球體之外的 3D 點(diǎn), 這有助于更多對象在渲染 MLP 中獲得較低的分辨率。在查詢階段的三平?表示,本文使?在現(xiàn)實(shí)世界坐標(biāo)中的?收縮坐標(biāo),因?yàn)楸疚牡谋硎臼瞧??不是球體。對于渲染,本文使?各?的放縮后的坐標(biāo)?于調(diào)節(jié) MLP。Optimizing radiance fields for few-shot novel-view synthesis給定源視圖的局部和全局特征,在完成體積渲染和合成近處和遠(yuǎn)處背景后,使用專用的解碼顏色和強(qiáng)度近背景和遠(yuǎn)背景MLPs解碼器和


:?標(biāo)圖像中采樣的像素位置:從近和遠(yuǎn)的MLPs渲染輸出中獲得的合成顏色。

Scene Editing and Decomposition(場景編輯與分解)

給定從檢測器獲得的 3D 邊界框,本文可以通過簡單地對對象的 3D 邊界框內(nèi)的光線進(jìn)?采樣,獲得單個(gè)對象和背景輻射率,并在這些特定的處雙線性插值特征在本文的三平?特征?格中的位置,使得編輯和重新渲染單個(gè)對象變得簡單。本文通過考慮對象 3D 邊界框 內(nèi)的特征來執(zhí)?準(zhǔn)確的對象重新渲染,以渲染前景MLP。本質(zhì)上,本文將組合的可編輯場景渲染公式劃分為渲染對象、近背景和遠(yuǎn)背景。

實(shí)驗(yàn):

baselines:

  1. NeRF:Vanilla NeRF 方法過擬合給定 RGB 圖像的場景
  2. PixelNeRF ?種可推?的 NeRF 變體,利?局部圖像特征進(jìn)?少鏡頭新穎視圖合成
  3. MVSNeRF:通過從源圖像構(gòu)建cost-volume獲得的局部特征來擴(kuò)展 NeRF 進(jìn)?少視圖合成
  4. NeO 360:本文提出的架構(gòu)將局部和全局特征結(jié)合起來,用于通用場景表示學(xué)習(xí)。

圖片圖片圖片

結(jié)論:

在本?中,本文提出了 NeO 360,這是 NeRF ?法的可推?擴(kuò)展,?于?界360°場景。本文的?法依賴于圖像條件三平?表示來進(jìn)?少量新穎的視圖合成。為了為?界場景建?強(qiáng)?的先驗(yàn),本文提出了?個(gè)?規(guī)模數(shù)據(jù)集 NERDS 360 來研究 360 度設(shè)置中的視圖合成、重建和分解。本文的?法的性能明顯優(yōu)于其他可推?的 NeRF 變體,并且在新場景上進(jìn)?測試時(shí)實(shí)現(xiàn)了更?的性能。對于未來的?作,本文將探索如何使?所提出的?法來構(gòu)建較 少依賴標(biāo)記數(shù)據(jù)的先驗(yàn),例如推理過程中的 3D 邊界框,?是依賴運(yùn)動線索在沒有標(biāo)記數(shù)據(jù)的情況下進(jìn)?有效的場景分解。

原文鏈接:https://mp.weixin.qq.com/s/rjJlJbbb_oFah5nZoSYQwA

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-05-09 09:34:53

雷達(dá)數(shù)據(jù)

2018-11-30 11:20:16

信銳

2023-03-10 08:49:48

SELECT *? PawSQL

2018-03-25 20:51:07

語音合成深度前饋序列記憶網(wǎng)絡(luò)

2022-12-09 10:00:23

2023-08-21 10:57:17

3D模型

2025-03-27 10:54:06

2015-08-19 14:16:50

光纖光纜

2022-06-28 18:47:38

WiFi5G

2023-11-05 15:15:47

AI技術(shù)

2013-08-28 09:37:54

2014-01-22 13:22:43

華為WLAN網(wǎng)規(guī)工具

2021-05-06 11:26:07

云計(jì)算阿里云邊緣計(jì)算

2025-01-08 09:15:00

2023-01-07 14:48:09

3D信息

2012-03-09 10:35:18

360可信網(wǎng)站Versign

2023-06-05 12:49:27

神經(jīng)網(wǎng)絡(luò)AI

2022-09-29 16:11:54

3D訓(xùn)練

2024-03-26 09:23:22

自動駕駛軌跡

2010-09-14 14:11:35

室外WLAN
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號