自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

新聞
字節(jié)跳動視覺技術(shù)團隊結(jié)合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達方式 MINE。

  [[427817]]

字節(jié)跳動視覺技術(shù)團隊結(jié)合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達方式 MINE。MINE 通過對單張圖片做三維重建,實現(xiàn)新視角合成和深度估算。通過引入隱式神經(jīng)場(NeRF),研究者將 Multiplane Images (MPI)擴展成連續(xù)的深度平面。給定單個圖片作為輸入,MINE 能在相機視錐中的任意深度,預(yù)測出一個四通道的圖像,四通道包括 RGB 顏色和空間密度。這種任意深度的四通道預(yù)測,實際上是對輸入圖片的視錐的三維重建,以及對被遮擋內(nèi)容的填充(inpainting)。我們可以利用被重建和填充的視錐方便地渲染出新視角下的 RGB 圖片和深度圖,并且渲染過程是可導(dǎo)的。

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE
  • 論文地址:https://arxiv.org/pdf/2103.14910.pdf
  • 項目地址:https://github.com/vincentfung13/MINE

在 RealEstate10K,KITTI 和 Flowers Light Fields 數(shù)據(jù)集上的實驗表明,MINE 在新視角合成的性能上大幅超越了當(dāng)前最前沿的方法。同時,在 iBims-1 和 NYU-v2 的實驗表明,團隊在沒有使用真值深度做監(jiān)督訓(xùn)練的情況下,獲得了和前沿方法接近的深度估計性能。

該研究的訓(xùn)練代碼與 pretrain model 已經(jīng)開源。

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

相關(guān)工作

近年來,在新視角合成這個領(lǐng)域里,最火爆的方法無疑是 ECCV 2020 的 NeRF [5]。與傳統(tǒng)的一些手工設(shè)計的顯式三維表達(Light Fields,LDI,MPI 等)不同,NeRF 把整個三維空間的幾何信息與 texture 信息全部用一個 MLP 的權(quán)重來表達,輸入任意一個空間坐標(biāo)以及觀察角度,MLP 會預(yù)測一個 RGB 值和 volume density。目標(biāo)圖片的渲染通過 ray tracing 和 volume rendering 的方式來完成。盡管 NeRF 的效果非常驚艷,但它的缺點也非常明顯:

  1. 一個模型只能表達一個場景,且優(yōu)化一個場景耗時久;
  2. per-pixel 渲染較為低效;
  3. 泛化能力較差,一個場景需要較多的照片才能訓(xùn)練好。
字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

另外一個與該研究較相關(guān)的是 MPI(Multiplane Image)[1, 2, 3]。MPI 包含了多個平面的 RGB-alpha 圖片,其中每個平面表達場景在某個深度中的內(nèi)容,它的主要缺點在于深度是固定及離散的,這個缺點限制了它對三維空間的表達能力。[1, 2, 3] 都能方便地泛化到不同的場景,然而 MPI 各個平面的深度是固定且離散的,這個缺點嚴(yán)重限制了它的效果。

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

方法綜述

該團隊采用一個 encoder-decoder 的結(jié)構(gòu)來生成三維表達:

  1. Encoder 是一個全卷積網(wǎng)絡(luò),輸入為單個 RGB 圖片,輸出為 feature maps;
  2. Decoder 也是一個全卷積網(wǎng)絡(luò),輸入為 encoder 輸出的 feature map,以及任意深度值(repeat + concat),輸出該深度下的 RGB-sigma 圖片;
  3. 最終的三維表達由多個平面組成,也就是說在一次完整的 forward 中,encoder 需要 inference 一次,而 decoder 需要 inference N 次獲得個 N 平面。
字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

獲得三維表達后,不再需要任何的網(wǎng)絡(luò) inference,渲染任意 target 相機 pose 下的視角只需要兩步:

  1. 利用 homography wrapping 建立像素點間的 correspondence??梢韵胂?,從 target 相機射出一條光線,這條光線與 target 圖片的一個像素點相交,然后,研究者延長這條射線,讓它與 source 相機視錐的各個平面相交。相交點的 RGB-sigma 值可以通過 bilinear sampling 獲得;
  2. 利用 volume rendering 將光線上的點渲染到目標(biāo)圖片像素點上,獲得該像素點的 RGB 值與深度。

Scale 校正

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

MINE 可以利用 structure-from-motion 計算的相機參數(shù)與點云進行場景的學(xué)習(xí),在這種情況下,深度是 ambiguous 的。由于在這個方法中,深度采樣的范圍是固定的。所以需要計算一個 scale factor,使網(wǎng)絡(luò)預(yù)測的 scale 與 structure-from-motion 的 scale 進行對齊。團隊利用通過 Structure from Motion 獲得的每個圖片的可見 3D 點 P 以及網(wǎng)絡(luò)預(yù)測的深度圖 Z 計算 scale factor:

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

獲得 scale factor 后,對相機的位移進行 scale:

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

需要注意的是,由于需要和 ground truth 比較,所以在訓(xùn)練和測試時需要做 scale calibration。而在部署時不需要做這一步。

端到端的訓(xùn)練

MINE 可以僅通過 RGB 圖片學(xué)習(xí)到場景的三維幾何信息,訓(xùn)練 Loss 主要由兩部分組成:

1.Reconsturction loss——計算渲染出的 target 圖片與 ground truth 的差異:

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

2.Edge-aware smoothness loss——確保在圖片顏色沒有突變的地方,深度也不會突變,這里主要參考了 monodepth2 [6] 種的實現(xiàn):

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

3.Sparse disparity loss——在訓(xùn)練集各場景的 scale 不一樣時,利用 structure-from-motion 獲得的稀疏點云輔助場景幾何信息的學(xué)習(xí):

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

實驗結(jié)果

新視角合成

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

在 KITTI 數(shù)據(jù)集上,可以看出,此方法在生成質(zhì)量上大幅超越了當(dāng)前的 SOTA——把 SSIM 從 0.733 提高到了 0.822。同時,可看出增加預(yù)測的平面數(shù),生成圖片的質(zhì)量也會提高,由于這并不會改變模型的參數(shù)量,所以可以看出,采樣平面的深度越稠密,就越利于場景表達的學(xué)習(xí)。在圖片可視化上,MINE 生成的圖片形變和 artefacts 明顯更少。

單目深度估計

利用在 RealEstate10K 上訓(xùn)練的模型,在 NYU 以及 iBims-1 數(shù)據(jù)集上測試了單目深度估計的結(jié)果。雖然只有 RGB 和 sparse 深度監(jiān)督,但 MINE 在單目深度估計任務(wù)上取得了非常接近全監(jiān)督的 3DKenBurns 的性能,并大幅超越了其他弱監(jiān)督的方法。其中,和 MPI 相比,此方法更不受圖片 texture 的影響,在 texture 豐富的區(qū)域依然能生成平滑的深度圖。

字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE
字節(jié)跳動利用單張圖片做三維重建:將NeRF、MPI結(jié)合,提出MINE

MINE 與 MPI、NeRF 的比較

MINE 是 MPI 的一種連續(xù)深度的擴展,相比于 MPI 和 NeRF,MINE 有幾個明顯的優(yōu)勢:

  1. 與 NeRF 相比,MINE 能夠泛化到訓(xùn)練集沒有出現(xiàn)過的場景;
  2. 與 NeRF 的逐點渲染相比,MINE 的渲染非常高效;
  3. 與 MPI 相比,MINE 的深度是連續(xù)的,能稠密地表示相機的視錐;
  4. MPI 通過 alpha 合成(alpha compositing)進行渲染,但該方法與射線上點之間的距離無關(guān),而 MINE 利用 volume rendering 解決了這個限制。

然而,MINE 也有一些自身的局限性:

  1. 由于輸入是單張圖片,MINE 無法表達相機視錐以外的三維空間;
  2. 由于 MINE 的輸入里沒有觀察角度,所以其無法對一些復(fù)雜的 view-dependent 效果(如光盤上的彩虹等)進行建模。

 

 

責(zé)任編輯:張燕妮 來源: 機器之心Pro
相關(guān)推薦

2023-10-16 09:51:47

模型視覺

2023-10-27 14:54:33

智能駕駛云計算

2021-03-16 09:53:35

人工智能機器學(xué)習(xí)技術(shù)

2024-02-20 09:46:00

模型技術(shù)

2024-06-19 11:30:36

2023-12-13 10:14:00

機器視覺技術(shù)

2023-06-02 14:10:05

三維重建

2022-09-26 15:18:15

3D智能

2021-04-21 10:18:25

人工智能機器學(xué)習(xí)技術(shù)

2023-12-29 09:36:51

三維模型

2023-03-21 09:19:42

技術(shù)圖像

2024-09-04 09:38:02

2025-02-06 09:20:00

2023-04-03 11:52:51

6D英偉達

2024-12-12 08:28:11

2021-09-30 09:54:29

科技人工智能優(yōu)化

2021-11-10 10:10:18

智能自動駕駛汽車

2025-03-24 09:41:22

2022-07-22 07:25:12

模型人工智能

2015-08-21 09:48:16

可視化
點贊
收藏

51CTO技術(shù)棧公眾號