自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)字文藝復(fù)興來了:英偉達造出「AI版」米開朗基羅,實現(xiàn)高保真3D重建

人工智能 新聞
正如米開朗基羅能用大理石雕刻出令人驚嘆、栩栩如生的作品,英偉達宣稱 Neuralangelo 生成的 3D 結(jié)構(gòu)也帶有精細的細節(jié)和紋理。

對通過基于圖像的神經(jīng)渲染來恢復(fù)密集的 3D 表面,神經(jīng)表面重建已被證明是可行的。然而,目前的方法很難恢復(fù)真實世界場景的詳細結(jié)構(gòu)。

為了解決這個問題,英偉達和約翰霍普金斯大學(xué)發(fā)布了一項研究,開發(fā)了一種命名為 Neuralangelo(即神經(jīng)朗基羅)的模型,其可以將 2D 視頻片段重建成細節(jié)豐富的 3D 結(jié)構(gòu),比如生成建筑、雕塑和其它現(xiàn)實物體的逼真虛擬復(fù)制品。

圖片


  • 項目網(wǎng)站:https://research.nvidia.com/labs/dir/neuralangelo/
  • 論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
  • 附加材料:https://research.nvidia.com/labs/dir/neuralangelo/supplementary.pdf

這項研究已入選 CVPR 2023。英偉達在其官方博客上使用了「數(shù)字文藝復(fù)興」來形容這項研究,足見其潛在的重要價值。

正如米開朗基羅能用大理石雕刻出令人驚嘆、栩栩如生的作品,英偉達宣稱 Neuralangelo 生成的 3D 結(jié)構(gòu)也帶有精細的細節(jié)和紋理。創(chuàng)意專業(yè)人士可以將這些 3D 對象導(dǎo)入到設(shè)計應(yīng)用中,進一步編輯它們來創(chuàng)造藝術(shù)作品、開發(fā)視頻游戲、創(chuàng)造機器人和產(chǎn)業(yè)數(shù)字人應(yīng)用。

Neuralangelo 能將復(fù)雜的材料紋理(比如屋頂瓦、玻璃板和光滑大理石)從 2D 視頻轉(zhuǎn)譯到成 3D 結(jié)構(gòu),其能力已經(jīng)顯著超越之前的方法。其具有非常高的保真度,讓開發(fā)者和創(chuàng)意專業(yè)人士能更輕松地快速創(chuàng)建可用的虛擬對象,而所需的材料不過是用手機拍攝的一段視頻。

該研究的作者之一同時也是一位高級研究主管的 Ming-Yu Liu 表示:「Neuralangelo 具備的 3D 重建能力將能極大地造福創(chuàng)作者,幫助他們在數(shù)字世界中創(chuàng)建出現(xiàn)實世界。這一工具最終能讓開發(fā)者將細節(jié)豐富的對象 —— 不管是小型雕像還是大型建筑 —— 導(dǎo)入到虛擬環(huán)境中,進而用于視頻游戲或產(chǎn)業(yè)數(shù)字孿生人。」

英偉達給出了一段演示視頻,可以看到該模型既能重建出米開朗基羅那著名的大衛(wèi)雕像,也能重建出日??梢姷钠桨蹇ㄜ?。Neuralangelo 還能重建出建筑的內(nèi)部和外部 —— 視頻中給出了英偉達的灣區(qū)公園的詳細 3D 模型。

下面我們來看看 Neuralangelo 的具體方法和論文中的一些實驗結(jié)果。

方法

Neuralangelo 采用了實時 NGP 作為底層 3D 場景的一種神經(jīng) SDF 表征,并通過神經(jīng)表面渲染根據(jù)多視角圖像觀察進行優(yōu)化;其中 NGP 是指 Neural Graphics Primitives(神經(jīng)圖形基元);SDF 是指 signed distance function(有符號的距離函數(shù))。為了充分釋放多分辨率哈希編碼的潛力,英偉達研究者提出了兩大發(fā)現(xiàn)。一,使用數(shù)值梯度來計算高階導(dǎo)數(shù)對實現(xiàn)優(yōu)化穩(wěn)定來說至關(guān)重要,比如用于程函正則化(eikonal regularization)的表面法線。二,為了重建出不同細節(jié)程度的結(jié)構(gòu),需要一種漸進式的優(yōu)化方案。研究者將這兩種思路組合到了 Neuralangelo 中,實驗也證明了這樣做確實可行,能極大提升神經(jīng)表面重建的重建準確度和視圖合成質(zhì)量。

Neuralangelo 重建場景的密集結(jié)構(gòu)使用的是多視角圖像。它會跟隨相機視角方向采樣 3D 位置,并使用一種多分辨率哈希編碼來對這些位置進行編碼。編碼后的特征會被輸入一個 SDF MLP 和一個顏色 MLP,以使用基于 SDF 的體積渲染來合成圖像。

數(shù)值梯度計算

研究者表示,有關(guān)哈希編碼位置的解析梯度會受到局部性的影響。因此,優(yōu)化更新只會傳遞給局部哈希網(wǎng)格,缺乏非局部的平滑性。針對這種局部性問題,英偉達提出了一種簡單的補救方案:使用數(shù)值梯度。圖 2 給出了該方法的概況。

 

圖片

圖 2:為高階導(dǎo)數(shù)使用數(shù)值梯度可將反向傳播更新散播到局部哈希網(wǎng)格單元之外,由此變成解析梯度的一種平滑化版本。

SDF 有一種特殊性質(zhì):其在單位范數(shù)的梯度方面是可微的。SDF 的梯度幾乎在所有地方都滿足程函方程(eikonal equation)。為了迫使經(jīng)過優(yōu)化的神經(jīng)表征成為可行的 SDF,通過會在 SDF 預(yù)測結(jié)果上施加一個程函損失。

為了實現(xiàn)端到端優(yōu)化,需要在 SDF 預(yù)測結(jié)果上使用一種雙重反向操作。

在計算 SDF 的表面法線時,人們事實上采用的方法就是使用解析梯度。但是,在三線性插值(trilinear interpolation)下,與位置相關(guān)的哈希編碼的解析梯度在空間上不是連續(xù)的。為了找到體素網(wǎng)格中的采樣位置,需要首先根據(jù)網(wǎng)格分辨率對每個 3D 點進行縮放。

哈希編碼的導(dǎo)數(shù)是局部的,即當 3D 點越過網(wǎng)格單元邊界時,對應(yīng)的哈希項將會不同。因此,前述的程函損失就只會反向傳播到本地采樣的哈希項。當連續(xù)表面(比如平墻)橫跨多個網(wǎng)格單元時,這些網(wǎng)格單元應(yīng)當產(chǎn)生連貫一致的表面法線,而不該有突然的過渡。為了確保表面表征中的一致性,需要對這些網(wǎng)格單元進行聯(lián)合優(yōu)化。但是,解析梯度卻受限于局部網(wǎng)格單元,除非對應(yīng)的網(wǎng)格單元碰巧能被同時采樣和優(yōu)化。但我們很難保證總是能夠這樣采樣。

為了克服哈希編碼的解析梯度的局部性問題,英偉達提出的方案是使用數(shù)值梯度來計算表面法線。如果數(shù)值梯度的步長小于哈希編碼的網(wǎng)格大小,則數(shù)值梯度就等于解析梯度;否則,多個網(wǎng)格單元的哈希項就會參與到表面法線計算中。

這樣一來,通過表面法線的反向傳播就能讓多個網(wǎng)格單元的哈希項同時收到優(yōu)化更新。直觀來說,使用精心選擇的步長的數(shù)值梯度可被解讀成在解析梯度表達式上的平滑化操作。還有另一種方法可以替代法線監(jiān)督,即 teacher-student curriculum,其中要使用預(yù)測的有噪聲法線來幫助 MLP 輸出,這樣就能利用到 MLP 的平滑性。但是,這樣的教師 - 學(xué)生損失的解析梯度仍然只會反向傳播給局部網(wǎng)格單元。相較而言,數(shù)值梯度無需添加網(wǎng)絡(luò)便能夠解決局部性問題。

要使用數(shù)值梯度計算表面法線,還需要額外的 SDF 樣本。給定一個采樣過的點,還需要在該點周圍一定步長內(nèi)沿正則坐標的每個軸額外采樣兩個點。

漸進式的細節(jié)水平

為了避免陷入錯誤的局部最小值,從粗到細的優(yōu)化可以更好地塑造損失圖景。這樣的策略已被用于許多計算機視覺應(yīng)用。Neuralangelo 也采用了一種從粗到細的優(yōu)化方案來在細節(jié)上漸進式地重建表面。使用高階導(dǎo)數(shù)的數(shù)值梯度能自然地讓 Neuralangelo 執(zhí)行從粗到細的優(yōu)化,這需要考慮兩個方面。

步長:前面已經(jīng)提到,數(shù)值梯度可被解釋成一種平滑化操作,其中步長控制著分辨率及重建的細節(jié)量。如果讓程函損失用更大的步長來計算數(shù)值表面法線,能在更大規(guī)模上確保表面法線的一致性,由此能得到一致和連續(xù)的表面。反過來,如果程函損失的步長更小,就只能影響更小的區(qū)域,就能避免細節(jié)平滑。在實踐中,英偉達的做法是先將步長初始化為最粗的哈希網(wǎng)格大小,然后在整個優(yōu)化過程中指數(shù)級地降低步長以匹配不同的哈希網(wǎng)格大小。

哈希網(wǎng)格分辨率:如果從優(yōu)化一開始,所有哈希網(wǎng)格都被激活,為了捕獲幾何細節(jié),細粒度哈希網(wǎng)格就必須首先「忘記」粗粒度優(yōu)化(更大步長)所學(xué)到的東西,并用更小的步長「重新學(xué)習(xí)」。如果優(yōu)化收斂而導(dǎo)致這個過程失敗,那么就會丟失幾何細節(jié)。因此,一開始只會激活一組初始的粗粒度哈希網(wǎng)格,當步長縮小至其空間大小時,會在優(yōu)化過程中漸進式地激活更細的哈希網(wǎng)格。這樣一來,就能避免「重新學(xué)習(xí)」過程,從而更好地捕獲細節(jié)。在實踐中,英偉達研究者的做法是在所有參數(shù)上應(yīng)用權(quán)重衰減,以避免最終結(jié)果被單一分辨率特征主導(dǎo)。

優(yōu)化

為了進一步促進重建表面的平滑性,他們還提出添加一個先驗,具體做法是正則化 SDF 的平均曲率。平均曲率是通過離散拉普拉斯算子計算的,類似于表面法線計算,否則當使用三線性插值時,哈希編碼的二階解析梯度在任意位置都為零。

Neuralangelo 的整體損失定義為所有損失(RGB 合成損失、程函損失、曲率損失)的加權(quán)和,如下所示:

圖片

包括 MLP 和哈希編碼在內(nèi)的所有網(wǎng)絡(luò)參數(shù)都是以端到端方式聯(lián)合訓(xùn)練的。

實驗

圖片

圖 3:在 DTU 基準上的定性比較

可以看到,Neuralangelo 得到的表面更加準確,保真度也更高。

圖片

圖 4:定性比較不同的從粗到細優(yōu)化方案

當使用解析梯度時(AG 和 AG+P),粗粒度的表面通常帶有偽影。當使用數(shù)值梯度時(NG),可以得到更好的粗粒度形狀,細節(jié)也更為平滑。英偉達的新方法(NG+P)得到的表面既平滑又有精細細節(jié)。

圖片

表 1:在 DTU 數(shù)據(jù)集上的定量實驗結(jié)果

可以看到,Neuralangelo 的重建準確度最高,圖像合成質(zhì)量也最好。

圖片

圖 5:在 Tanks 和 Temples 數(shù)據(jù)集上的定性比較

相比于其它對比方法會丟失表面細節(jié)或有較多噪聲,Neuralangelo 能更好地捕獲場景細節(jié)。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-02 13:47:44

英偉達AI

2025-01-03 10:00:00

3D自動駕駛生成

2024-12-23 15:46:59

2024-12-23 10:50:00

AI生成3D

2024-10-11 16:20:00

谷歌AI模型

2018-07-17 14:34:24

手機滑蓋智能手機

2021-07-12 16:11:15

AI 軟件人工智能

2019-11-18 10:22:01

深度學(xué)習(xí)編程人工智能

2024-12-23 08:30:39

2025-01-26 10:19:21

2012-11-26 12:51:44

木材3D打

2022-05-16 00:09:15

3DAI技術(shù)

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全

2024-11-25 08:50:00

2011-08-26 14:50:23

2025-03-27 10:54:06

2024-09-27 17:58:26

2021-08-26 10:49:41

AI數(shù)據(jù)人工智能

2023-08-21 12:10:08

算法AI
點贊
收藏

51CTO技術(shù)棧公眾號