大衛(wèi)復活!英偉達再造「神經(jīng)朗基羅」,3D重建肌肉紋理肉眼可見
今天,英偉達再造了16世紀的米開朗基羅「Neuralangelo」。
快看,Neuralangelo「復刻」出3D版的著名雕像大衛(wèi),大理石的細節(jié)、紋理栩栩如生。
要知道,收藏在佛羅倫薩美術學院的大衛(wèi)雕像,僅身高3.96米,加上基座都有5.5米。
它甚至可以重建一棟建筑物的內外部結構,屋頂瓦片、玻璃窗格、還有各種細節(jié)都一一再現(xiàn)。
這一切,都是「神經(jīng)朗基羅」(Neuralangelo)的魔法。
來自英偉達和約翰霍普金斯大學的研究人員提出的新型AI模型,利用神經(jīng)網(wǎng)絡重建3D物體。
最新研究已被CVPR 2023錄用。
論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
特別是,Neuralangelo可以從手機視頻,無人機拍攝的視頻重建「高保真的大規(guī)模場景」。
那豈不是未來,就能輕易地把一座城市、甚至外太空的視頻,變成一個沉浸式的世界,再裝進游戲去體驗。
網(wǎng)友驚呼,英偉達黑了「矩陣」世界!
甚至,還有人稱,蘋果XR技術,再加上Neuralangelo,就能創(chuàng)造「new worlds」了。
效果演示
英偉達的總部
破舊的卡車
Ignatius的雕像
重建3D場景
以前的AI模型在重建3D場景時,往往難以準確捕捉到重復的紋理模式、均勻的顏色以及強烈的色彩變化。
為此,團隊提出了一個將多分辨率3D哈希網(wǎng)格的表征能力和神經(jīng)表面渲染相結合的全新方法——Neuralangelo。
去年,英偉達研究人員曾創(chuàng)造了一種新工具3D MoMa,將照片變成3D物體易如反掌。
NeuralAngelo建立在這一概念的基礎上,允許導入更大、更詳細的空間和對象。而它特別之處在于,可以準確捕捉重復的紋理模式、同質的顏色和強烈的顏色變化。
通過采用「即時神經(jīng)圖形基元」,也就是NVIDIA Instant NeRF技術的核心,Neuralangelo由此可以捕捉更細微的細節(jié)。
團隊的方法依賴于2個關鍵要素:
(1)用于計算高階導數(shù)作為平滑操作的數(shù)值梯度;
(2)在控制不同細節(jié)級別的哈希網(wǎng)格上進行由粗到細的優(yōu)化。
即使沒有輔助深度,Neuralangelo也能有效地從多視圖圖像中恢復密集3D表面結構,其保真度顯著超過了以往的方法,使得能夠從RGB視頻捕捉中重建詳細的大規(guī)模場景。
構建NeuralAngelo
NeuralAngelo模型是在多分辨率哈希編碼,以及基于SDF的體積渲染上進行構建。
第一步:使用數(shù)值梯度來計算高階導數(shù)
通過使用與哈希網(wǎng)格空間分辨率匹配的步長的數(shù)值梯度,可以優(yōu)化超越局部單元。與解析梯度相比,數(shù)值梯度對SDF起到了平滑操作的作用。
第二步:逐步細化細節(jié)層次
通過逐步減小數(shù)值梯度的步長,并啟用更高分辨率的哈希網(wǎng)格,優(yōu)化的效果可以更好地恢復大面積的光滑表面和精細的幾何細節(jié)。這種學習過程能夠逐步提高細節(jié)的層次感。
第三步:優(yōu)化
NeuralAngelo使用三個優(yōu)化目標:
RGB合成損失
:輸入圖像和合成圖像之間的RGB重建損失。
Eikonal損失
:對底層SDF進行正則化處理,使其表面法線為單位正則。
曲率損失
:對底層SDF進行正則化處理,使平均曲率不會任意變大。
「神經(jīng)朗基羅」構建好了,那么它又是如何運作的呢?
可以說,Neuralangelo還原了米開朗基羅刻畫大衛(wèi)的整個過程:
· 首先,模型會從2D視頻中選擇幾幀從不同角度拍攝的物體/場景的畫面,并由此「看到」其深度、大小和形狀。這個過程就像雕塑藝術家一開始會從多個角度構圖那樣。
· 然后,模型會創(chuàng)建一個粗糙的3D場景表征,就像藝術家開始鑿刻主體的形狀。
· 最后,模型會優(yōu)化渲染以提高細節(jié)的清晰度,就像藝術家通過精心地修飾來模仿織物或人形的紋理。
在DPU基準定性比較中, Neuralangelo產生更準確和更高保真度的表面。
如下是Neuralangelo在DTU數(shù)據(jù)集中的定量結果,模型獲得了很好的重建精度和圖像合成質量。
在不同的從粗糙到精細優(yōu)化方案定性比較中,當使用分析梯度AG和AG+P,物體粗糙表面還有偽影。
當使用數(shù)字梯度(NG)時,能夠重建一個比較好的粗糙表面,細節(jié)也被平滑。
而英偉達的解決方案(NG+P)能夠生成光滑的表面,以及精細的細節(jié)。
最終的結果是一個可以在虛擬現(xiàn)實應用、數(shù)字孿生或機器人開發(fā)中使用的3D物體或大規(guī)模場景。
英偉達表示,Neuralangelo將復雜材料的紋理,包括屋頂瓦片的粗糙度、大理石的光滑度,從2D視頻轉化為3D物體的能力,顯著超越了以往的方法。
英偉達研究部高級主任、論文作者Ming-Yu Liu對這項研究的意義給出了暢想:
「Neuralangelo提供的3D重建能力將給創(chuàng)作者帶來巨大好處,幫助他們在數(shù)字世界中重建真實世界。這個工具最終將使開發(fā)人員能夠將精細的物體——不論是小型雕像,還是大型建筑——導入視頻游戲或工業(yè)數(shù)字孿生的虛擬環(huán)境中。
創(chuàng)意的專業(yè)人士可以將這些3D對象導入到設計應用中,進一步編輯,以供藝術、電子游戲開發(fā)、機器人技術和工業(yè)數(shù)字孿生等領域使用。
作者介紹
Zhaoshuo Li(李趙碩)
李趙碩目前還是約翰霍普金斯大學的計算機科學博士生,導師是Mathias Unberath教授、Russell H Taylor教授。
他對計算機視覺、計算機圖形學、深度學習有濃厚的興趣,研究重點是從圖像中重現(xiàn)運動和結構。
另外,他還有非常多的愛好,是攝像師、心理健康促進者、寵物狗的愛好者、還是沖浪者、跳傘者、滑雪板運動員…
Chen-Hsuan Lin
Chen-Hsuan Lin是NVIDIA Research的一名研究科學家,從事計算機視覺、計算機圖形學和人工智能方面的工作。
他在卡內基梅隆大學獲得了機器人學博士學位,并獲得英偉達研究生獎學金。此前,他還在Facebook AI Research和Adobe Research實習。
Lin對解決3D重建、視圖合成和3D內容生產的問題非常感興趣。其研究旨在通過從互聯(lián)網(wǎng)規(guī)模的視覺數(shù)據(jù)中學習,賦予人工智能系統(tǒng)人類水平的3D感知和想象能力,向真正的3D空間智能邁進。
網(wǎng)友熱評
英偉達科學家Jim Fan表示,
為了讓你了解3D建模的人工智能發(fā)展速度:該領域在3年內從左邊(原始的NeRF重建的網(wǎng)格)到右邊(英偉達的Neuralangelo)。
將現(xiàn)實傳送到高保真模擬中不再是一個夢想。
新的Neuralangelo模型簡直是一個野獸,英偉達決定淘汰我們,R.I.P.攝影測量軟件。
簡直就像數(shù)字世界的「米開朗基羅」。
還有網(wǎng)友表示想知道,用它的成本是多少?
我們可以在工廠使用無人機,然后將視頻發(fā)送到這個模型,做一個數(shù)字孿生,并使用它來優(yōu)化我們的流程。
對于這項技術的意義,網(wǎng)友認為這對游戲行業(yè)來說影響將是巨大的。