自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeRF新研究來(lái)了:3D場(chǎng)景無(wú)痕移除不需要對(duì)象,精確到毛發(fā)

人工智能 新聞
神經(jīng)輻射場(chǎng)(Neural Radiance Fields,簡(jiǎn)稱(chēng) NeRF)已經(jīng)成為一種流行的新視角合成方法。盡管 NeRF 迅速適應(yīng)了更廣泛的應(yīng)用領(lǐng)域,但直觀地編輯 NeRF 場(chǎng)景仍然是一個(gè)待解決的挑戰(zhàn)。

神經(jīng)輻射場(chǎng)(NeRF)已經(jīng)成為一種流行的新視圖合成方法。雖然 NeRF 正在快速泛化到更廣泛的應(yīng)用以及數(shù)據(jù)集中,但直接編輯 NeRF 的建模場(chǎng)景仍然是一個(gè)巨大的挑戰(zhàn)。一個(gè)重要的任務(wù)是從 3D 場(chǎng)景中刪除不需要的對(duì)象,并與其周?chē)鷪?chǎng)景保持一致性,這個(gè)任務(wù)稱(chēng)為 3D 圖像修復(fù)。在 3D 中,解決方案必須在多個(gè)視圖中保持一致,并且在幾何上具有有效性。

本文來(lái)自三星、多倫多大學(xué)等機(jī)構(gòu)的研究人員提出了一種新的三維修復(fù)方法來(lái)解決這些挑戰(zhàn),在單個(gè)輸入圖像中給定一小組姿態(tài)圖像和稀疏注釋?zhuān)岢龅哪P涂蚣苁紫瓤焖佾@得目標(biāo)對(duì)象的三維分割掩碼并使用該掩碼,然后引入一種基于感知優(yōu)化的方法,該方法利用學(xué)習(xí)到的二維圖像再進(jìn)行修復(fù),將他們的信息提取到三維空間,同時(shí)確保視圖的一致性。

該研究還通過(guò)訓(xùn)練一個(gè)很有挑戰(zhàn)性的現(xiàn)實(shí)場(chǎng)景的數(shù)據(jù)集,給評(píng)估三維場(chǎng)景內(nèi)修復(fù)方法帶來(lái)了新的基準(zhǔn)測(cè)試。特別是,該數(shù)據(jù)集包含了有或沒(méi)有目標(biāo)對(duì)象的同一場(chǎng)景的視圖,從而使三維空間內(nèi)修復(fù)任務(wù)能夠進(jìn)行更有原則的基準(zhǔn)測(cè)試。

圖片

  • 論文地址:https://arxiv.org/pdf/2211.12254.pdf
  • 論文主頁(yè):https://spinnerf3d.github.io/

下面為效果展示,在移除一些對(duì)象后,還能與其周?chē)鷪?chǎng)景保持一致性:

圖片

本文方法和其他方法的比較,其他方法存在明顯的偽影,而本文的方法不是很明顯:

圖片

方法介紹

作者通過(guò)一種集成的方法來(lái)應(yīng)對(duì)三維場(chǎng)景編輯任務(wù)中的各種挑戰(zhàn),該方法獲取場(chǎng)景的多視圖圖像,以用戶(hù)輸入提取到的 3D 掩碼,并用 NeRF 訓(xùn)練來(lái)擬合到掩碼圖像中,這樣目標(biāo)對(duì)象就被合理的三維外觀和幾何形狀取代?,F(xiàn)有的交互式二維分割方法沒(méi)有考慮三維方面的問(wèn)題,而且目前基于 NeRF 的方法不能使用稀疏注釋得到好的結(jié)果,也沒(méi)有達(dá)到足夠的精度。雖然目前一些基于 NeRF 的算法允許去除物體,但它們并不試圖提供新生成的空間部分。據(jù)目前的研究進(jìn)展,這個(gè)工作是第一個(gè)在單一框架中同時(shí)處理交互式多視圖分割和完整的三維圖像修復(fù)的方法。

研究者利用現(xiàn)成的、無(wú) 3D 的模型進(jìn)行分割和圖像修復(fù),并以視圖一致性的方式將其輸出轉(zhuǎn)移到 3D 空間。建立在 2D 交互式分割工作的基礎(chǔ)上,作者所提出的模型從一個(gè)目標(biāo)對(duì)象上的少量用戶(hù)用鼠標(biāo)標(biāo)定的圖像點(diǎn)開(kāi)始。由此,他們的算法用一個(gè)基于視頻的模型初始化掩碼,并通過(guò)擬合一個(gè)語(yǔ)義掩碼的 NeRF ,將其訓(xùn)練成一個(gè)連貫的 3D 分割。然后,再應(yīng)用預(yù)先訓(xùn)練的二維圖像修復(fù)到多視圖圖像集上,NeRF 擬合過(guò)程用于重建三維圖像場(chǎng)景,利用感知損失去約束 2 維畫(huà)圖像的不一致,以及畫(huà)深度圖像規(guī)范化掩碼的幾何區(qū)域??偟膩?lái)說(shuō),研究者們提供了一個(gè)完整的方法,從對(duì)象選擇到嵌入的場(chǎng)景的新視圖合成,在一個(gè)統(tǒng)一的框架中對(duì)用戶(hù)的負(fù)擔(dān)最小,如下圖所示。

圖片

綜上所述,這篇工作的貢獻(xiàn)如下:

  • 一個(gè)完整的 3D 場(chǎng)景操作過(guò)程,從用戶(hù)交互的對(duì)象選擇開(kāi)始,到 3D 修復(fù)的 NeRF 場(chǎng)景結(jié)束;
  • 將二維的分割模型擴(kuò)展到多視圖情況,能夠從稀疏注釋中恢復(fù)出具有三維一致的掩碼;
  • 確保視圖一致性和感知合理性,一種新的基于優(yōu)化的三維修復(fù)公式,利用二維圖像修復(fù);
  • 一個(gè)新的用于三維編輯任務(wù)評(píng)估的數(shù)據(jù)集,包括相應(yīng)的操作后的 Groud Truth。

具體到方法上面,該研究首先描述了如何從單視圖注釋中初始化一個(gè)粗略的 3D 掩碼。將已標(biāo)注的源代碼視圖表示為 I_1。將對(duì)象和源視圖的稀疏信息給一個(gè)交互式分割模型,用來(lái)估計(jì)初始源對(duì)象掩碼圖片。然后將訓(xùn)練視圖作為一個(gè)視頻序列,與圖片一起給出一個(gè)視頻實(shí)例分割模型 V ,以計(jì)算圖片,其中圖片是 I_i 的對(duì)象掩碼的初始猜測(cè)。初始的掩碼通常在邊界附近是不準(zhǔn)確的,因?yàn)橛?xùn)練視圖實(shí)際上并不是相鄰的視頻幀,而視頻分割模型通常是未知 3D 的。

圖片

多視圖分割模塊獲取輸入的 RGB 圖像、相應(yīng)的相機(jī)內(nèi)在和外部參數(shù),以及初始掩碼去訓(xùn)練一個(gè)語(yǔ)義 NeRF 。上圖描述了語(yǔ)義 NeRF 中使用的網(wǎng)絡(luò);對(duì)于點(diǎn) x 和視圖目錄 d,除了密度 σ 和顏色 c 外,它還返回一個(gè) pre-sigmoid 型的對(duì)象 logit,s (x)。為了其快速收斂,研究者使用 instant-NGP 作為他們的 NeRF 架構(gòu)。與光線 r 相關(guān)聯(lián)的期望客觀性是通過(guò)在等式中呈現(xiàn) r 上的點(diǎn)的對(duì)數(shù)而不是它們相對(duì)于密度的顏色而得到的:

圖片

然后使用分類(lèi)損失進(jìn)行監(jiān)督:

圖片

用于監(jiān)督基于 NeRF 的多視圖分割模型的總體損失為:

圖片

最后,采用兩個(gè)階段進(jìn)行優(yōu)化,進(jìn)一步改進(jìn)掩碼;在獲得初始三維掩碼后,從訓(xùn)練視圖呈現(xiàn)掩碼,并用于監(jiān)督二次多視圖分割模型作為初始假設(shè)(而不是視頻分割輸出)。

圖片

上圖顯示了視圖一致的修復(fù)方法概述。由于數(shù)據(jù)的缺乏妨礙了直接訓(xùn)練三維修改修復(fù)模型,該研究利用現(xiàn)有的二維修復(fù)模型來(lái)獲得深度和外觀先驗(yàn),然后監(jiān)督 NeRF 對(duì)完整場(chǎng)景的渲染擬合。這個(gè)嵌入的 NeRF 使用以下?lián)p失進(jìn)行訓(xùn)練:

圖片

該研究提出具有視圖一致性的修復(fù)方法,輸入為 RGB。首先,該研究將圖像和掩碼對(duì)傳輸給圖像修復(fù)器以獲得 RGB 圖像。由于每個(gè)視圖都是獨(dú)立修復(fù)的,因此直接使用修復(fù)完的視圖監(jiān)督 NeRF 的重建。本文中,研究者并沒(méi)有使用均方誤差(MSE)作為 loss 生成掩碼,而是建議使用感知損失 LPIPS 來(lái)優(yōu)化圖像的掩碼部分,同時(shí)仍然使用 MSE 來(lái)優(yōu)化未掩碼部分。該損失的計(jì)算方法如下:

圖片

即使有感知損失,修復(fù)視圖之間的差異也會(huì)錯(cuò)誤地引導(dǎo)模型收斂到低質(zhì)量幾何(例如,攝像機(jī)附近可能形成 “模糊” 幾何測(cè)量,以解釋每個(gè)視圖的不同信息)。因此,研究員使用已生成的深度圖作為 NeRF 模型的額外指導(dǎo),并在計(jì)算感知損失時(shí)分離權(quán)值,使用感知損失只擬合場(chǎng)景的顏色。為此,研究者使用了一個(gè)對(duì)包含不需要的對(duì)象的圖像進(jìn)行了優(yōu)化的 NeRF,并渲染了與訓(xùn)練視圖對(duì)應(yīng)的深度圖。其計(jì)算方法是用到相機(jī)的距離而不是點(diǎn)的顏色代替的方法:

圖片

然后將渲染的深度輸入到修復(fù)器模型,以獲得修復(fù)完的深度圖。研究發(fā)現(xiàn),使用 LaMa 進(jìn)行深度繪制,如 RGB,可以得到足夠高質(zhì)量的結(jié)果。這個(gè) NeRF 可以是與用于多視圖分割的相同模型,若使用其他來(lái)源來(lái)獲取掩碼,如人工注釋的掩碼,一個(gè)新的 NeRF 將被安裝到場(chǎng)景中。然后,這些深度圖被用來(lái)監(jiān)督已修復(fù)的 NeRF 的幾何形狀,通過(guò)其渲染深度然后將渲染的深度輸入到修復(fù)器模型,以獲得修復(fù)完的深度圖。研究發(fā)現(xiàn),使用 LaMa 進(jìn)行深度繪制,如 RGB,可以得到足夠高質(zhì)量的結(jié)果。這個(gè) NeRF 可以是與用于多視圖分割的相同模型,若使用其他來(lái)源來(lái)獲取掩碼,如人工注釋的掩碼,一個(gè)新的 NeRF 將被安裝到場(chǎng)景中。然后,這些深度圖被用來(lái)監(jiān)督已修復(fù)的 NeRF 的幾何形狀,通過(guò)其渲染深度到修復(fù)的深度的圖片到修復(fù)的深度的距離:


圖片


實(shí)驗(yàn)結(jié)果

多視圖分割:首先評(píng)估 MVSeg 模型,沒(méi)有任何編輯修復(fù)。在本實(shí)驗(yàn)中,假設(shè)稀疏圖像點(diǎn)已經(jīng)給出了一個(gè)現(xiàn)成的交互式分割模型,并且源掩碼是可用的。因此,該任務(wù)是將源掩碼傳輸?shù)狡渌晥D中。下表顯示,新模型優(yōu)于 2D(3D 不一致)和 3D 基線。此外研究者提出的兩階段優(yōu)化有助于進(jìn)一步改進(jìn)所得到的掩碼。

圖片

定性分析來(lái)說(shuō),下圖將研究人員的分割模型的結(jié)果與 NVOS 和一些視頻分割方法的輸出進(jìn)行了比較。與 3D 視頻分割模型的粗邊相比,他們的模型降低了噪聲并提高了視圖的一致性。雖然 NVOS 使用涂鴉(scribbles)不是研究者新模型中使用的稀疏點(diǎn),但新模型的 MVSeg 在視覺(jué)上優(yōu)于 NVOS。由于 NVOS 代碼庫(kù)不可用,研究人員復(fù)制了已發(fā)布的 NVOS 的定性結(jié)果(更多的例子請(qǐng)參見(jiàn)補(bǔ)充文檔)。

圖片

下表顯示了 MV 方法與基線的比較,總的來(lái)說(shuō),新提出的方法明顯優(yōu)于其他二維和三維修復(fù)方法。下表進(jìn)一步顯示,去除幾何圖形結(jié)構(gòu)的引導(dǎo)會(huì)降低已修復(fù)的場(chǎng)景質(zhì)量。

圖片

定性結(jié)果如圖 6、圖 7 所示。圖 6 表明,本文方法可以重建具有詳細(xì)紋理的視圖一致場(chǎng)景,包括有光澤和無(wú)光澤表面的連貫視圖。圖 7 表明, 本文的感知方法減少了掩碼區(qū)域的精確重建約束,從而在使用所有圖像時(shí)防止了模糊的出現(xiàn),同時(shí)也避免了單視圖監(jiān)督造成的偽影。

圖片

圖片


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2012-11-26 12:51:44

木材3D打

2023-03-21 09:35:39

自然語(yǔ)言

2017-08-08 14:33:36

無(wú)服務(wù)計(jì)算服務(wù)器

2024-07-31 15:30:05

2023-10-16 09:51:47

模型視覺(jué)

2024-03-01 11:32:22

Vue3APIVue.js

2017-03-13 13:54:40

戴爾

2011-08-26 14:50:23

2015-08-06 14:34:22

Windows 10此電腦

2023-12-29 13:18:23

模型NeRFTICD

2021-03-11 12:33:20

Windows 10Windows操作系統(tǒng)

2012-08-23 09:50:07

測(cè)試測(cè)試人員軟件測(cè)試

2009-11-23 12:45:22

2024-02-29 09:38:13

神經(jīng)網(wǎng)絡(luò)模型

2020-09-09 10:07:06

導(dǎo)航手機(jī)導(dǎo)航北斗導(dǎo)航

2015-09-30 09:57:53

天分熱情工程師

2013-12-02 09:43:29

字符串編程

2015-08-20 10:56:19

算法界面開(kāi)發(fā)

2024-02-22 09:00:00

LogitMat數(shù)據(jù)集算法

2013-07-18 09:21:32

代碼文檔
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)