自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

AI「腦補(bǔ)」畫(huà)面太強(qiáng)了！李飛飛團(tuán)隊(duì)新作ZeroNVS，單個(gè)視圖360度全場(chǎng)景生成

作者：新智元 2023-11-05 15:15:47

人工智能新聞

斯坦福和谷歌團(tuán)隊(duì)提出了ZeroNVS，可以實(shí)現(xiàn)單個(gè)圖像零樣本360度試圖合成。

近來(lái)，利用3D感知擴(kuò)散模型訓(xùn)練模型，然后對(duì)單個(gè)物體進(jìn)行SDS蒸餾的研究數(shù)不勝數(shù)。

但是，能夠真正做到「場(chǎng)景級(jí)」的畫(huà)面生成，從未實(shí)現(xiàn)。

現(xiàn)如今，斯坦福李飛飛和谷歌團(tuán)隊(duì)打破了這個(gè)記錄！

比如，輸入一張從某個(gè)角度拍攝的客廳圖片，整個(gè)客廳的樣貌就出來(lái)了。

再來(lái)一張角度很偏的屋子拐角圖，也能生成一個(gè)意想不到的空間。

還有各種物體室內(nèi)、戶外的全場(chǎng)景圖。

看到這兒，不得不不讓人驚呼AI「腦補(bǔ)」簡(jiǎn)直強(qiáng)的一批！

那么，這究竟是如何實(shí)現(xiàn)的呢？

3D感知擴(kuò)散模型——ZeroNVS

最新論文中，斯坦福和谷歌研究人員引入了一種3D感知擴(kuò)散模型——ZeroNVS。

論文地址：https://arxiv.org/pdf/2310.17994.pdf

單圖像、360度新視圖合成 (NVS) 的模型，在生成圖像時(shí)應(yīng)該逼真且多樣化。

合成圖像對(duì)于我們來(lái)說(shuō)，應(yīng)該看起來(lái)自然且3D一致，并且它們還應(yīng)該捕獲不可觀察區(qū)域的許多可能的解釋。

以往，這個(gè)具有挑戰(zhàn)性的問(wèn)題，通常是在單個(gè)物體，甚至沒(méi)有背景下研究的，也就是說(shuō)，對(duì)真實(shí)性和多樣性的要求都被簡(jiǎn)化了。

最近的研究依賴于高質(zhì)量大規(guī)模數(shù)據(jù)集，比如Objaverse-XL，使得條件散射模型能夠從新視角產(chǎn)生逼真圖像，然后通過(guò)SDS蒸餾采樣，以提高3D一致性。

同時(shí)，由于圖像多樣性主要體現(xiàn)在背景中，而不是物體中，因此對(duì)背景的無(wú)知顯著降低了合成多樣化圖像的效果。

事實(shí)上，大多數(shù)以物體對(duì)象為中心的方法，不再將多樣性視為衡量標(biāo)準(zhǔn)。

然而，在復(fù)雜真實(shí)場(chǎng)景生成新視角合成是一個(gè)更難的問(wèn)題，目前還沒(méi)有包含完整場(chǎng)景真值信息的大規(guī)模數(shù)據(jù)集。

研究人員在研究中對(duì)背景進(jìn)行了建模，以產(chǎn)生多樣的結(jié)果。

在ZeroNVS中，作者開(kāi)發(fā)了新技術(shù)來(lái)預(yù)測(cè)單個(gè)真實(shí)圖像的場(chǎng)景，并且建立在之前在3D感知擴(kuò)散模型訓(xùn)練（Zero-1-to-3）和SDS蒸餾（DreamFusion）方面的工作基礎(chǔ)上。

具體方法

研究人員著手從單個(gè)真實(shí)圖像合成場(chǎng)景級(jí)新穎視圖的問(wèn)題。

與之前的工作類似，我們首先訓(xùn)練擴(kuò)散模型來(lái)執(zhí)行新穎的視圖合成，然后利用它來(lái)執(zhí)行3D SDS蒸餾。

與之前的工作不同地方在于，作者關(guān)注的是場(chǎng)景而不是物體。

場(chǎng)景提出了一些獨(dú)特的挑戰(zhàn)。首先，先前的研究使用攝像機(jī)和比例的表示，這些表示對(duì)于場(chǎng)景來(lái)說(shuō)要么含糊不清，要么表達(dá)力不足。

其次，先前研究的推理過(guò)程是基于 SDS 的，它具有已知的模式崩潰問(wèn)題，并且通過(guò)大大減少預(yù)測(cè)視圖中的背景多樣性在場(chǎng)景中體現(xiàn)出來(lái)。

與之前的工作相比，研究人員嘗試了通過(guò)「改進(jìn)場(chǎng)景的表示」和「推理程序」來(lái)應(yīng)對(duì)這些挑戰(zhàn)。

在這個(gè)公式中，M的輸出，和單個(gè)圖像的輸入是模型可用于視圖合成的唯一信息。

表示視圖綜合的對(duì)象

如下圖，3DoF相機(jī)姿勢(shì)捕獲指向原點(diǎn)的相機(jī)的相機(jī)仰角、方位角和半徑，但無(wú)法表示相機(jī)的滾動(dòng)（如圖）或空間中任意方向的相機(jī)。

具有這種參數(shù)化的模型無(wú)法在現(xiàn)實(shí)世界數(shù)據(jù)上進(jìn)行訓(xùn)練，其中許多相機(jī)姿勢(shì)不能用3DoF姿勢(shì)充分表示。

表示視圖合成的通用場(chǎng)景

對(duì)于場(chǎng)景，研究人員應(yīng)該使用具有6個(gè)自由度的相機(jī)表示，可以捕獲所有可能的位置和方向。

捕獲六個(gè)自由度的相機(jī)參數(shù)化的一種直接選擇是相對(duì)位姿參數(shù)化。研究人員建議還將視野作為額外的自由度，并將這種組合表示稱為「6DoF+1」。

M 6DoF+1的一個(gè)吸引人的特性是它對(duì)于場(chǎng)景的剛性變換具有不變性，因此可以得到：

對(duì)于每個(gè)歸一化方案，ZeroNVS中多個(gè)樣本的Sobel邊緣圖方差的熱圖。研究者提出的方案M 6DoF+1，觀察者減少了由于尺度模糊而導(dǎo)致的隨機(jī)性。

通過(guò)SDS anchoring提高多樣性

基于SDS的NeRF蒸餾（左）對(duì)所有360度新視圖使用相同的引導(dǎo)圖像。

作者的「SDS anchoring」（右）首先通過(guò)DDIM對(duì)新視圖進(jìn)行采樣，然后使用最近的圖像（無(wú)論是輸入還是采樣的新視圖）作為指導(dǎo)。

實(shí)驗(yàn)結(jié)果

再具體評(píng)估中，研究人員使用了一組標(biāo)準(zhǔn)的新視圖合成指標(biāo)來(lái)評(píng)估所有方法：PSNR、SSIM和LPIPS。

由于PSNR和SSIM有已知缺點(diǎn)，研究人員更看重LPIPS，并確認(rèn)PSNR和SSIM與問(wèn)題設(shè)置中的性能沒(méi)有很好的相關(guān)性，如圖7所示。

結(jié)果如表1所示。

首先與基線方法 DS-NeRF、PixelNeRF、SinNeRF、DietNeRF進(jìn)行比較。

盡管所有這些方法都是在DTU上進(jìn)行訓(xùn)練的，但研究人員從未在DTU上進(jìn)行過(guò)訓(xùn)練，但實(shí)現(xiàn)了最先進(jìn)的LPIPS零樣本。

圖8中顯示了一些定性比較。

DTU場(chǎng)景僅限于相對(duì)簡(jiǎn)單的前向場(chǎng)景。

因此，研究人員還引入了一個(gè)更具挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集，即Mip-NeRF 360數(shù)據(jù)集，來(lái)對(duì)單張圖像的360度視圖合成任務(wù)進(jìn)行基準(zhǔn)測(cè)試。

研究人員使用這個(gè)基準(zhǔn)作為零樣本基準(zhǔn)，并在混合數(shù)據(jù)集上訓(xùn)練3個(gè)基線模型來(lái)比較零樣本性能。

限制這些零樣本模型，其方法在該數(shù)據(jù)集的LPIPS上遙遙領(lǐng)先。在DTU上，新方法在所有指標(biāo)上都超過(guò)了Zero-1-to-3和零樣本PixelNeRF模型，而不僅僅是LPIPS，如表2所示。

作者介紹

Kyle Sargent

斯坦福大學(xué)的一名博士生，從2022年秋季開(kāi)始，在斯坦福人工智能實(shí)驗(yàn)室工作，導(dǎo)師是Jiajun Wu和李飛飛。

他還曾在谷歌研究院擔(dān)任學(xué)生研究員。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="5n1vc"><track id="5n1vc"></track></legend>