自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

新聞 人工智能
自打伯克利和谷歌聯(lián)合打造的NeRF橫空出世,江湖上靜態(tài)圖變動(dòng)圖的魔法就風(fēng)靡開(kāi)來(lái)。

 

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

自打伯克利和谷歌聯(lián)合打造的NeRF橫空出世,江湖上靜態(tài)圖變動(dòng)圖的魔法就風(fēng)靡開(kāi)來(lái)。

[[416610]]

不過(guò),想要像這樣依靠AI來(lái)簡(jiǎn)化3D動(dòng)態(tài)效果的制作,算力開(kāi)銷可不?。?/p>

以NeRF為例,想要在1440×1600像素、90Hz的VR頭盔中實(shí)現(xiàn)實(shí)時(shí)渲染,需要37 petaFLOPS(每秒10^15次浮點(diǎn)運(yùn)算)的算力——這在目前的GPU上根本不可能實(shí)現(xiàn)。

怎么降低點(diǎn)計(jì)算復(fù)雜度?

現(xiàn)在,來(lái)自?shī)W地利格拉茲科技大學(xué)和Facebook的研究人員,就想出一招:引入真實(shí)深度信息。

就這一下,很快的,推理成本最高能降低48倍,并且只用1個(gè)GPU,就能以每秒20幀的速度實(shí)現(xiàn)交互式渲染。

畫質(zhì)什么的,也沒(méi)啥影響,甚至還能有所提升:

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

具體是怎樣一招,咱們往下接著聊。

基于深度預(yù)言網(wǎng)絡(luò)的NeRF

首先需要說(shuō)明的是,NeRF,即神經(jīng)輻射場(chǎng)(neural radiance field)方法,是沿相機(jī)射線采樣5D坐標(biāo),來(lái)實(shí)現(xiàn)圖像合成的。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

也就是說(shuō),在NeRF的渲染過(guò)程中,需要對(duì)每條射線都進(jìn)行網(wǎng)絡(luò)評(píng)估,以輸出對(duì)應(yīng)的顏色和體積密度值等信息。

這正是造成NeRF在實(shí)時(shí)渲染應(yīng)用中開(kāi)銷過(guò)大的主要原因。

而現(xiàn)在,格拉茲科技大學(xué)和Facebook的研究人員發(fā)現(xiàn),引入真實(shí)深度信息,只考慮物體表面周圍的重要樣本,每條視圖射線(view ray)所需的樣本數(shù)量能夠大大減少,并且不會(huì)影響到圖像質(zhì)量。

基于此,他們提出了DONeRF

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

DONeRF由兩個(gè)網(wǎng)絡(luò)組成,其一,是Sampling Oracle Network,使用分類法來(lái)預(yù)測(cè)沿視圖射線的最佳采樣位置。

具體來(lái)說(shuō),這個(gè)深度預(yù)言網(wǎng)絡(luò)通過(guò)將空間沿射線離散化,并預(yù)測(cè)沿射線的采樣概率,來(lái)預(yù)測(cè)每條射線上的多個(gè)潛在采樣對(duì)象。

如下圖所示,3個(gè)顏色通道編碼了沿射線的3種最高采樣概率,灰度值表明其中可能只有一個(gè)表面需要被采樣,而彩色數(shù)值則表明這些樣本需要在深度上展開(kāi)。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

其二,是一個(gè)著色網(wǎng)絡(luò),使用類似于NeRF的射線行進(jìn)累積法來(lái)提供RGBA輸出。

為了消除輸入的模糊性,研究人員還將射線轉(zhuǎn)換到了一個(gè)統(tǒng)一的空間,并使用非線性采樣來(lái)追蹤接近的區(qū)域。

另外,在兩個(gè)網(wǎng)絡(luò)之間,研究人員對(duì)局部采樣進(jìn)行扭曲,以使著色網(wǎng)絡(luò)的高頻預(yù)測(cè)被引導(dǎo)到前景上。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

本文還引入了視圖單元(view cell)的概念。一個(gè)視圖單元被定義為一個(gè)具有主要方向和最大視角的邊界框。

簡(jiǎn)單來(lái)說(shuō),這個(gè)邊界框能夠捕捉到所有源于框內(nèi)、并且在一定旋轉(zhuǎn)范圍內(nèi)的視圖射線。

利用這樣的方法,就可以對(duì)大場(chǎng)景進(jìn)行分割,解決NeRF沒(méi)有辦法應(yīng)用于大場(chǎng)景的問(wèn)題。

此外,較小的視圖單元減少了場(chǎng)景中的可見(jiàn)內(nèi)容,因此可能會(huì)進(jìn)一步提高成像質(zhì)量。

對(duì)比結(jié)果

所以,DONeRF相較于前輩NeRF,到底能快多少?

不妨直接來(lái)看對(duì)比結(jié)果。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

在相似的質(zhì)量下,NeRF總共使用了256個(gè)樣本。而DONeRF只用到了4個(gè)樣本,在速度上可以實(shí)現(xiàn)20-48倍的提升。

并且在成像細(xì)節(jié)方面,DONeRF的圖像邊緣更為清晰。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

研究人員還指出,在16個(gè)樣本的情況下,從峰值信噪比(PSNR)來(lái)看,幾乎所有場(chǎng)景中DONeRF都超越了NeRF。

推理成本降低48倍!1張GPU就能讓靜態(tài)圖像動(dòng)起來(lái)

傳送門

論文地址:
https://arxiv.org/abs/2103.03231

項(xiàng)目地址:
https://depthoraclenerf.github.io/

 

 

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2022-06-07 09:00:32

PythonAI靜態(tài)圖片

2012-09-03 09:21:51

2021-04-12 11:47:21

人工智能知識(shí)圖譜

2009-06-19 11:18:51

Factory BeaSpring配置

2020-09-21 21:40:19

AI 數(shù)據(jù)人工智能

2020-11-16 11:50:21

Python代碼命令

2021-12-31 09:34:22

PyTorchtransformer模型

2013-05-27 15:35:18

用友UAP移動(dòng)應(yīng)用移動(dòng)平臺(tái)

2022-02-24 08:30:24

操作系統(tǒng)CPU程序

2024-02-01 12:43:16

模型數(shù)據(jù)

2010-09-01 17:35:41

云計(jì)算

2024-03-28 13:14:00

數(shù)據(jù)訓(xùn)練

2010-09-08 09:48:56

Gif播放教程Android

2021-09-26 09:23:01

GC算法垃圾

2011-06-01 14:51:54

jQuery

2019-05-21 14:18:09

PygamePython編程語(yǔ)言

2018-07-26 13:53:27

2023-11-13 07:06:16

Gen-2AI視頻

2010-05-21 11:03:51

統(tǒng)一通信系統(tǒng)

2011-09-15 17:36:29

Android應(yīng)用Call Cartoo動(dòng)畫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)