只需2張照片就能2D變3D,這個AI能自己腦補蠟燭吹滅過程,一作二作均為華人
2張廢片啪地一合!
錯過的精彩瞬間立刻重現(xiàn),還能從2D升到3D效果。
看,小男孩可愛的笑容馬上躍然浮現(xiàn):
吹滅生日蛋糕蠟燭的瞬間也被還原了出來:
咧嘴笑起來的過程看著也太治愈了吧~
咱就是說,這回相機里熊孩子/毛孩子的廢片終于有救了!
而且完全看不出是后期合成的效果,仿佛是原生拍攝的一般。
這就是谷歌、康奈爾大學(xué)、華盛頓大學(xué)最近聯(lián)合推出的成果,能只用2張相近的照片還原出3D瞬間,目前已被CVPR 2022收錄。
論文作者一作、二作均為華人,一作小姐姐本科畢業(yè)于浙江大學(xué)。
用2張照片正反向預(yù)測中間場景
這種方法適用于兩張非常相似的照片,比如連拍時產(chǎn)生的一系列照片。
方法的關(guān)鍵在于將2張圖片轉(zhuǎn)換為一對基于特征的分層深度圖像 (LDI),并通過場景流進行增強。
整個過程可以把兩張照片分別看做是“起點”和“終點”,然后在這二者之間逐步預(yù)測出每一刻的變化。
具體來看,過程如下:
首先,將兩張照片用單應(yīng)矩陣(homegraphy)對齊,分別預(yù)測兩張照片的稠密深度圖。
然后將每個RGBD圖像轉(zhuǎn)換為彩色的LDI,通過深度感知修復(fù)背景中被遮擋的部分。
其中,RGB圖像即為普通RGB圖像+深度圖像。
之后用二維特征提取器修復(fù)LDI的每個顏色層,以獲取特征層,從而生成兩份特征圖層。
下一步就到了模擬場景運動部分。
通過預(yù)測兩個輸入圖像之間的深度和光流,就能計算出LDI中每個像素的場景流。
而如果想要兩張圖之間渲染出一個新的視圖、并提升到3D,在此需要將兩組帶特征值的LDI提升到一對3D點云中,還要沿著場景流雙向移動到中間的時間點。
然后再將三維的特征點投影展開,形成正向、反向的二維特征圖及對應(yīng)深度圖。
最后將這些映射與時間線中對應(yīng)時間點的權(quán)重線性混合,將結(jié)果傳給圖像合成網(wǎng)絡(luò),就能得到最后的效果了。
實驗結(jié)果
從數(shù)據(jù)方面來看,該方法在所有誤差指標(biāo)上,均高于基線水平。
在UCSD數(shù)據(jù)集上,這一方法可以保留畫面中的更多細(xì)節(jié),如(d)所示。
在NVIDIA數(shù)據(jù)集上進行消融實驗表明,該方法在提高渲染質(zhì)量上表現(xiàn)也很nice。
不過也存在一些問題:當(dāng)兩張圖像之間的改變比較大時,會出現(xiàn)物體錯位的現(xiàn)象。
比如下圖中酒瓶的瓶嘴移動了,不該發(fā)生變化的酒杯也搖晃了起來。
還有照片如果沒有拍全的地方,在合成的時候難免會出現(xiàn)“截肢”的情況,比如下圖中喂考拉的手。
論文地址:
https://3d-moments.github.io/