眼球反射解鎖3D世界,黑鏡成真!馬里蘭華人新作炸翻科幻迷
「唯一真正的探索之旅,不是去拜訪陌生的土地,而是透過別人的眼睛來觀察宇宙?!埂R塞爾·普魯斯特
通過別人的眼睛來看世界,這個又科幻又詩意(又恐怖)的想法,已經(jīng)成真了!
《黑鏡》第一季《你的全部歷史》
現(xiàn)在,我們只需利用眼睛的反光,就能三維重建這個人正在觀察的物體。
是的,這很黑鏡。
最近,來自馬里蘭大學(xué)的團隊,提出一種全新的方法——通過利用包含眼睛反光的人像,來對攝像機沒有拍到的場景進行三維重建。
論文地址:https://arxiv.org/abs/2306.09348
項目地址:https://world-from-eyes.github.io/
經(jīng)典科幻中的場景都成真了?
用眼睛反射產(chǎn)生輻射場重建?這個想法看似瘋狂,實則有足夠的理論依據(jù)。
作者介紹說,因為人眼具有高度的反射性,所以從捕捉頭部移動的一系列幀中,完全可以做到僅使用眼睛的反射,就能重建和渲染人們正在觀察的3D場景。
鑒于這個概念非?!负阽R」,而且這篇論文一發(fā)布沒幾個小時,《黑鏡》新一季就宣布上線了,這種巧合簡直讓人懷疑《黑鏡》的導(dǎo)演是不是也注意到了這篇論文。(狗頭)
黑鏡第六季今日上線
這項研究一出,網(wǎng)友們直接炸了。
所以,我們已經(jīng)快進到這一步了?
這不就是2000年代《攻殼機動隊》中的場景嗎?這些虛構(gòu)全都變成現(xiàn)實了!
100%的《銀翼殺手》,現(xiàn)在就給我一份拷貝吧。
儒勒·凡爾納的《基普兄弟》成真了!
當(dāng)然,也有人對此表示毛骨悚然:這個技術(shù)可千萬別被用于調(diào)查取證之類的事情。
而在今天,我們已經(jīng)有了Varjo眼動追蹤相機,還有蘋果的VisionPro以及其他頭顯,這些設(shè)備都可以捕捉大量鏡頭素材,結(jié)合進這項新技術(shù),無數(shù)嶄新的科幻場景,恐怕馬上都要成真了……
通過利用光線在人眼上的微小反射,研究團隊開發(fā)了一種方法,可以使用在固定相機位置拍攝的單目圖像序列來重建人所觀察到的(非直視)場景。
不過,僅僅在觀察到的反射上訓(xùn)練輻射場是不夠的,原因有幾個:1)角膜定位中的固有噪聲,2)虹膜紋理的復(fù)雜性,3)每張圖像中捕獲的低分辨率反射。
為了解決這些挑戰(zhàn),團隊在訓(xùn)練過程中引入了角膜姿態(tài)優(yōu)化和虹膜紋理分解,并借助基于人眼虹膜的徑向紋理正則化損失。
與傳統(tǒng)的需要移動相機的神經(jīng)場訓(xùn)練方法不同,他們使用的方法將相機放置在固定的視點上,完全依賴于用戶的移動。
利用人眼反光,實現(xiàn)場景重建
由于準(zhǔn)確估計眼睛的姿態(tài)十分困難,再加上虹膜和場景反射之間的紋理相互交織,因此這項任務(wù)頗具挑戰(zhàn)性。
為了解決這一問題,作者針對眼睛姿態(tài)、描述場景的輻射場以及觀察者的眼睛虹膜紋理,進行了聯(lián)合優(yōu)化。
具體來說,主要的貢獻有三點:
1. 新的三維重建
提出了一種從眼睛圖像中重建觀察者世界的3D場景的新方法,可以將先前的基礎(chǔ)工作與神經(jīng)渲染的最新進展相結(jié)合。
2. 虹膜的徑向先驗
引入了虹膜紋理分解的徑向先驗,顯著提高了重建的輻射場的質(zhì)量。
3. 角膜姿態(tài)的優(yōu)化
開發(fā)了一種角膜姿態(tài)優(yōu)化的過程,以減輕眼睛姿態(tài)估計的噪聲,克服了從人眼中提取特征的獨特挑戰(zhàn)。
結(jié)果顯示,利用這個全新的方法,我們可以通過移動畫面,從眼睛的反射中獲得場景的多個視角,最終實現(xiàn)完整的場景重建。
更厲害的是,團隊還嘗試?yán)肕iley Cyrus和Lady Gaga的MV,來重建她們眼睛里的景象。
作者表示,他們成功地重建了出現(xiàn)在Miley的眼中的物體,并且從Lady Gaga的眼中似乎看到了一個人的上半身。
然而,由于這些視頻的質(zhì)量不夠高,因此還不能斷定重建結(jié)果的準(zhǔn)確性。
Lady Gaga
Miley Cyrus
如何做到的?
眾所周知,健康成年人的角膜幾何形狀幾乎相同。
因此,只需在圖像中計算一個人的角膜的像素大小,就可以準(zhǔn)確計算出他們的眼睛位置。
接下來,作者通過從相機拍攝光線,并將它們反射出近似的眼睛幾何形狀,來訓(xùn)練眼睛反射的輻射場。
為了避免人眼的虹膜在重建中出現(xiàn),作者同時訓(xùn)練了一個學(xué)習(xí)虹膜紋理的二維紋理映射,來進行紋理分解。
實驗評估
合成數(shù)據(jù)評估
首先,作者通過在Blender場景中放置人眼模型,進行了合成數(shù)據(jù)上的評估。
下圖展示了僅利用眼睛反射重建的場景。
由于在現(xiàn)實生活中無法完美估計眼角膜,作者和評估了角膜姿態(tài)優(yōu)化對估計角膜半徑噪音的魯棒性。
為了模擬真實數(shù)據(jù)中可能遇到的深度估計誤差,作者通過使用不同噪音水平對每個圖像中觀察到的角膜半徑進行縮放,來破壞觀察到的角膜半徑r_img。
下圖展示了在不同噪音水平下的性能變化。
值得注意的是,隨著噪音的增加,與無姿態(tài)優(yōu)化的重建相比,作者提出的姿態(tài)優(yōu)化重建在重建的幾何形狀和顏色方面更為魯棒。
這證明姿態(tài)優(yōu)化對于現(xiàn)實場景至關(guān)重要,因為圖像中從投影的角膜到初始橢圓擬合并不完美。
此外,在有無紋理分解的情況下的定量比較顯示,作者的方法在SSIM和LPIPS方面在紋理分解的情況下表現(xiàn)更好。
值得注意的是,作者沒有計算PSNR,因為在設(shè)置中,反射和場景本身之間的照明差異非常大。
真實世界評估
為了保證視野的真實,作者選擇了索尼RX IV相機進行拍攝,并使用Adobe Lightroom對圖像進行后處理,以減少角膜反射中的噪聲。同時,作者在人物的兩側(cè)加入了光源來照亮目標(biāo)物體。
過程中,被拍的人需要在相機的視野范圍內(nèi)移動,以便團隊在每個場景中拍攝5-15幀圖像。
由于場景照明具有較大的動態(tài)范圍,作者在所有實驗中使用16位圖像,以避免丟失觀察到的反射中的信息。
平均而言,每個圖像中角膜只覆蓋約0.1%的區(qū)域,而目標(biāo)物體大約會占到20x20像素,并與虹膜紋理交錯。
數(shù)據(jù)處理
作者首先通過對圖像進行角膜中心和半徑的估計,來獲得角膜的初始位置估計。
然后,使用平均深度和相機的焦距直接近似來計算角膜的三維位置,并計算其表面法線。
為了自動化這個過程,作者使用Grounding Dino定位眼睛的邊界框,并使用ELLSeg對虹膜進行橢圓擬合。
盡管角膜通常被遮擋,但我們只需要未遮擋的區(qū)域,因此可以使用Segment Anything來獲得虹膜的分割掩碼。
真實結(jié)果
從下圖展示的效果中可以看出,作者的方法能夠從真實世界的人像圖片中重建3D場景,盡管存在角膜位置和幾何估計的不準(zhǔn)確性。
由于角膜邊界的模糊性,想要在圖像中實現(xiàn)精確的定位十分困難。
此外,對于某些眼睛顏色,如綠色和藍色,3D重建也會更加困難,因為虹膜紋理較亮。
此外,在沒有明確建模紋理時,重建后的畫面中還會出現(xiàn)更多的「漂浮物」。
為了解決這些問題,可以通過增加徑向正則化的程度,來改善重建的質(zhì)量。
不過,這個方法依然存在兩個主要的限制。
首先,目前的真實世界結(jié)果是基于「實驗室設(shè)置」,例如對人臉進行放大拍攝、使用額外的光源照亮場景等。而在更自由的環(huán)境中,就需要面對傳感器分辨率較低、動態(tài)范圍較小且存在運動模糊等更大的挑戰(zhàn)。
其次,目前對虹膜紋理的假設(shè)(例如恒定紋理、徑向恒定顏色)可能過于簡化,因此該方法在眼睛大幅度旋轉(zhuǎn)時可能會失效。
作者介紹
共同一作Kevin Zhang,目前是馬里蘭大學(xué)的博士生。
Brandon Y. Feng在馬里蘭大學(xué)獲得計算機科學(xué)博士學(xué)位,研究興趣集中在計算成像、中層視覺和計算攝影領(lǐng)域。曾開發(fā)了用于圖像和3D數(shù)據(jù)處理的機器學(xué)習(xí)算法,應(yīng)用范圍涵蓋混合現(xiàn)實到自然科學(xué)等領(lǐng)域。
Jia-Bin Huang是馬里蘭大學(xué)副教授,此前在UIUC獲得了博士學(xué)位。研究興趣集中在計算機視覺、計算機圖形學(xué)和機器學(xué)習(xí)的交叉領(lǐng)域。