讓文物“活”起來,火山引擎視頻云三維重建技術(shù)揭秘
中國歷史悠久,文化底蘊(yùn)深厚,文物數(shù)目眾多,文物作為前人智慧的結(jié)晶,其文獻(xiàn)價(jià)值不言而喻。古籍是記錄中華文明的重要載體,也是流傳至今的寶貴文化遺產(chǎn),文物保護(hù)也是一項(xiàng)長期重要的基礎(chǔ)工作。全國2800多家圖書館收藏有超過5000萬冊(cè)的古籍,其中1/3存在不同程度的破損。按現(xiàn)有的文物修復(fù)人員數(shù)量,需要數(shù)百年的時(shí)間才能把館藏文物全部修復(fù)好。
《古籍尋游記》是字節(jié)跳動(dòng)聯(lián)合中國第一歷史檔案館、敦煌研究院、甘肅簡牘博物館、國家圖書館(國家典籍博物館),共同打造的古籍活化項(xiàng)目,還原古文獻(xiàn)四大發(fā)現(xiàn) —— 殷墟甲骨、居延漢簡、敦煌遺書、明清檔案,讓古籍以數(shù)字化的形式 “活”起來。
該項(xiàng)目以 VR 互動(dòng)紀(jì)錄片為核心,依托火山引擎多媒體實(shí)驗(yàn)室最新的三維重建技術(shù),復(fù)刻線下文物到 PICO 虛擬場景中,并應(yīng)用自研光場視頻技術(shù),采集并惟妙惟肖的還原動(dòng)態(tài)人物的光場信息,在 VR 場景中提供高自由度的觀看和交互體驗(yàn)。在這些紀(jì)錄片中,觀眾可以通過 PICO、抖音裸眼 VR 等方式,足不出戶穿越時(shí)空,親自參與歷史事件,零距離接觸與欣賞古籍。
本文重點(diǎn)介紹火山引擎多媒體實(shí)驗(yàn)室的三維重建技術(shù)以及光場視頻技術(shù)的原理、先進(jìn)性及應(yīng)用領(lǐng)域,幫助大家能更好的了解和認(rèn)識(shí)三維重建技術(shù),助力相關(guān)技術(shù)在實(shí)際產(chǎn)品和應(yīng)用中落地。
1. 技術(shù)挑戰(zhàn)與難點(diǎn)
文物的數(shù)字化需要對(duì)文物做三維重建和數(shù)字復(fù)原,同時(shí)也對(duì)三維重建技術(shù)提出了很大挑戰(zhàn):
- 文物采集需要使用對(duì)于文物無侵害的設(shè)備,傳統(tǒng)的高精度激光等設(shè)備就無法使用。文物通常保護(hù)在陳列柜內(nèi),難以拿出,也對(duì)重建的采集提出了更高的要求;
- 文物往往形狀復(fù)雜,且具有一定的材質(zhì),尤其是古籍類文物,往往很薄,如何重建這種很薄的文物,是物品重建的一個(gè)難點(diǎn)。如何高真實(shí)感復(fù)現(xiàn)文物并表現(xiàn)其真實(shí)感紋理,包括漫反射、鏡面反射、半透明,等復(fù)雜材質(zhì)的恢復(fù)與微細(xì)表面的重建,也對(duì)技術(shù)提出了挑戰(zhàn);
- 對(duì)于石窟等文物,需要采集并重建一定的空間,如何采用純視覺的方式,在石窟內(nèi)進(jìn)行漫游采集,并進(jìn)行完整重建,是項(xiàng)目的一個(gè)難點(diǎn);
- 為了更好地實(shí)現(xiàn)博物館的文化推廣,實(shí)現(xiàn)歷史情景的在線還原,需要對(duì)動(dòng)態(tài)人物和場景進(jìn)行高真實(shí)度重建,然而,當(dāng)前動(dòng)態(tài)人物和場景的高真實(shí)度重建缺乏完整的有效解決方案。
2. 三維重建技術(shù)介紹
三維重建是計(jì)算機(jī)輔助幾何設(shè)計(jì)(CAGD)、計(jì)算機(jī)圖形學(xué)(CG)、計(jì)算機(jī)動(dòng)畫、計(jì)算機(jī)視覺、醫(yī)學(xué)圖像處理、科學(xué)計(jì)算和虛擬現(xiàn)實(shí)、數(shù)字媒體創(chuàng)作等領(lǐng)域的共性科學(xué)問題和核心技術(shù)。三維重建技術(shù),一般包括數(shù)據(jù)采集 、預(yù)處理、 點(diǎn)云拼接、特征分析、網(wǎng)格及紋理生成等步驟。
傳統(tǒng)的三維重建采用基于視覺或者基于多模態(tài)(深度數(shù)據(jù),e.g.,激光)重建圖像三維信息的過程,能夠?qū)o態(tài)物體和場景進(jìn)行建模,但缺乏有效的對(duì)于動(dòng)態(tài)物體和場景建模的整體解決方案。
火山引擎多媒體實(shí)驗(yàn)室具備自研的物品重建技術(shù)、場景重建技術(shù),及光場視頻技術(shù),能夠?qū)o態(tài)物體構(gòu)建高保真的形態(tài),并恢復(fù)其復(fù)雜材質(zhì);能夠?qū)Υ髨鼍?,包括城市,園區(qū),房屋空間等進(jìn)行有效的建模,是數(shù)字孿生的重要基礎(chǔ);且能夠?qū)?dòng)態(tài)物體和動(dòng)態(tài)場景,采用先進(jìn)光場視頻技術(shù)進(jìn)行重建和復(fù)現(xiàn),實(shí)現(xiàn)點(diǎn)播和直播,具備整套的技術(shù)解決方案。
2.1 物品重建技術(shù):既要保護(hù)文物又要精確掃描
在“古籍尋游記”項(xiàng)目中,火山引擎多媒體實(shí)驗(yàn)室做了四十多樣文物的數(shù)字復(fù)原。在做文物數(shù)字復(fù)原的過程中,遇到的第一個(gè)難點(diǎn)就是,文物是需要重點(diǎn)保護(hù)的,對(duì)于采集設(shè)備有一定的限制,比如,常用的高精度激光設(shè)備是不能夠用來掃描文物的,這就驅(qū)使火山引擎多媒體實(shí)驗(yàn)室團(tuán)隊(duì)采用基于視覺的方式對(duì)文物進(jìn)行三維重建。
然而傳統(tǒng)基于視覺的重建方法無法處理弱紋理物體,而且對(duì)于形狀比較復(fù)雜的物品也難以重建(例如狹長的簡牘、扁平的甲骨)。為此,采用符號(hào)距離場(Signed Distance Fields,簡稱SDF)的技術(shù)方案來表示三維物體,結(jié)合深度學(xué)習(xí)的方法克服了以上重建難點(diǎn)。SDF 表示了空間中每個(gè)點(diǎn)到物體的有向距離,是一種隱式表示,二維SDF的示意圖如下。
SDF 示意圖
如何監(jiān)督神經(jīng)網(wǎng)絡(luò)使其準(zhǔn)確地?cái)M合該 SDF 是需要研究的問題。先用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure from Motion,簡稱SfM)算法,精確計(jì)算拍攝圖像的相機(jī)姿態(tài)。有了相機(jī)姿態(tài),利用可微渲染的方法將 SDF 所表示的空間信息渲染到圖像上,把渲染得到的圖像和該視角下采集的圖像做比較,不斷優(yōu)化神經(jīng)網(wǎng)絡(luò),使 SDF 在各個(gè)采集視角下的渲染結(jié)果盡可能與實(shí)際采集的圖像一致。
為了進(jìn)一步提高重建精細(xì)度,在優(yōu)化 SDF 的時(shí)候加入稀疏重建得到的三維點(diǎn)做約束,能更好的還原物體的細(xì)節(jié)特征。為了達(dá)到完整重建的目的, 火山引擎多媒體實(shí)驗(yàn)室還將分割算法和重建算法相結(jié)合,能夠有效的重建出物體的底部區(qū)域。
由于物體在掃描過程中是要固定在某個(gè)位置,物體的底面采集不到圖片的。物體的完整重建就是要解決物體底部重建的問題,通常的做法是懸線法或多段重建加后處理拼接。懸線法對(duì)文物來說不夠安全,拼接后處理流程較長,不能自動(dòng)化。為此, 火山引擎多媒體實(shí)驗(yàn)室在重建算法中加入了自動(dòng)化圖像分割,能夠?qū)⒄磧纱闻臄z的數(shù)據(jù)統(tǒng)一起來一起重建,直接得到完整的重建結(jié)果,完整重建的結(jié)果對(duì)比如下圖所示。
未使用完整重建技術(shù)建模結(jié)果
使用完整重建技術(shù)建模結(jié)果
高光是物體重建的一大挑戰(zhàn),一方面高光影響特征點(diǎn)匹配,導(dǎo)致恢復(fù)的相機(jī)位姿不準(zhǔn)確,再一個(gè)高光也會(huì)破壞不同視角間觀測結(jié)果的一致性,對(duì)重建造成干擾。為此,火山引擎多媒體實(shí)驗(yàn)室總結(jié)出一套利用偏振光消除高光的方法,能有效去除大量高光,高光消除的結(jié)果對(duì)比如下圖所示。
消除高光前
消除高光后
火山引擎多媒體實(shí)驗(yàn)室的方法還可以模擬不同物體的反射/折射性質(zhì),實(shí)現(xiàn)對(duì)特殊材質(zhì)物體的建模 , 文物重建的結(jié)果展示如下圖所示。
文物原圖
文物重建結(jié)果
四大博物館的文物,有一些是紙質(zhì)、竹簡類的珍貴文物,這些文物也難以從陳列柜中取出并采集。針對(duì)這種情況,火山引擎多媒體實(shí)驗(yàn)室自研了加入光學(xué)偏振片的采集設(shè)備,可以消除玻璃陳列柜帶來的雜光、高光和反射問題,使得我們?cè)谟幸粚硬AПWo(hù)殼的狀態(tài)下,仍對(duì)文物進(jìn)行高保真的掃描和重建。
玻璃陳列柜中文物
文物重建結(jié)果
此外,火山引擎多媒體實(shí)驗(yàn)室的物品重建技術(shù)還包含精確位姿估計(jì)、真實(shí)感紋理 ( 漫反射、鏡面反射、半透明 ) 等復(fù)雜材質(zhì)的恢復(fù)與微細(xì)表面的重建,也均在“古籍尋游記”項(xiàng)目中得以運(yùn)用,將寶貴的文物實(shí)現(xiàn)高真實(shí)度的1:1還原,并轉(zhuǎn)換為數(shù)字化資源,讓觀眾“沉浸式”逛館,讓藏品更加深入人心。
火山引擎多媒體實(shí)驗(yàn)室的物體重建技術(shù)具備很強(qiáng)的普適性,不僅適用于文物,一般物體也同樣適用,而且對(duì)一些傳統(tǒng)重建難以處理的物體,比如,刀刃等非常薄的物體等,也能有不錯(cuò)的重建結(jié)果。
上:小刀及木棍等道具;下:電商物品
2.2 自建場景重建算法:更高效率、更高精度
場景重建是計(jì)算機(jī)視覺和攝影測量中的重要研究課題,也在智慧城市、虛擬現(xiàn)實(shí)、數(shù)字導(dǎo)航與數(shù)字遺產(chǎn)保護(hù)等方面有著重要的應(yīng)用。通過視覺進(jìn)行三維重建具有采集效率高、采集成本低、精度上限高、適應(yīng)場景廣等優(yōu)點(diǎn),同時(shí)可以避免其他掃描設(shè)備對(duì)場景帶來不必要的損害,但在算法層面面臨諸多挑戰(zhàn)。對(duì)此, 火山引擎多媒體實(shí)驗(yàn)室結(jié)合 AI 技術(shù)與多視角幾何基本原理,搭建了一套先進(jìn)的魯棒、精確完整視覺重建算法框架。 重建過程包括三個(gè)關(guān)鍵步驟 :圖像處理、 點(diǎn)云優(yōu)化和網(wǎng)格重建 。
火山引擎多媒體實(shí)驗(yàn)室利用先進(jìn)的人工智能技術(shù),對(duì)圖像進(jìn)行去噪、超分 、特征提取與匹配等處理,從而克服了諸多傳統(tǒng)方法限制。然后利用 SfM 算法以及捆集約束(Bundle Adjustment,簡稱 BA)從圖像中提取稀疏幾何結(jié)構(gòu)和相機(jī)參數(shù)。同時(shí)團(tuán)隊(duì)開發(fā)了支持全景相機(jī)、多相機(jī)組、RGBD 相機(jī)、激光雷達(dá)、GPS/IMU 等多傳感器數(shù)據(jù)輸入的位姿估計(jì)算法,實(shí)現(xiàn)高精度、多模態(tài)、自適應(yīng)的稀疏重建。為了處理大規(guī)模數(shù)據(jù),團(tuán)隊(duì)開發(fā)分塊重建和地圖合并策略,實(shí)現(xiàn)分布式集群并行重建,顯著提高了重建效率。
在完成場景稀疏重建后,通過立體視覺 (Multiple View Stereo,簡稱 MVS)技術(shù)將二維圖像信息轉(zhuǎn)化為三維點(diǎn)云信息。團(tuán)隊(duì)自研基于單目相機(jī)、雙目相機(jī)和多目立體視覺的深度估計(jì)算法,通過神經(jīng)網(wǎng)絡(luò)進(jìn)行稠密深度估計(jì),在任意視差、各種紋理環(huán)境獲得穩(wěn)定優(yōu)秀的表現(xiàn)。獲得點(diǎn)云信息后,進(jìn)行點(diǎn)云去噪和補(bǔ)全,并通過點(diǎn)云配準(zhǔn)實(shí)現(xiàn)場景幾何一致性。最后,通過基于 VoxelHash 和圖像語義信息的點(diǎn)云融合策略,進(jìn)一步濾除噪聲,生成更加平滑一致的完整場景點(diǎn)云。
獲得場景點(diǎn)云后,進(jìn)行 Mesh 重建?;鹕揭娑嗝襟w實(shí)驗(yàn)室自研多種網(wǎng)格優(yōu)化算法,實(shí)現(xiàn)網(wǎng)格平滑、去噪、簡化和補(bǔ)洞,獲得更加精細(xì)、完整的高質(zhì)量網(wǎng)格模型。得益于圖像處理期間高精度的相機(jī)位姿估計(jì)以及圖像超分等畫質(zhì)優(yōu)化,結(jié)合自研貼圖算法,獲得更高清、拼縫更少的高質(zhì)量紋理貼圖。同時(shí)通過紋理重打包算法優(yōu)化,實(shí)現(xiàn)更高的紋理利用率,降低存儲(chǔ)資源浪費(fèi),提升紋理有效分辨率。
傳統(tǒng)圖像配準(zhǔn)算法
火山引擎視頻云算法
傳統(tǒng)建模算法
火山引擎視頻云算法建模結(jié)果
城市場景建模
火山引擎視頻云算法
蘇州圓通寺重建結(jié)果
火山引擎多媒體實(shí)驗(yàn)室的物品重建技術(shù)和場景重建技術(shù)可以等比例、高精度的復(fù)原不同大小、不同形狀的文物。上述的技術(shù)可以將線下文物轉(zhuǎn)換到線上,在PICO、抖音里實(shí)現(xiàn)文物的虛擬呈現(xiàn),用戶可以把甲骨文把玩在手里,清晰的看到上面的文字,實(shí)現(xiàn)傳統(tǒng)參觀沒有的文物觀賞體驗(yàn),同時(shí)也可以跨越空間限制,置身并漫游在敦煌石窟里。另外,該項(xiàng)技術(shù)可以將線下珍貴文物轉(zhuǎn)換為線上的永久數(shù)字資源,實(shí)現(xiàn)文物的數(shù)字化保護(hù),可以讓后世的人們身臨其境體驗(yàn)到文物的全貌。
2.3 自研光場視頻技術(shù):平衡成本與精確度之間的難題
為了能夠在虛擬敦煌石窟內(nèi),身臨其境地觀看一場盛世舞蹈,感受超越現(xiàn)實(shí)的體驗(yàn),火山引擎多媒體實(shí)驗(yàn)室自研的光場視頻技術(shù),能夠?qū)?dòng)態(tài)人物和場景進(jìn)行高真實(shí)度重建,達(dá)到行業(yè)先進(jìn)水平。
動(dòng)態(tài)三維網(wǎng)格數(shù)據(jù)(Dynamic Mesh),可以表示動(dòng)態(tài)人物和場景,但是如何重建出高質(zhì)量的動(dòng)態(tài)三維網(wǎng)格,并使得新渲染出的圖像能夠如照片般逼真是一個(gè)難題。 若通過三維場景設(shè)計(jì)師對(duì)場景進(jìn)行手工重建,將獲得較好的重建質(zhì)量,但將付出較大的人力成本;若通過SFM/MVS等算法自動(dòng)重建三維場景,則需要重建場景紋理有一定要求,且重建結(jié)果可能包含不精確的幾何細(xì)節(jié)和紋理失真。
神經(jīng)輻射場技術(shù),采用神經(jīng)網(wǎng)絡(luò)對(duì)隱式重建,利用可微渲染模型,從已有視圖中學(xué)習(xí)如何渲染新視角下的圖像,從而實(shí)現(xiàn)照片級(jí)逼真的圖像渲染, 即神經(jīng)輻射場(NeRF)技術(shù)??晌秩灸P徒A藦娜S空間模型及紋理到圖像的渲染過程,其可微特性使得在已有視角圖像的監(jiān)督下,通過神經(jīng)網(wǎng)絡(luò)對(duì)三維空間幾何及紋理進(jìn)行學(xué)習(xí)。在未知新視角下,可以對(duì)學(xué)習(xí)到的三維空間幾何進(jìn)行重新渲染,從而獲得新視角下的圖像。
火山引擎多媒體實(shí)驗(yàn)室融合神經(jīng)輻射場技術(shù)與傳統(tǒng)的網(wǎng)格建模技術(shù)。在具體實(shí)踐中,首先重建出人物的大致幾何輪廓,并改進(jìn)NeRF技術(shù),融入幾何輪廓作為先驗(yàn)加入訓(xùn)練指導(dǎo),隱式學(xué)習(xí)三維空間幾何,并重新渲染出稠密新視角下的圖像。在神經(jīng)輻射場訓(xùn)練過程中,針對(duì)動(dòng)態(tài)人物場景,團(tuán)隊(duì)通過一些優(yōu)化策略以提升該場景下的新視角生成效果,如借助基于哈希編碼的層次化表達(dá)提升模型訓(xùn)練速度,借助流式訓(xùn)練提升動(dòng)態(tài)場景的幀間一致性等。最后采用視頻融合技術(shù), 能夠自動(dòng)學(xué)習(xí)背景信息,實(shí)現(xiàn)前景的重光照,使得前景演員與背景場景能夠無縫融合。
同時(shí),火山引擎多媒體實(shí)驗(yàn)室的光場視頻技術(shù),可以實(shí)現(xiàn) NeRF 的編輯,重建并復(fù)現(xiàn)復(fù)雜的動(dòng)態(tài)大場景。
火山引擎多媒體實(shí)驗(yàn)室的光場視頻技術(shù),僅僅需要稀疏的多相機(jī)輸入,就能夠生成稠密的光場數(shù)據(jù),這主要是采用基于深度學(xué)習(xí)的新視角生成技術(shù)。光場視頻數(shù)據(jù)相對(duì)傳統(tǒng)視頻數(shù)據(jù),具有數(shù)據(jù)量大的特點(diǎn),團(tuán)隊(duì)采用多視角聚合編碼技術(shù)壓縮光場數(shù)據(jù),降低傳輸和存儲(chǔ)的壓力。結(jié)合大規(guī)模直播技術(shù)以及 RTC 傳輸技術(shù),能夠?qū)崿F(xiàn)光場視頻的點(diǎn)播和直播。
3. 總結(jié)與展望
隨著3D技術(shù)的不斷成熟,火山引擎多媒體實(shí)驗(yàn)室的3D技術(shù)不僅在VR領(lǐng)域、自動(dòng)駕駛、視頻直播、游戲等場景落地具體的應(yīng)用,而且將會(huì)在在工業(yè)、醫(yī)療、建筑家居、航空航天等領(lǐng)域持續(xù)探索?;鹕揭嫦M軌?qū)⑽锲分亟夹g(shù)、場景重建技術(shù)及光場視頻技術(shù)廣泛應(yīng)用到各行各業(yè)的產(chǎn)品和項(xiàng)目中去,服務(wù)于企業(yè)客戶,為用戶帶來更高清、更互動(dòng)、更沉浸的創(chuàng)新體驗(yàn)。
火山引擎多媒體實(shí)驗(yàn)室是字節(jié)跳動(dòng)旗下的研究團(tuán)隊(duì),致力于探索多媒體領(lǐng)域的前沿技術(shù),參與國際標(biāo)準(zhǔn)化工作,其眾多創(chuàng)新算法及軟硬件解決方案已經(jīng)廣泛應(yīng)用在抖音、西瓜視頻等產(chǎn)品的多媒體業(yè)務(wù),并向火山引擎的企業(yè)級(jí)客戶提供技術(shù)服務(wù)。實(shí)驗(yàn)室成立以來,多篇論文入選國際頂會(huì)和旗艦期刊,并獲得數(shù)項(xiàng)國際級(jí)技術(shù)賽事冠軍、行業(yè)創(chuàng)新獎(jiǎng)及最佳論文獎(jiǎng)。