單張照片生成3D頭部模型!Adobe提出FaceLift,從單一人臉圖像重建360度頭部模型
本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
FaceLift是Adobe和加州大學(xué)默塞德分校推出的單圖像到3D頭部模型的轉(zhuǎn)換技術(shù),能從單一的人臉圖像中重建出360度的頭部模型。FaceLift基于兩階段的流程實(shí)現(xiàn):基于擴(kuò)散的多視圖生成模型從單張人臉圖像生成一致的側(cè)面和背面視圖;生成的視圖被輸入到GS-LRM重建器中,產(chǎn)出詳細(xì)的3D高斯表示。FaceLift能精確保持個(gè)體的身份特征,生成具有精細(xì)幾何和紋理細(xì)節(jié)的3D頭部模型。FaceLift支持視頻輸入,實(shí)現(xiàn)4D新視圖合成,能與2D面部重動(dòng)畫(huà)技術(shù)無(wú)縫集成,實(shí)現(xiàn)3D面部動(dòng)畫(huà)。
相關(guān)鏈接
- 主頁(yè): https://www.wlyu.me/FaceLift
- GitHub: https://github.com/weijielyu/FaceLift
- 論文: https://arxiv.org/pdf/2412.17812
論文介紹
FaceLift是一種新穎的前饋方法,可從單張圖像快速、高質(zhì)量地重建 360 度頭部。流程首先采用多視圖潛在擴(kuò)散模型,該模型可從單個(gè)面部輸入生成一致的頭部側(cè)面和背面視圖。然后,這些生成的視圖作為 GS-LRM 重建器的輸入,GS-LRM 重建器使用高斯 Splats 生成全面的 3D 表示。為了訓(xùn)練系統(tǒng),使用了合成的 3D 人體頭部資產(chǎn)開(kāi)發(fā)了一個(gè)多視圖渲染數(shù)據(jù)集。基于擴(kuò)散的多視圖生成器專門在合成頭部圖像上進(jìn)行訓(xùn)練,而 GS-LRM 重建器在 Objaverse 上進(jìn)行初始訓(xùn)練,然后在合成頭部數(shù)據(jù)上進(jìn)行微調(diào)。FaceLift擅長(zhǎng)在重建過(guò)程中保留身份和維持視圖一致性。盡管僅在合成數(shù)據(jù)上進(jìn)行訓(xùn)練,但我們的方法仍表現(xiàn)出對(duì)真實(shí)世界圖像的顯著泛化能力。通過(guò)大量的定性和定量評(píng)估表明FaceLift在 3D 頭部重建方面的表現(xiàn)優(yōu)于最先進(jìn)的方法,凸顯了其實(shí)用性和在真實(shí)圖像上的穩(wěn)健性能。除了單幅圖像重建外,F(xiàn)aceLift還支持視頻輸入以進(jìn)行 4D 新穎視圖合成,并與 2D 動(dòng)畫(huà)技術(shù)無(wú)縫集成以實(shí)現(xiàn) 3D 面部動(dòng)畫(huà)。
方法
FaceLift概述。 給定一張人臉圖像作為輸入,我們訓(xùn)練一個(gè)圖像調(diào)節(jié)的多視圖擴(kuò)散模型來(lái)生成覆蓋整個(gè)頭部的全新視圖。通過(guò)利用預(yù)先訓(xùn)練的權(quán)重和高質(zhì)量的合成數(shù)據(jù),我們的多視圖潛在擴(kuò)散模型可以以高保真度和多視圖一致性幻化出人頭的未見(jiàn)視圖。然后,我們對(duì) GS-LRM 進(jìn)行微調(diào),它將多視圖圖像及其相機(jī)姿勢(shì)作為輸入,并生成 3D 高斯圖塊來(lái)表示人頭。生成的 3D 高斯表示支持全頭部全新視圖合成。
結(jié)果
單幅圖像到 3D 頭部
FaceLift 是一種前饋方法,它將單個(gè)面部圖像提升為具有保留身份特征的詳細(xì) 3D 重建。
視頻作為 4D 新視圖合成的輸入
給定視頻作為輸入,F(xiàn)aceLift 單獨(dú)處理每一幀并生成 3D 高斯序列,從而實(shí)現(xiàn) 4D 新穎視圖合成。
FaceLift 可以與LivePortrait 等 2D 面部動(dòng)畫(huà)方法結(jié)合,實(shí)現(xiàn) 3D 面部動(dòng)畫(huà)。
結(jié)論
FaceLift是一種前饋方法,可將單個(gè)面部圖像提升為具有保留身份特征的詳細(xì) 3D 重建。FaceLift 使用多視圖擴(kuò)散來(lái)生成不可觀察的視圖,并使用 GS-LRM 來(lái)重建 3D 高斯圖,從而實(shí)現(xiàn)高質(zhì)量的新視圖合成。為了克服捕捉現(xiàn)實(shí)世界多視圖人頭圖像的困難,渲染了高質(zhì)量的合成數(shù)據(jù)進(jìn)行訓(xùn)練,并表明,盡管僅使用合成數(shù)據(jù)進(jìn)行訓(xùn)練,F(xiàn)aceLift 仍可以從現(xiàn)實(shí)世界捕獲的圖像中高保真地重建 3D 頭部。與基線相比,F(xiàn)aceLift 生成具有更精細(xì)幾何和紋理細(xì)節(jié)的 3D 頭部表示,并表現(xiàn)出更好的身份保存能力。