幾張照片即可定制自己的3D化身,還能換裝!南京大學(xué)發(fā)布AvatarBooth:3D模型的制作門檻被打下來了!
蘋果Vision Pro發(fā)布后,再次掀起了一股「元宇宙」熱潮,不過通往元宇宙的大門卻沒那么容易打開。
目前生成3D化身的方法大多依賴于昂貴且復(fù)雜的采集設(shè)備來重建高保真的化身模型,往往需要多視角的圖像或深度圖,對于消費(fèi)級別的應(yīng)用開發(fā)來說是負(fù)擔(dān)不起的。
隨著大規(guī)模預(yù)訓(xùn)練的視覺語言模型性能得到飛速提升,一種全新的流派開始興起,即根據(jù)文本或圖像來生成3D人類化身模型,廣泛應(yīng)用于數(shù)字人、電影業(yè)和虛擬現(xiàn)實(shí)等領(lǐng)域。
最近,南京大學(xué)的研究人員提出了一種全新的方法AvatarBooth,可以根據(jù)文本提示或圖像集合生成高質(zhì)量和可定制的化身,能夠準(zhǔn)確反映特定個體的視覺和文字特征。
論文鏈接:https://arxiv.org/pdf/2306.09864.pdf
項(xiàng)目鏈接:https://zeng-yifei.github.io/avatarbooth_page/
與之前只能基于簡單的文本描述生成化身的方法不同,該方法能夠從任意捕獲的面部或身體圖像生成個性化頭像,并且也支持基于文本的模型生成和編輯。
AvatarBooth學(xué)習(xí)了一個神經(jīng)隱含表面來表示人類化身的形狀和外觀,分別由臉部和身體的預(yù)訓(xùn)練或微調(diào)的潛擴(kuò)散模型來監(jiān)督學(xué)習(xí)。
并且在外觀定制生成的任務(wù)中,文中提出了姿勢一致的約束,以加強(qiáng)擴(kuò)散模型的微調(diào),可以提供了更準(zhǔn)確的多視圖監(jiān)督,在姿勢空間中具有一致的外觀。
此外,模型中還包括一個多分辨率的SDS方案,可以從粗到細(xì)地預(yù)測化身的精細(xì)結(jié)構(gòu)和外觀。
只需要一個人的幾張照片,模型就可以合成3D化身,不僅具有個性化獨(dú)特的外觀,而且還可以符合輸入文本提示中指定的抽象特征,比如「戴眼鏡」或「某種風(fēng)格的帽子」等屬性,用戶可以很方便地編輯和修改化身的整體視覺形象。
文中提出的生成框架以一組圖像或文字提示作為輸入,并合成一個由神經(jīng)隱式表面(NeuS,Neural Implicit Surfaces)表征的的三維細(xì)節(jié)化身。
整個生成pipeline由三個模塊組成:
1. 在化身建模模塊(avatar modeling module)中,將一個簡化的SMPL渲染模型訓(xùn)練為神經(jīng)隱式場(neural implicit field),由一個SDF網(wǎng)絡(luò)和一個著色網(wǎng)絡(luò)(color network)組成。
2. 在渲染模塊(rendering module)中,從位于化身空間周圍的預(yù)定義虛擬攝像機(jī)中獲得三種類型的渲染結(jié)果。
為了同時優(yōu)化人臉和人體,研究人員采用了兩套渲染參數(shù)分別以人臉和整個人體為中心
3. 在評分蒸餾采樣(SDS,Score Distillation Sampling)訓(xùn)練模塊中,選擇或結(jié)合預(yù)訓(xùn)練和微調(diào)的潛擴(kuò)散模型,然后通過渲染來監(jiān)督NeuS的訓(xùn)練。
Dual Model Fine-tuning
研究人員提出利用兩個擴(kuò)散模型來監(jiān)督整個身體和頭部的訓(xùn)練,并且對這兩個模型分別進(jìn)行微調(diào)。
雖然之前的工作增加了面部周圍的渲染樣本以改善面部細(xì)節(jié),但并沒有利用微調(diào)視覺語言模型的潛力,所以不能提高個性化化身生成的性能。
研究人員剛開始只使用一個擴(kuò)散模型來監(jiān)督全身的訓(xùn)練,可以觀察到,單一的SDS損失與DreamBooth3D的微調(diào)策略無法在面部外觀和身體衣服的建模之間取得平衡。
具體來說,在早期的訓(xùn)練步驟中,模型可以學(xué)習(xí)到身體上衣服的外觀,但面部外觀仍然不清晰;如果進(jìn)行更多的訓(xùn)練步驟,面部外觀會變得清晰,但全局特征如衣服的樣式可能會過度適應(yīng)輸入的圖像,也意味著在混合模式下很難通過文本提示編輯身體。
此外,還可以觀察到,DreamBooth3D的Img2Img階段不能產(chǎn)生忠實(shí)于輸入圖像的準(zhǔn)確的人物身份,可能是因?yàn)槊娌客庥^和身體外觀之間的比例差異較大,導(dǎo)致SDS訓(xùn)練中收斂率不一致。
為了解決這個問題,研究人員提出了雙模型微調(diào)(dual model fine-tunign)策略,當(dāng)在外觀定制模式或混合模式運(yùn)行時,將輸入圖像分為全身照(body shot)和頭像(headshot),分別用于微調(diào)兩個預(yù)訓(xùn)練的模型。
在SDS訓(xùn)練階段,框架對臉部和全身周圍的攝像頭進(jìn)行隨機(jī)采樣,然后采用不同的擴(kuò)散模型來指導(dǎo)臉部和身體的生成,分別采用面向頭部的渲染和全身的渲染。
姿態(tài)一致性約束
直接利用DreamBooth和基于SDS的方法無法生成令人滿意的化身結(jié)果,因?yàn)镈reamBooth模型傾向于過度適應(yīng)微調(diào)期間使用的相機(jī)視圖。
為了增強(qiáng)由微調(diào)擴(kuò)散模型生成化身的面部細(xì)節(jié),研究人員使用ControlNet來提升合成圖像的多視圖一致性,從而消除不受控制的人體姿勢的干擾,并生成高質(zhì)量的外觀和幾何形狀。
多分辨率SDS
由于直接渲染來自神經(jīng)隱含場的高分辨率圖像在計(jì)算上成本很高,一個常見的解決方案是渲染低分辨率的圖像,然后將其上采樣到更高的分辨率進(jìn)行SDS訓(xùn)練;將上采樣的圖像編碼到潛空間后,用于監(jiān)督神經(jīng)隱含場的訓(xùn)練。
不過研究人員觀察到,直接增加上采樣的分辨率會導(dǎo)致訓(xùn)練崩潰或不一致的外觀,所以文中提出了一個多分辨率的優(yōu)化策略,逐步提高上采樣的分辨率,使SDS的訓(xùn)練更加穩(wěn)定。
從NeuS渲染的圖像開始,通過訓(xùn)練幾步512×512的上采樣分辨率來初始化網(wǎng)絡(luò),然后逐漸提高監(jiān)督分辨率到640×640和768×768
在初期的訓(xùn)練步驟中,較低的分辨率為訓(xùn)練過程提供了一個粗糙但穩(wěn)健的起點(diǎn),而在后面的步驟中較高的分辨率有助于學(xué)習(xí)詳細(xì)的幾何形狀和高質(zhì)量的外觀。
實(shí)驗(yàn)結(jié)果也證明了這個簡單的策略可以有效提高早期訓(xùn)練階段的穩(wěn)定性,并提高了外觀質(zhì)量,最終可以生成一個更準(zhǔn)確且視覺上可信的化身。
運(yùn)行模式
根據(jù)預(yù)訓(xùn)練的擴(kuò)散模型在SDS訓(xùn)練中的使用方式,Avatarbooth框架可以在三種模式下運(yùn)行:
1. 提示生成模式(Prompt generative mode)
與AvatarCLIP和AvatarCraft類似,只使用文本提示作為輸入,生成符合描述的化身,并沒有對預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行微調(diào)。
由于文本提示只能描述通用的或眾所周知的外表,所以這種模式只適用于合成具有大致匹配的外表或名人的頭像。
2. 外觀定制模式(Appearance customized mode)
研究人員提出定制擴(kuò)散模型以及學(xué)習(xí)到化身形象,以匹配給定的一組圖像的外觀,其中圖像可以是從任意視角自由拍攝的全身或面部圖像。
即使輸入的圖片中包含不完整的或稍有矛盾的形象,具體的外觀和服裝的細(xì)節(jié)也會被傳遞到生成化身模型上。
3. 混合模式(Hybrid mode)
上述兩種模式可以在一個模型生成中同時進(jìn)行,可以實(shí)現(xiàn)較為復(fù)雜的化身?xiàng)l件生成,比如在根據(jù)輸入圖片合成外觀的前提下,通過文字提示修改主體的衣服、發(fā)型、年齡、胡須等。
實(shí)驗(yàn)結(jié)果
用戶研究
為了量化化身的生成質(zhì)量,研究人員招募了30名志愿者,并用對比方法CLIP-Actor、AvatarCLIP和TEXTure從隨機(jī)選擇的文本提示中生成10個化身,讓用戶從四個方面(與文本提示的對應(yīng)性、外觀質(zhì)量、幾何質(zhì)量和面部保真度)對結(jié)果進(jìn)行評估,打分范圍從1(最差)到5(最好)。
從結(jié)果中可以看到,文中提出的新方法在四個指標(biāo)上都取得了最高分,證明了該模型有能力生成具有更詳細(xì)外觀和幾何形狀的化身。
文本到圖像的度量
目前還沒有可以直接定量評估文本到3D生成模型的指標(biāo),所以研究人員將生成的化身模型渲染成圖像,然后使用文本到圖像的指標(biāo)進(jìn)行評估。
具體的流程是先將其他方法所生成的化身渲染成25個不同視角的2000張圖像,然后用文本到圖像的度量指標(biāo)PickScore來對比化身的質(zhì)量,能夠根據(jù)學(xué)習(xí)的人類偏好來衡量生成內(nèi)容的真實(shí)性。
PickScore結(jié)果顯示,文中提出的方法比CLIP-Actor、AvatarCLIP和TEXTure要好很多,即具有更好的主觀質(zhì)量。
參考資料:https://zeng-yifei.github.io/avatarbooth_page/