自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

幾張照片即可定制自己的3D化身,還能換裝!南京大學(xué)發(fā)布AvatarBooth:3D模型的制作門檻被打下來了!

元宇宙
元宇宙大門敞開,用文本即可生成可定制、可編輯的3D模型。

蘋果Vision Pro發(fā)布后,再次掀起了一股「元宇宙」熱潮,不過通往元宇宙的大門卻沒那么容易打開。

圖片

目前生成3D化身的方法大多依賴于昂貴且復(fù)雜的采集設(shè)備來重建高保真的化身模型,往往需要多視角的圖像或深度圖,對于消費(fèi)級別的應(yīng)用開發(fā)來說是負(fù)擔(dān)不起的。

隨著大規(guī)模預(yù)訓(xùn)練的視覺語言模型性能得到飛速提升,一種全新的流派開始興起,即根據(jù)文本或圖像來生成3D人類化身模型,廣泛應(yīng)用于數(shù)字人、電影業(yè)和虛擬現(xiàn)實(shí)等領(lǐng)域。

最近,南京大學(xué)的研究人員提出了一種全新的方法AvatarBooth,可以根據(jù)文本提示或圖像集合生成高質(zhì)量和可定制的化身,能夠準(zhǔn)確反映特定個體的視覺和文字特征。

圖片

論文鏈接:https://arxiv.org/pdf/2306.09864.pdf

項(xiàng)目鏈接:https://zeng-yifei.github.io/avatarbooth_page/

與之前只能基于簡單的文本描述生成化身的方法不同,該方法能夠從任意捕獲的面部或身體圖像生成個性化頭像,并且也支持基于文本的模型生成和編輯。

AvatarBooth學(xué)習(xí)了一個神經(jīng)隱含表面來表示人類化身的形狀和外觀,分別由臉部和身體的預(yù)訓(xùn)練或微調(diào)的潛擴(kuò)散模型來監(jiān)督學(xué)習(xí)。

圖片

并且在外觀定制生成的任務(wù)中,文中提出了姿勢一致的約束,以加強(qiáng)擴(kuò)散模型的微調(diào),可以提供了更準(zhǔn)確的多視圖監(jiān)督,在姿勢空間中具有一致的外觀。

圖片

此外,模型中還包括一個多分辨率的SDS方案,可以從粗到細(xì)地預(yù)測化身的精細(xì)結(jié)構(gòu)和外觀。

只需要一個人的幾張照片,模型就可以合成3D化身,不僅具有個性化獨(dú)特的外觀,而且還可以符合輸入文本提示中指定的抽象特征,比如「戴眼鏡」或「某種風(fēng)格的帽子」等屬性,用戶可以很方便地編輯和修改化身的整體視覺形象。

Avatarbooth

文中提出的生成框架以一組圖像或文字提示作為輸入,并合成一個由神經(jīng)隱式表面(NeuS,Neural Implicit Surfaces)表征的的三維細(xì)節(jié)化身。

圖片

整個生成pipeline由三個模塊組成:

1. 在化身建模模塊(avatar modeling module)中,將一個簡化的SMPL渲染模型訓(xùn)練為神經(jīng)隱式場(neural implicit field),由一個SDF網(wǎng)絡(luò)和一個著色網(wǎng)絡(luò)(color network)組成。

2. 在渲染模塊(rendering module)中,從位于化身空間周圍的預(yù)定義虛擬攝像機(jī)中獲得三種類型的渲染結(jié)果。

為了同時優(yōu)化人臉和人體,研究人員采用了兩套渲染參數(shù)分別以人臉和整個人體為中心

3. 在評分蒸餾采樣(SDS,Score Distillation Sampling)訓(xùn)練模塊中,選擇或結(jié)合預(yù)訓(xùn)練和微調(diào)的潛擴(kuò)散模型,然后通過渲染來監(jiān)督NeuS的訓(xùn)練。

Dual Model Fine-tuning

研究人員提出利用兩個擴(kuò)散模型來監(jiān)督整個身體和頭部的訓(xùn)練,并且對這兩個模型分別進(jìn)行微調(diào)。

雖然之前的工作增加了面部周圍的渲染樣本以改善面部細(xì)節(jié),但并沒有利用微調(diào)視覺語言模型的潛力,所以不能提高個性化化身生成的性能。

研究人員剛開始只使用一個擴(kuò)散模型來監(jiān)督全身的訓(xùn)練,可以觀察到,單一的SDS損失與DreamBooth3D的微調(diào)策略無法在面部外觀和身體衣服的建模之間取得平衡。

具體來說,在早期的訓(xùn)練步驟中,模型可以學(xué)習(xí)到身體上衣服的外觀,但面部外觀仍然不清晰;如果進(jìn)行更多的訓(xùn)練步驟,面部外觀會變得清晰,但全局特征如衣服的樣式可能會過度適應(yīng)輸入的圖像,也意味著在混合模式下很難通過文本提示編輯身體。

此外,還可以觀察到,DreamBooth3D的Img2Img階段不能產(chǎn)生忠實(shí)于輸入圖像的準(zhǔn)確的人物身份,可能是因?yàn)槊娌客庥^和身體外觀之間的比例差異較大,導(dǎo)致SDS訓(xùn)練中收斂率不一致。

為了解決這個問題,研究人員提出了雙模型微調(diào)(dual model fine-tunign)策略,當(dāng)在外觀定制模式或混合模式運(yùn)行時,將輸入圖像分為全身照(body shot)和頭像(headshot),分別用于微調(diào)兩個預(yù)訓(xùn)練的模型。

在SDS訓(xùn)練階段,框架對臉部和全身周圍的攝像頭進(jìn)行隨機(jī)采樣,然后采用不同的擴(kuò)散模型來指導(dǎo)臉部和身體的生成,分別采用面向頭部的渲染和全身的渲染。

姿態(tài)一致性約束

直接利用DreamBooth和基于SDS的方法無法生成令人滿意的化身結(jié)果,因?yàn)镈reamBooth模型傾向于過度適應(yīng)微調(diào)期間使用的相機(jī)視圖。

圖片

為了增強(qiáng)由微調(diào)擴(kuò)散模型生成化身的面部細(xì)節(jié),研究人員使用ControlNet來提升合成圖像的多視圖一致性,從而消除不受控制的人體姿勢的干擾,并生成高質(zhì)量的外觀和幾何形狀。

多分辨率SDS

由于直接渲染來自神經(jīng)隱含場的高分辨率圖像在計(jì)算上成本很高,一個常見的解決方案是渲染低分辨率的圖像,然后將其上采樣到更高的分辨率進(jìn)行SDS訓(xùn)練;將上采樣的圖像編碼到潛空間后,用于監(jiān)督神經(jīng)隱含場的訓(xùn)練。

不過研究人員觀察到,直接增加上采樣的分辨率會導(dǎo)致訓(xùn)練崩潰或不一致的外觀,所以文中提出了一個多分辨率的優(yōu)化策略,逐步提高上采樣的分辨率,使SDS的訓(xùn)練更加穩(wěn)定。

從NeuS渲染的圖像開始,通過訓(xùn)練幾步512×512的上采樣分辨率來初始化網(wǎng)絡(luò),然后逐漸提高監(jiān)督分辨率到640×640和768×768

在初期的訓(xùn)練步驟中,較低的分辨率為訓(xùn)練過程提供了一個粗糙但穩(wěn)健的起點(diǎn),而在后面的步驟中較高的分辨率有助于學(xué)習(xí)詳細(xì)的幾何形狀和高質(zhì)量的外觀。

實(shí)驗(yàn)結(jié)果也證明了這個簡單的策略可以有效提高早期訓(xùn)練階段的穩(wěn)定性,并提高了外觀質(zhì)量,最終可以生成一個更準(zhǔn)確且視覺上可信的化身。

運(yùn)行模式

根據(jù)預(yù)訓(xùn)練的擴(kuò)散模型在SDS訓(xùn)練中的使用方式,Avatarbooth框架可以在三種模式下運(yùn)行:

1. 提示生成模式(Prompt generative mode)

與AvatarCLIP和AvatarCraft類似,只使用文本提示作為輸入,生成符合描述的化身,并沒有對預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行微調(diào)。

由于文本提示只能描述通用的或眾所周知的外表,所以這種模式只適用于合成具有大致匹配的外表或名人的頭像。

2. 外觀定制模式(Appearance customized mode)

研究人員提出定制擴(kuò)散模型以及學(xué)習(xí)到化身形象,以匹配給定的一組圖像的外觀,其中圖像可以是從任意視角自由拍攝的全身或面部圖像。

即使輸入的圖片中包含不完整的或稍有矛盾的形象,具體的外觀和服裝的細(xì)節(jié)也會被傳遞到生成化身模型上。

3. 混合模式(Hybrid mode)

上述兩種模式可以在一個模型生成中同時進(jìn)行,可以實(shí)現(xiàn)較為復(fù)雜的化身?xiàng)l件生成,比如在根據(jù)輸入圖片合成外觀的前提下,通過文字提示修改主體的衣服、發(fā)型、年齡、胡須等。

實(shí)驗(yàn)結(jié)果

用戶研究

為了量化化身的生成質(zhì)量,研究人員招募了30名志愿者,并用對比方法CLIP-Actor、AvatarCLIP和TEXTure從隨機(jī)選擇的文本提示中生成10個化身,讓用戶從四個方面(與文本提示的對應(yīng)性、外觀質(zhì)量、幾何質(zhì)量和面部保真度)對結(jié)果進(jìn)行評估,打分范圍從1(最差)到5(最好)。

圖片

從結(jié)果中可以看到,文中提出的新方法在四個指標(biāo)上都取得了最高分,證明了該模型有能力生成具有更詳細(xì)外觀和幾何形狀的化身。

文本到圖像的度量

目前還沒有可以直接定量評估文本到3D生成模型的指標(biāo),所以研究人員將生成的化身模型渲染成圖像,然后使用文本到圖像的指標(biāo)進(jìn)行評估。

圖片

具體的流程是先將其他方法所生成的化身渲染成25個不同視角的2000張圖像,然后用文本到圖像的度量指標(biāo)PickScore來對比化身的質(zhì)量,能夠根據(jù)學(xué)習(xí)的人類偏好來衡量生成內(nèi)容的真實(shí)性。

PickScore結(jié)果顯示,文中提出的方法比CLIP-Actor、AvatarCLIP和TEXTure要好很多,即具有更好的主觀質(zhì)量。

參考資料:https://zeng-yifei.github.io/avatarbooth_page/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2012-11-26 12:51:44

木材3D打

2023-08-28 00:41:36

研究優(yōu)化

2011-08-26 14:50:23

2024-07-16 12:02:11

2009-12-14 08:58:25

HTML5網(wǎng)頁3DWebGL

2023-07-14 09:41:01

3DAI

2011-05-03 11:07:46

2D3D麗訊

2024-12-10 09:40:00

AI3D模型

2024-06-17 12:33:34

2020-08-26 10:37:21

阿里3D

2011-10-06 13:30:45

宏碁投影儀

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2011-05-26 10:55:39

2011-06-15 13:08:59

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2024-12-10 15:17:11

2012-06-16 16:57:52

WebGL

2021-12-20 14:43:54

Goxel3D建模Linux

2024-02-28 11:37:53

英偉達(dá)AI

2025-03-27 09:26:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號