自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="amcyb"><dfn id="amcyb"><li id="amcyb"></li></dfn></tr>

<table id="amcyb"><optgroup id="amcyb"></optgroup></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

幾張照片即可定制自己的3D化身，還能換裝！南京大學(xué)發(fā)布AvatarBooth：3D模型的制作門檻被打下來了！

作者：新智元 2023-06-26 12:49:25

元宇宙大門敞開，用文本即可生成可定制、可編輯的3D模型。

蘋果Vision Pro發(fā)布后，再次掀起了一股「元宇宙」熱潮，不過通往元宇宙的大門卻沒那么容易打開。

目前生成3D化身的方法大多依賴于昂貴且復(fù)雜的采集設(shè)備來重建高保真的化身模型，往往需要多視角的圖像或深度圖，對于消費(fèi)級別的應(yīng)用開發(fā)來說是負(fù)擔(dān)不起的。

隨著大規(guī)模預(yù)訓(xùn)練的視覺語言模型性能得到飛速提升，一種全新的流派開始興起，即根據(jù)文本或圖像來生成3D人類化身模型，廣泛應(yīng)用于數(shù)字人、電影業(yè)和虛擬現(xiàn)實(shí)等領(lǐng)域。

最近，南京大學(xué)的研究人員提出了一種全新的方法AvatarBooth，可以根據(jù)文本提示或圖像集合生成高質(zhì)量和可定制的化身，能夠準(zhǔn)確反映特定個體的視覺和文字特征。

論文鏈接：https://arxiv.org/pdf/2306.09864.pdf

項(xiàng)目鏈接：https://zeng-yifei.github.io/avatarbooth_page/

與之前只能基于簡單的文本描述生成化身的方法不同，該方法能夠從任意捕獲的面部或身體圖像生成個性化頭像，并且也支持基于文本的模型生成和編輯。

AvatarBooth學(xué)習(xí)了一個神經(jīng)隱含表面來表示人類化身的形狀和外觀，分別由臉部和身體的預(yù)訓(xùn)練或微調(diào)的潛擴(kuò)散模型來監(jiān)督學(xué)習(xí)。

并且在外觀定制生成的任務(wù)中，文中提出了姿勢一致的約束，以加強(qiáng)擴(kuò)散模型的微調(diào)，可以提供了更準(zhǔn)確的多視圖監(jiān)督，在姿勢空間中具有一致的外觀。

此外，模型中還包括一個多分辨率的SDS方案，可以從粗到細(xì)地預(yù)測化身的精細(xì)結(jié)構(gòu)和外觀。

只需要一個人的幾張照片，模型就可以合成3D化身，不僅具有個性化獨(dú)特的外觀，而且還可以符合輸入文本提示中指定的抽象特征，比如「戴眼鏡」或「某種風(fēng)格的帽子」等屬性，用戶可以很方便地編輯和修改化身的整體視覺形象。

Avatarbooth

文中提出的生成框架以一組圖像或文字提示作為輸入，并合成一個由神經(jīng)隱式表面（NeuS，Neural Implicit Surfaces）表征的的三維細(xì)節(jié)化身。

整個生成pipeline由三個模塊組成：

1. 在化身建模模塊（avatar modeling module）中，將一個簡化的SMPL渲染模型訓(xùn)練為神經(jīng)隱式場（neural implicit field），由一個SDF網(wǎng)絡(luò)和一個著色網(wǎng)絡(luò)（color network）組成。

2. 在渲染模塊（rendering module）中，從位于化身空間周圍的預(yù)定義虛擬攝像機(jī)中獲得三種類型的渲染結(jié)果。

為了同時優(yōu)化人臉和人體，研究人員采用了兩套渲染參數(shù)分別以人臉和整個人體為中心

3. 在評分蒸餾采樣（SDS，Score Distillation Sampling）訓(xùn)練模塊中，選擇或結(jié)合預(yù)訓(xùn)練和微調(diào)的潛擴(kuò)散模型，然后通過渲染來監(jiān)督NeuS的訓(xùn)練。

Dual Model Fine-tuning

研究人員提出利用兩個擴(kuò)散模型來監(jiān)督整個身體和頭部的訓(xùn)練，并且對這兩個模型分別進(jìn)行微調(diào)。

雖然之前的工作增加了面部周圍的渲染樣本以改善面部細(xì)節(jié)，但并沒有利用微調(diào)視覺語言模型的潛力，所以不能提高個性化化身生成的性能。

研究人員剛開始只使用一個擴(kuò)散模型來監(jiān)督全身的訓(xùn)練，可以觀察到，單一的SDS損失與DreamBooth3D的微調(diào)策略無法在面部外觀和身體衣服的建模之間取得平衡。

具體來說，在早期的訓(xùn)練步驟中，模型可以學(xué)習(xí)到身體上衣服的外觀，但面部外觀仍然不清晰；如果進(jìn)行更多的訓(xùn)練步驟，面部外觀會變得清晰，但全局特征如衣服的樣式可能會過度適應(yīng)輸入的圖像，也意味著在混合模式下很難通過文本提示編輯身體。

此外，還可以觀察到，DreamBooth3D的Img2Img階段不能產(chǎn)生忠實(shí)于輸入圖像的準(zhǔn)確的人物身份，可能是因?yàn)槊娌客庥^和身體外觀之間的比例差異較大，導(dǎo)致SDS訓(xùn)練中收斂率不一致。

為了解決這個問題，研究人員提出了雙模型微調(diào)（dual model fine-tunign）策略，當(dāng)在外觀定制模式或混合模式運(yùn)行時，將輸入圖像分為全身照（body shot）和頭像（headshot），分別用于微調(diào)兩個預(yù)訓(xùn)練的模型。

在SDS訓(xùn)練階段，框架對臉部和全身周圍的攝像頭進(jìn)行隨機(jī)采樣，然后采用不同的擴(kuò)散模型來指導(dǎo)臉部和身體的生成，分別采用面向頭部的渲染和全身的渲染。

姿態(tài)一致性約束

直接利用DreamBooth和基于SDS的方法無法生成令人滿意的化身結(jié)果，因?yàn)镈reamBooth模型傾向于過度適應(yīng)微調(diào)期間使用的相機(jī)視圖。

為了增強(qiáng)由微調(diào)擴(kuò)散模型生成化身的面部細(xì)節(jié)，研究人員使用ControlNet來提升合成圖像的多視圖一致性，從而消除不受控制的人體姿勢的干擾，并生成高質(zhì)量的外觀和幾何形狀。

多分辨率SDS

由于直接渲染來自神經(jīng)隱含場的高分辨率圖像在計(jì)算上成本很高，一個常見的解決方案是渲染低分辨率的圖像，然后將其上采樣到更高的分辨率進(jìn)行SDS訓(xùn)練；將上采樣的圖像編碼到潛空間后，用于監(jiān)督神經(jīng)隱含場的訓(xùn)練。

不過研究人員觀察到，直接增加上采樣的分辨率會導(dǎo)致訓(xùn)練崩潰或不一致的外觀，所以文中提出了一個多分辨率的優(yōu)化策略，逐步提高上采樣的分辨率，使SDS的訓(xùn)練更加穩(wěn)定。

從NeuS渲染的圖像開始，通過訓(xùn)練幾步512×512的上采樣分辨率來初始化網(wǎng)絡(luò)，然后逐漸提高監(jiān)督分辨率到640×640和768×768

在初期的訓(xùn)練步驟中，較低的分辨率為訓(xùn)練過程提供了一個粗糙但穩(wěn)健的起點(diǎn)，而在后面的步驟中較高的分辨率有助于學(xué)習(xí)詳細(xì)的幾何形狀和高質(zhì)量的外觀。

實(shí)驗(yàn)結(jié)果也證明了這個簡單的策略可以有效提高早期訓(xùn)練階段的穩(wěn)定性，并提高了外觀質(zhì)量，最終可以生成一個更準(zhǔn)確且視覺上可信的化身。

運(yùn)行模式

根據(jù)預(yù)訓(xùn)練的擴(kuò)散模型在SDS訓(xùn)練中的使用方式，Avatarbooth框架可以在三種模式下運(yùn)行：

1. 提示生成模式（Prompt generative mode）

與AvatarCLIP和AvatarCraft類似，只使用文本提示作為輸入，生成符合描述的化身，并沒有對預(yù)訓(xùn)練的擴(kuò)散模型進(jìn)行微調(diào)。

由于文本提示只能描述通用的或眾所周知的外表，所以這種模式只適用于合成具有大致匹配的外表或名人的頭像。

2. 外觀定制模式（Appearance customized mode）

研究人員提出定制擴(kuò)散模型以及學(xué)習(xí)到化身形象，以匹配給定的一組圖像的外觀，其中圖像可以是從任意視角自由拍攝的全身或面部圖像。

即使輸入的圖片中包含不完整的或稍有矛盾的形象，具體的外觀和服裝的細(xì)節(jié)也會被傳遞到生成化身模型上。

3. 混合模式（Hybrid mode）

上述兩種模式可以在一個模型生成中同時進(jìn)行，可以實(shí)現(xiàn)較為復(fù)雜的化身?xiàng)l件生成，比如在根據(jù)輸入圖片合成外觀的前提下，通過文字提示修改主體的衣服、發(fā)型、年齡、胡須等。

實(shí)驗(yàn)結(jié)果

用戶研究

為了量化化身的生成質(zhì)量，研究人員招募了30名志愿者，并用對比方法CLIP-Actor、AvatarCLIP和TEXTure從隨機(jī)選擇的文本提示中生成10個化身，讓用戶從四個方面（與文本提示的對應(yīng)性、外觀質(zhì)量、幾何質(zhì)量和面部保真度）對結(jié)果進(jìn)行評估，打分范圍從1（最差）到5（最好）。

從結(jié)果中可以看到，文中提出的新方法在四個指標(biāo)上都取得了最高分，證明了該模型有能力生成具有更詳細(xì)外觀和幾何形狀的化身。

文本到圖像的度量

目前還沒有可以直接定量評估文本到3D生成模型的指標(biāo)，所以研究人員將生成的化身模型渲染成圖像，然后使用文本到圖像的指標(biāo)進(jìn)行評估。

具體的流程是先將其他方法所生成的化身渲染成25個不同視角的2000張圖像，然后用文本到圖像的度量指標(biāo)PickScore來對比化身的質(zhì)量，能夠根據(jù)學(xué)習(xí)的人類偏好來衡量生成內(nèi)容的真實(shí)性。

PickScore結(jié)果顯示，文中提出的方法比CLIP-Actor、AvatarCLIP和TEXTure要好很多，即具有更好的主觀質(zhì)量。

參考資料：https://zeng-yifei.github.io/avatarbooth_page/

責(zé)任編輯：武曉燕來源：新智元

3D化身照片圖像

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營