魔發(fā)奇緣,3D發(fā)型生成新突破!TANGLED:可用任意樣式和視點的圖像生成 3D 發(fā)束
在數(shù)字時代,發(fā)型不僅是時尚的標志,更是個人文化身份的彰顯。但傳統(tǒng)3D發(fā)型生成技術(shù)往往難以捕捉復雜發(fā)型的細膩之美。為此,上??萍即髮W和華中科技大學推出了ANGLED技術(shù),能從任意風格、視角的圖像中,輕松生成逼真3D發(fā)型。依托457種多樣發(fā)型的MultiHair數(shù)據(jù)集,TANGLED通過三步管道,靈活適應各種風格與視角,讓卷發(fā)、辮子等高難度發(fā)型栩栩如生。這一突破不僅提升了發(fā)型生成的多樣性,更促進了文化包容性的表達,讓每個人的獨特風采,在數(shù)字世界得以完美呈現(xiàn)。
相關(guān)鏈接
- 論文:http://arxiv.org/abs/2502.06392v1
- 主頁:https://sites.google.com/view/tangled1
- 代碼&數(shù)據(jù):即將推出
論文介紹
發(fā)型錯綜復雜,具有各種幾何形狀、紋理和結(jié)構(gòu),具有重要的文化意義?,F(xiàn)有的文本或圖像引導生成方法無法處理豐富而復雜的各種發(fā)型。我們提出了 TANGLED,這是一種用于生成 3D 發(fā)束的新方法,可適應不同風格、視點和輸入視圖數(shù)量的各種圖像輸入。
TANGLED 采用三步流程: 首先,我們的 MultiHair 數(shù)據(jù)集提供了 457 種不同的發(fā)型,并標注了 74 種屬性,強調(diào)復雜且具有重要文化意義的發(fā)型,以提高模型的泛化能力。其次,我們提出了一個以多視圖線條圖為條件的擴散框架,該框架可以捕捉拓撲線索(例如,發(fā)束密度和分型線)并濾除噪音。通過利用對線條圖特征具有交叉注意的潛在擴散模型,我們的方法可以在不同的輸入條件下實現(xiàn)靈活而強大的 3D 頭發(fā)生成。最后,理模塊強制執(zhí)行特定于辮子的約束,以保持復雜結(jié)構(gòu)的一致性。該框架不僅提高了發(fā)型的真實感和多樣性,而且還實現(xiàn)了文化包容性的數(shù)字化身和新穎的應用,如基于草圖的動畫 3D 發(fā)束編輯和增強現(xiàn)實。
概述
我們的模型以任意樣式和視角的頭發(fā)圖像為條件,通過擴散過程生成 3D 頭發(fā)潛在圖。條件被隨機屏蔽并與潛在圖交叉注意。在推理時,我們對頭發(fā)潛在圖進行采樣,并將上采樣的頭發(fā)潛在圖輸入發(fā)束解碼器以提取 3D 發(fā)束。
結(jié)果
TANGLED 可以根據(jù)各種風格的圖像條件生成逼真的發(fā)型,包括照片、動漫和油畫。有關(guān)更多結(jié)果,請參閱補充視頻。請注意,我們在渲染過程中手動指定了生成的頭發(fā)的顏色。
第 1 行顯示了從手繪草圖生成的發(fā)型。第 2 行通過改變第 1 行草圖中的特定部分展示了發(fā)型修改(添加辮子)。第 3-4 行描繪了使用指導線(以紅色突出顯示)生成帶有辮子的輸出的過程。
結(jié)論
TANGLED是一種用于3D發(fā)束生成的新型多視圖線性條件擴散模型。MultiHair數(shù)據(jù)集是一個多樣化的集合,它擴展了具有代表性不足的紋理和復雜幾何形狀的發(fā)型表示。該模型的擴散框架以多視圖線性為條件,可以跨各種風格和視點靈活而準確地生成。此外,參數(shù)化后處理改進了特定于辮子的約束,增強了復雜風格的連貫性。
雖然 TANGLED 取得了重大進展,但挑戰(zhàn)依然存在。首先,MultiHair 數(shù)據(jù)集雖然更加多樣化,但仍然缺乏對超高頻發(fā)束細節(jié)進行建模的能力。其次,由于錨點遮擋,辮子生成管道難以應對極端頭部姿勢,即偏航/俯仰 >75°。最后,生成的頭發(fā)和輸入圖像之間的像素級對齊是有限的,這在很大程度上受到數(shù)據(jù)集大小的限制。