3D人體重建新SOTA!清華&騰訊等重磅發(fā)布MagicMan:?jiǎn)我粓D像生成高質(zhì)量人體新突破
文章鏈接:https://arxiv.org/pdf/2408.14211
git鏈接:https://thuhcsi.github.io/MagicMan
亮點(diǎn)直擊
- 提出MagicMan,一種旨在從單一參考圖像生成高質(zhì)量多視角人像的方法,從而促進(jìn)無(wú)縫的3D人體重建。
- 提出了一種高效的混合多視角注意力機(jī)制,以生成更密集的多視角人像,同時(shí)保持更好的3D一致性。
- 引入了幾何感知的雙分支結(jié)構(gòu),在RGB和法線領(lǐng)域同時(shí)進(jìn)行生成,通過(guò)幾何線索進(jìn)一步增強(qiáng)多視角一致性。
- 提出了一種迭代優(yōu)化策略,逐步提高SMPL-X姿態(tài)的準(zhǔn)確性和生成的多視角一致性,減少由于SMPL-X估計(jì)不可靠導(dǎo)致的幾何畸形問(wèn)題。
現(xiàn)有的單圖3D人體重建方法存在訓(xùn)練數(shù)據(jù)不足導(dǎo)致的泛化性局限問(wèn)題和缺乏多視角知識(shí)導(dǎo)致的3D不一致問(wèn)題。今天給大家分享一種名為MagicMan的人體多視角擴(kuò)散模型,該模型旨在從單一參考圖像生成高質(zhì)量的新視角圖像。其核心思路是利用預(yù)訓(xùn)練的2D擴(kuò)散模型作為生成先驗(yàn)以提升泛化能力,并將參數(shù)化的SMPL-X模型作為3D人體先驗(yàn),以增強(qiáng)幾何感知能力。
為了解決在實(shí)現(xiàn)高密度多視角生成以改進(jìn)3D人體重建時(shí)保持一致性的關(guān)鍵挑戰(zhàn),首先引入了混合多視角注意力機(jī)制,以促進(jìn)不同視角之間的高效且全面的信息交換。此外,還提出了一種幾何感知的雙分支結(jié)構(gòu),同時(shí)生成RGB圖像和表面發(fā)現(xiàn),通過(guò)幾何信息的補(bǔ)充進(jìn)一步增強(qiáng)一致性。為了解決因SMPL-X估計(jì)不準(zhǔn)確導(dǎo)致的幾何畸形問(wèn)題,又提出了一種新穎的迭代優(yōu)化策略,該策略逐步優(yōu)化SMPL-X的準(zhǔn)確性,并最終提高生成多視圖的質(zhì)量和一致性。大量實(shí)驗(yàn)結(jié)果表明,本文的方法在新視角合成和后續(xù)的3D人體重建任務(wù)中顯著優(yōu)于現(xiàn)有方法。
方法
如下圖3所示,MagicMan以單張人體參考圖像為輸入,生成高質(zhì)量且一致性良好的密集多視角圖像(即20個(gè)視角)。為了利用大量互聯(lián)網(wǎng)數(shù)據(jù)中豐富的人體圖像先驗(yàn),MagicMan采用了一個(gè)預(yù)訓(xùn)練的擴(kuò)散模型作為主干網(wǎng)絡(luò),以單張參考圖像和對(duì)應(yīng)的SMPL-X姿態(tài)及視角作為生成條件。通過(guò)引入一種高效的混合注意力機(jī)制建立不同視角之間的聯(lián)系,該機(jī)制包括在所有視角進(jìn)行的1D注意力和在特定稀疏視角上進(jìn)行的3D注意力來(lái)同時(shí)確保計(jì)算效率和多視角一致性。此外又提出了一種幾何感知的雙分支結(jié)構(gòu),補(bǔ)充了額外的幾何信息以提升幾何穩(wěn)定性和一致性。最后但同樣重要的是,提出了一種新穎的迭代優(yōu)化策略,通過(guò)在多次迭代中更新SMPL-X姿態(tài)的準(zhǔn)確性和生成多視角圖像的質(zhì)量,減少由于姿態(tài)估計(jì)不準(zhǔn)確導(dǎo)致的幾何畸形問(wèn)題。
條件擴(kuò)散模型
本文的主干網(wǎng)絡(luò)是一個(gè)去噪U(xiǎn)Net,繼承了SD 1.5的結(jié)構(gòu)和預(yù)訓(xùn)練權(quán)重。標(biāo)準(zhǔn)的SD UNet由下采樣模塊、中間模塊和上采樣模塊組成。每個(gè)模塊包含若干交織的卷積層、特征進(jìn)行空間交互的自注意力層,以及與CLIP文本嵌入交互的交叉注意力層。本文去噪U(xiǎn)Net需要接收多個(gè)噪聲潛變量作為輸入,并生成與參考圖像一致的特定視角下的人體圖像。因此,需要將參考圖像和視角信息注入生成網(wǎng)絡(luò),并提供對(duì)應(yīng)的SMPL-X參數(shù)化人體模板作為幾何指導(dǎo),以便獲得更好的3D一致性。
參考UNet網(wǎng)絡(luò)。 受到動(dòng)畫驅(qū)動(dòng)最新進(jìn)展的啟發(fā),本文利用和去噪U(xiǎn)Net具有相同結(jié)構(gòu)和初始化權(quán)重的參考UNet網(wǎng)絡(luò)從參考圖像中提取特征,以確保生成的圖像與參考圖像在語(yǔ)義和像素級(jí)別上都能保持一致。具體來(lái)說(shuō),本文使用參考UNet提取的特征代替了常用的CLIP嵌入,并且將原始交叉注意力層替換為參考注意力層,從而注入?yún)⒖紙D像信息。
姿態(tài)引導(dǎo)和視角控制
本文從參考圖像估計(jì)得到三維SMPL-X網(wǎng)格,并進(jìn)一步渲染得到表面法線圖和語(yǔ)義分割圖,用于生成過(guò)程的姿態(tài)和視角控制。法線圖和語(yǔ)義分割圖由一個(gè)四層卷積層組成的編碼器進(jìn)行編碼得到特征圖,和采樣的高斯噪聲相加。另外,相機(jī)參數(shù)通過(guò)一個(gè)多層感知機(jī)編碼為相機(jī)嵌入,和去噪時(shí)間步一起加入U(xiǎn)Net網(wǎng)絡(luò),用于顯式地提供視角控制信息。
混合多視角注意力
通過(guò)參考UNet網(wǎng)絡(luò)提取參考圖像特征,已經(jīng)可以生成與參考圖像一致的新視角人體圖像。進(jìn)一步需要在不同視角之間建立連接,以提升多視角圖像之間的一致性。為了生成盡可能多的視角來(lái)捕捉全面的人體信息并保持高度的一致性,本文提出了一種新穎的混合注意力機(jī)制,以結(jié)合兩種多視角注意力的優(yōu)勢(shì),即1D注意力的高效性和3D注意力的全面性。
3D多視角注意力
僅依賴1D注意力會(huì)在視角發(fā)生較大變化后導(dǎo)致視角之間的內(nèi)容漂移問(wèn)題,因?yàn)?D注意力缺乏不同位置像素之間的交互,無(wú)法從其他視角找到相應(yīng)的像素。因此,作者進(jìn)一步集成了3D多視角注意力,促進(jìn)在空間和視角維度上的更全面的信息共享。由于1D注意力建立了初步的交互,3D注意力可以限制在少量視角的子集上進(jìn)行,而不會(huì)產(chǎn)生過(guò)多的內(nèi)存開(kāi)銷。
通過(guò)混合1D-3D注意力機(jī)制,在不增加過(guò)多計(jì)算成本的情況下建立了不同視角之間更完整的連接,從而能夠生成密集且一致的多視角圖像。在實(shí)踐中,為3D注意力選擇的稀疏視角子集在不同的UNet模塊中有所不同,充分利用了不同層次的信息。
幾何感知雙分支
由于在RGB域中難以捕捉到復(fù)雜的幾何信息,作者引入了雙分支結(jié)構(gòu)來(lái)進(jìn)行幾何感知去噪,該結(jié)構(gòu)同時(shí)生成空間對(duì)齊的表面法線圖和RGB圖像。具體來(lái)說(shuō),作者復(fù)制了原始UNet的RGB分支一個(gè)輸入和輸出模塊,作為法線分支,其余模塊則作為兩個(gè)分支的共享模塊,如圖3(b)所示。通過(guò)這些設(shè)計(jì),共享模塊促進(jìn)了跨域的特征融合。法線分支引入了幾何信息,提升了生成結(jié)果的結(jié)構(gòu)穩(wěn)定性和幾何一致性,而RGB分支則有助于生成更準(zhǔn)確、細(xì)節(jié)豐富的法線圖。
迭代優(yōu)化
由于使用了SMPL-X渲染圖像作為幾何引導(dǎo),其姿態(tài)的準(zhǔn)確對(duì)于生成和重建質(zhì)量及其重要。。然而,單目估計(jì)可能會(huì)產(chǎn)生與參考圖像不匹配的SMPL-X姿態(tài),導(dǎo)致生成扭曲的新視角圖像,并最終3D重建中的幾何畸形問(wèn)題,如下圖7(b)所示。另一方面,如果不使用SMPL-X參數(shù)直接生成新視角圖像,通??梢垣@得與參考圖像匹配的姿態(tài),但是表現(xiàn)出較差的3D一致性,最終導(dǎo)致重建失敗,如下圖7(a)所示。因此,作者提出一種迭代優(yōu)化策略,首先在沒(méi)有SMPL-X引導(dǎo)下生成姿態(tài)相對(duì)準(zhǔn)確的新視角圖像,用于優(yōu)化SMPL-X的姿態(tài)準(zhǔn)確性;優(yōu)化后的SMPL-X網(wǎng)格被重新用作新視角圖像生成的條件,從而提升最終生成結(jié)果的3D一致性。
基于這些觀察,在訓(xùn)練過(guò)程中隨機(jī)以一定比例刪除SMPL-X指導(dǎo),使生成過(guò)程符合無(wú)分類器指導(dǎo)(CFG)。在推理階段,引入了一個(gè)迭代優(yōu)化過(guò)程,如算法1所述。最初,將CFG比例設(shè)置為0,實(shí)際上禁用了SMPL-X指導(dǎo),以在生成的新視角圖像中保留與參考圖像匹配的更準(zhǔn)確的姿態(tài)。然后使用這些圖像更新SMPL-X參數(shù)。在隨后的迭代中,逐漸增加CFG比例,以增強(qiáng)優(yōu)化后SMPL-X估計(jì)的姿態(tài)指導(dǎo),從而進(jìn)一步提高3D一致性。
優(yōu)化后,SMPL-X 參數(shù)會(huì)更加準(zhǔn)確并與參考圖像對(duì)齊,并將在下一次迭代中以增加的 CFG 比例重新輸入生成過(guò)程。
總之,在每次迭代過(guò)程中,SMPL-X 參數(shù)在所有生成的多視角圖像的監(jiān)督下進(jìn)行優(yōu)化,并且隨著改進(jìn)后的 SMPL-X 作為指導(dǎo),多視角生成得到增強(qiáng)。
實(shí)驗(yàn)
訓(xùn)練數(shù)據(jù)
在 THuman2.1 數(shù)據(jù)集的 2347 個(gè)人體掃描數(shù)據(jù)上訓(xùn)練 MagicMan。使用弱透視相機(jī)在 20 個(gè)固定視角上渲染 RGB 和法線圖像,這些視角均勻分布在從 0° 到 360° 的方位角上,分辨率為 512×512。
評(píng)估數(shù)據(jù)
在 THuman2.1 數(shù)據(jù)集中的 95 個(gè)掃描數(shù)據(jù)和 CustomHumans 數(shù)據(jù)集中的 30 個(gè)掃描數(shù)據(jù)上進(jìn)行測(cè)試,并且還在自然場(chǎng)景中的圖像上進(jìn)行了評(píng)估,包括來(lái)自 SHHQ 數(shù)據(jù)集的 100 張圖像以及從互聯(lián)網(wǎng)上收集的 120 張具有不同姿勢(shì)、服裝和風(fēng)格的圖像。
評(píng)估指標(biāo)
評(píng)估分為兩個(gè)任務(wù)進(jìn)行:
- 新視角合成。使用 PSNR、SSIM、LPIPS 和 CLIP 分?jǐn)?shù)來(lái)比較生成的視圖與相應(yīng)視圖的真實(shí)圖像的差異。對(duì)于自然場(chǎng)景數(shù)據(jù),作者計(jì)算生成的參考視圖的 LPIPS 分?jǐn)?shù),并計(jì)算生成的新視角與輸入圖像的 CLIP 分?jǐn)?shù)。
- 3D 人體重建。按照 Xiu 等人的方法,計(jì)算 Chamfer 距離、P2S 距離和 L2 法線誤差 (NE)。
新視角合成
為了評(píng)估新視角合成的效果,將 MagicMan 與生成物體新視角的合成方法進(jìn)行比較,如 Zero123、SyncDreamer、Wonder3D和 SV3D,以及具有身體先驗(yàn)的角色動(dòng)畫方法,如 Animate Anyone 和 Champ。MagicMan 生成的人體新視角圖像和法線圖的示例如圖1所示,展示了 MagicMan 能夠在各種姿勢(shì)、服裝和風(fēng)格下生成高質(zhì)量和3D一致性的人體新視角圖像。圖4展示了 MagicMan 與基線方法之間的定性比較。Zero123、SyncDreamer 和 SV3D 在未經(jīng)過(guò)微調(diào)的情況下通常會(huì)生成扭曲的人像圖像,這表明這些方法不適合直接用作涉及人體任務(wù)的 3D 先驗(yàn)。Wonder3D 僅生成六個(gè)視圖,且分辨率為作者的一半,導(dǎo)致紋理細(xì)節(jié)丟失。缺乏身體先驗(yàn)還導(dǎo)致幾何錯(cuò)誤。由于缺乏幾何感知,動(dòng)畫方法生成的不合理的身體結(jié)構(gòu)有時(shí)會(huì)在前后視圖之間產(chǎn)生歧義,如下圖 4(c) 所示。此外,在視角大幅度變化時(shí),它們?cè)谝晥D之間表現(xiàn)出明顯的不一致性,如下圖 4(e) 和 4(f) 所示。相比之下,本文的方法在生成人體密集新視角的同時(shí),能夠保持穩(wěn)定的結(jié)構(gòu)、一致的幾何形狀和紋理。
下表1中報(bào)告了定量比較結(jié)果。結(jié)果顯示,除了在自然場(chǎng)景數(shù)據(jù)的參考視圖重建中 LPIPS 稍高外,MagicMan 在像素級(jí)別和語(yǔ)義指標(biāo)上均優(yōu)于基線方法,這可能是由于 SV3D 在更高分辨率下前視細(xì)節(jié)較好。然而,新視角的 CLIP 分?jǐn)?shù)表明,本文的方法在新視角合成方面顯著優(yōu)越。
3D 人體重建
下圖5展示了重建的人體網(wǎng)格,并與包括前饋方法 PIFu、PaMIR、ICON、ECON 以及基于 SDS 的 DreamGaussian 和 TeCH在內(nèi)的基線方法所生成的網(wǎng)格進(jìn)行比較。無(wú)論是前饋方法還是基于 SDS 的方法,都無(wú)法為挑戰(zhàn)性的姿勢(shì)和服裝生成合理的幾何結(jié)構(gòu)和詳細(xì)一致的紋理,而作者的具有改進(jìn)身體先驗(yàn)的 3D 感知擴(kuò)散模型生成了密集且一致的多視圖,支持了幾何和紋理得到增強(qiáng)的可靠重建。
定量比較
與 PIFu、PAMIR、ICON 和 ECON 的定量比較結(jié)果見(jiàn)下表2,顯示 MagicMan 在所有指標(biāo)上都顯著優(yōu)于之前的方法。需要注意的是,為了公平比較,作者在實(shí)驗(yàn)中包括了迭代優(yōu)化過(guò)程,并保留了 ICON、ECON 和 PAMIR 的 SMPL-X 優(yōu)化操作。
消融實(shí)驗(yàn)和討論
混合注意力機(jī)制
借助混合注意力機(jī)制,MagicMan 可以在訓(xùn)練中生成最多 20 個(gè)一致的多視角圖像,推理時(shí)間為約 40 秒(使用 1 張 A100 GPU),而傳統(tǒng)的 3D 注意力機(jī)制在相同的內(nèi)存限制下只能生成 6 個(gè)視角,推理時(shí)間為約 60 秒。下圖 6 說(shuō)明了混合注意力的不同組件的有效性:(a) 基線模型在沒(méi)有多視角注意力的情況下生成了不一致的視圖。(b) 僅對(duì)選定視角進(jìn)行 3D 注意力仍然會(huì)產(chǎn)生閃爍的布料圖案。(c) 僅使用 1D 注意力會(huì)出現(xiàn)內(nèi)容漂移,例如,隨著視角變化逐漸變化的頭發(fā)長(zhǎng)度,表明僅通過(guò) 1D 注意力實(shí)現(xiàn)的信息交換提高了相似性,但對(duì)于全面一致性來(lái)說(shuō)仍然不足。(d) 作者的完整模型使用混合注意力,在生成密集多視角圖像時(shí)表現(xiàn)出最佳的一致性,這也在下表 3 的定量結(jié)果中得到了確認(rèn)。
幾何感知雙分支
在上面圖 6(e) 和表 3 的第 4 行中,去除法線分支會(huì)導(dǎo)致多視角一致性的下降,特別是在復(fù)雜幾何變形中,例如布料層次和褶皺。作者包含法線預(yù)測(cè)的完整模型增強(qiáng)了幾何感知,改善了結(jié)構(gòu)和一致性。
迭代優(yōu)化研究者們進(jìn)行了消融研究來(lái)驗(yàn)證迭代優(yōu)化過(guò)程的有效性。如前面圖 7(a) 所示,缺乏 SMPL-X 指導(dǎo)的生成結(jié)果看似具有準(zhǔn)確的姿勢(shì),但由于沒(méi)有 3D 先驗(yàn),視圖之間姿勢(shì)不一致導(dǎo)致了重建中的嚴(yán)重偽影。直接使用估計(jì)的不準(zhǔn)確 SMPL-X 網(wǎng)格作為姿勢(shì)指導(dǎo)(如圖 7(b) 所示)會(huì)導(dǎo)致生成的新視角圖像扭曲,并且重建的網(wǎng)格(例如,缺失和分離的手和腳)由于 SMPL-X 和參考圖像之間的沖突而出現(xiàn)不良形狀。使用準(zhǔn)確的真實(shí) SMPL-X(如圖 7(c) 所示)可以獲得令人印象深刻的結(jié)果,但在實(shí)踐中通常無(wú)法獲得。作者的迭代優(yōu)化過(guò)程通過(guò)連續(xù)迭代逐步改進(jìn)了新視角的重建結(jié)果,使 SMPL-X 指導(dǎo)越來(lái)越準(zhǔn)確,如圖 7(e) 中的綠色氣泡所示。最終優(yōu)化后的多視角圖像,包含準(zhǔn)確的姿勢(shì)和 3D 一致性,得到的結(jié)果與使用真實(shí) SMPL-X 生成的結(jié)果相當(dāng)。優(yōu)化后的 SMPL-X 網(wǎng)格具有更準(zhǔn)確的姿勢(shì)和減少的深度歧義,表明預(yù)訓(xùn)練圖像擴(kuò)散模型中的豐富先驗(yàn)可以潛在地幫助人體估計(jì)。
與之前由 SMPLify、ICON (2022) 等引入的優(yōu)化方法不同,這些方法基本上是在單視角 2D 平面上對(duì)齊 SMPL-X 網(wǎng)格,本文的方法充分利用了來(lái)自 3D 感知擴(kuò)散模型的多視角輸出,將 SMPL-X 網(wǎng)格與 3D 幾何信息對(duì)齊,實(shí)現(xiàn)了在 3D 空間中更準(zhǔn)確的姿勢(shì)。
總結(jié)和展望
MagicMan,一種通過(guò)利用圖像擴(kuò)散模型作為 2D 生成先驗(yàn)和 SMPL-X 模型作為 3D 身體先驗(yàn)的方法,從單張參考圖像生成人體的新視角?;诖?,作者提出的高效混合多視角注意力機(jī)制確保了生成更密集的多視角圖像,同時(shí)保持高的 3D 一致性,這一效果通過(guò)幾何感知雙分支進(jìn)一步得到增強(qiáng)。此外,作者的新型迭代優(yōu)化過(guò)程通過(guò)逐次迭代優(yōu)化初始估計(jì)的 SMPL-X 姿勢(shì),以提高生成新視角的一致性,并緩解由不準(zhǔn)確 SMPL-X 估計(jì)引起的幾何畸形問(wèn)題。廣泛的實(shí)驗(yàn)結(jié)果表明,作者的方法能夠生成密集、高質(zhì)量且一致的人體新視角圖像,這些圖像也非常適合后續(xù)的 3D 人體重建任務(wù)。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:AI生成未來(lái)
