高分辨率3D人生成超簡(jiǎn)單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成
論文鏈接:https://arxiv.org/pdf/2502.07785
項(xiàng)目鏈接:https://yashkant.github.io/pippo/
亮點(diǎn)直擊
- 一種生成模型:能夠從單張圖像生成高分辨率和多視角一致的人體,并提出了有效的訓(xùn)練策略。
- 一種擴(kuò)散Transformer架構(gòu):專為增強(qiáng)多視角生成和視角控制而設(shè)計(jì)。
- 一種注意力偏置技術(shù):能夠在推理時(shí)生成比訓(xùn)練時(shí)多5倍以上的視角。
- 一種新穎的3D一致性指標(biāo):用于準(zhǔn)確衡量生成任務(wù)中的3D一致性水平。
總結(jié)速覽
解決的問題
- 高質(zhì)量多視角數(shù)據(jù)獲取成本高:傳統(tǒng)方法需要高質(zhì)量的多視角工作室數(shù)據(jù)來創(chuàng)建逼真的人體表示,但這些數(shù)據(jù)獲取成本高,限制了可擴(kuò)展性。
- 野外數(shù)據(jù)缺乏3D或多視角表示:大規(guī)模、非結(jié)構(gòu)化的野外人體圖像和視頻雖然豐富,但缺乏真實(shí)的3D或多視角表示。
- 多視角生成模型的3D一致性問題:現(xiàn)有方法在生成多視角圖像時(shí),難以保證3D一致性,且現(xiàn)有評(píng)估指標(biāo)無法準(zhǔn)確衡量3D一致性。
提出的方案
- Pippo模型:提出了一種基于Diffusion Transformer的生成模型Pippo,能夠從單張隨意拍攝的照片生成1K分辨率的多視角一致圖像。
- 多階段訓(xùn)練策略:
- 預(yù)訓(xùn)練:在大規(guī)模野外人體圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。
- 中期訓(xùn)練:在高質(zhì)量工作室數(shù)據(jù)集上進(jìn)行多視角一致性生成訓(xùn)練。
- 后期訓(xùn)練:引入空間錨點(diǎn)(Spatial Anchor)信號(hào),進(jìn)一步提升3D一致性。
- 推理時(shí)的注意力偏置技術(shù):提出了一種注意力偏置方法,解決了生成更多視角時(shí)質(zhì)量下降的問題。
- 改進(jìn)的3D一致性評(píng)估指標(biāo):設(shè)計(jì)了一種新的3D一致性評(píng)估方法,通過2D關(guān)鍵點(diǎn)匹配、三角測(cè)量和重投影誤差來量化3D一致性。
應(yīng)用的技術(shù)
- Diffusion Transformer(DiT):用于生成高質(zhì)量的多視角圖像。
- 自注意力機(jī)制:用于條件多視角生成,增強(qiáng)模型的條件生成能力。
- 輕量級(jí)空間控制:如空間錨點(diǎn)(Spatial Anchor)和Plücker坐標(biāo),用于編碼目標(biāo)相機(jī)姿態(tài)。
- 注意力偏置技術(shù):用于控制多視角生成時(shí)的熵增長(zhǎng),提升生成質(zhì)量。
- 2D關(guān)鍵點(diǎn)匹配與三角測(cè)量:用于評(píng)估3D一致性,通過重投影誤差量化生成結(jié)果的幾何正確性。
達(dá)到的效果
- 高質(zhì)量多視角生成:Pippo能夠從單張圖像生成1K分辨率的多視角一致圖像,且無需額外的參數(shù)化模型或輸入圖像的相機(jī)參數(shù)。
- 3D一致性提升:通過多階段訓(xùn)練和空間錨點(diǎn)信號(hào),顯著提升了生成圖像的3D一致性。
- 推理時(shí)生成更多視角:通過注意力偏置技術(shù),Pippo能夠在推理時(shí)生成比訓(xùn)練時(shí)多5倍的視角,且保持高質(zhì)量。
- 評(píng)估指標(biāo)改進(jìn):提出的3D一致性評(píng)估指標(biāo)能夠更準(zhǔn)確地量化生成結(jié)果的幾何正確性,Pippo在該指標(biāo)上優(yōu)于現(xiàn)有方法。
方法
本文采用三階段策略訓(xùn)練模型:
- 僅圖像預(yù)訓(xùn)練(P1):在以人為中心的大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,使用圖像條件。
- 多視角中期訓(xùn)練(M2):在128×128的低分辨率下訓(xùn)練模型,對(duì)48個(gè)目標(biāo)視角進(jìn)行去噪,并使用粗略的相機(jī)控制(無像素對(duì)齊的空間控制)。
- 多視角后期訓(xùn)練(P3):在1024×1024的高分辨率下訓(xùn)練模型,對(duì)1-3個(gè)目標(biāo)視角進(jìn)行去噪,并通過ControlMLP層注入空間控制。
將任何給定模型的訓(xùn)練階段和分辨率表示為??{stage}@{resolution}?
??。例如,??M2@128?
?表示在128分辨率下進(jìn)行中期訓(xùn)練的模型。
###基礎(chǔ)模型架構(gòu):本文采用類似DiT的架構(gòu)(見下圖3),受Stable Diffusion 3 和Flux啟發(fā),使用尺度、偏移和門調(diào)制進(jìn)行時(shí)間步條件控制。通過并行使用MLP和注意力機(jī)制簡(jiǎn)化了架構(gòu),并移除了注意力層后的第二個(gè)LayerNorm。我們使用VAE在潛在空間中進(jìn)行訓(xùn)練,空間壓縮率為8倍,并通過線性層和2的patch大小對(duì)潛在圖像進(jìn)行分塊。在訓(xùn)練期間使用固定的正弦位置編碼。
僅圖像預(yù)訓(xùn)練:在預(yù)訓(xùn)練期間,模型學(xué)習(xí)去噪圖像,條件是其對(duì)應(yīng)的DINOv2圖像嵌入,這與DALL-E 2的圖像解碼器原理相似。使用線性層將嵌入投影到模型維度,以創(chuàng)建聯(lián)合條件。重要的是,預(yù)訓(xùn)練設(shè)置不需要任何注釋或圖像描述,并且與我們的下游目標(biāo)(即給定單張參考圖像生成一致的多視角圖像)高度一致。
多視角模型
本文的目標(biāo)是給定單張輸入圖像,生成人體的多個(gè)高分辨率和未見過的全新視角(類似于工作室捕捉)。
中期訓(xùn)練:在中期訓(xùn)練階段,希望訓(xùn)練一個(gè)強(qiáng)大的多視角模型,能夠同時(shí)對(duì)多張圖像進(jìn)行去噪,并在較低分辨率下快速吸收數(shù)據(jù)集。在此階段,不使用任何像素對(duì)齊的空間控制(如Plücker或空間錨點(diǎn))。使用一個(gè)MLP將展平的16維目標(biāo)相機(jī)內(nèi)參和外參編碼為單個(gè)token。將此相機(jī)token融合到每個(gè)噪聲潛在token(對(duì)應(yīng)視圖)中作為位置編碼,這使得我們的多視角模型能夠感知目標(biāo)視角的3D信息。在128×128分辨率下進(jìn)行中期訓(xùn)練,聯(lián)合去噪24個(gè)視角。
后期訓(xùn)練:在后期訓(xùn)練階段,目標(biāo)是創(chuàng)建一個(gè)高分辨率且3D一致的模型,從低分辨率和3D感知(但不一致)的模型開始。為此,我們?cè)O(shè)計(jì)了一個(gè)輕量級(jí)的ControlNet啟發(fā)模塊,該模塊以像素對(duì)齊的Plücker和空間錨點(diǎn)控制以及去噪時(shí)間步為輸入,為多視角模型生成單獨(dú)的調(diào)制信號(hào)。我們將此模塊命名為ControlMLP,因?yàn)樗褂脝蝹€(gè)MLP為每個(gè)多視角DiT塊生成尺度和偏移調(diào)制控制,如圖3所示。ControlMLP的每一層在開始時(shí)都進(jìn)行零初始化。我們發(fā)現(xiàn)后期訓(xùn)練階段對(duì)于減少生成中的閃爍和3D不一致性至關(guān)重要。我們?cè)?12×512和1024×1024分辨率下進(jìn)行后期訓(xùn)練,分別聯(lián)合去噪10個(gè)和2個(gè)視角。進(jìn)一步增加視角數(shù)量會(huì)導(dǎo)致GPU內(nèi)存不足問題。
Plücker和空間錨點(diǎn)編碼:Plücker坐標(biāo)中相鄰像素之間的相對(duì)差異非常小。為了更好地放大這些差異,使用SIREN層首先將6D網(wǎng)格處理為32D特征網(wǎng)格。然后,將其下采樣8倍以匹配潛在token的大小,并將其作為ControlMLP的輸入。此外,使用空間錨點(diǎn)來固定主體頭部在3D空間中的位置和方向。僅將空間錨點(diǎn)用于生成,而不用于輸入?yún)⒖家晥D。通過VAE將空間錨點(diǎn)圖像編碼到模型的潛在空間中,并將其與Plücker輸入連接,通過MLP生成每一層的調(diào)制信號(hào)。
理解與改進(jìn)空間控制
本節(jié)介紹了在后期訓(xùn)練階段注入像素對(duì)齊空間控制的設(shè)計(jì)選擇,并探討了替代方法。通過一個(gè)聚焦的過擬合實(shí)驗(yàn)和表格1中的定量評(píng)估,展示了空間控制的有效性。
場(chǎng)景過擬合任務(wù):使用給定主體和時(shí)間戳的固定3D場(chǎng)景中的160幀,將其分為100個(gè)訓(xùn)練視圖和60個(gè)驗(yàn)證視圖。我們?cè)跍y(cè)試各種空間控制方法時(shí),將中期訓(xùn)練的模型過擬合到訓(xùn)練視圖上,僅訓(xùn)練控制模塊,同時(shí)凍結(jié)其他權(quán)重。在過擬合10K次迭代后,我們?cè)隍?yàn)證視圖上評(píng)估模型以進(jìn)行新視角合成。對(duì)驗(yàn)證視圖的強(qiáng)泛化能力表明有效的空間控制和適當(dāng)?shù)南鄼C(jī)視角敏感性。通過此任務(wù),在下表1中評(píng)估了不同的空間控制注入方法,從簡(jiǎn)單到高級(jí)的調(diào)制設(shè)計(jì)逐步展開。
- 無過擬合(第1行):未進(jìn)行場(chǎng)景特定過擬合的中期訓(xùn)練模型在訓(xùn)練視圖和驗(yàn)證視圖上分別達(dá)到了19.2和19.7的PSNR。我們將此設(shè)置作為改進(jìn)的基線。
- 使用MLP編碼相機(jī)(第2行):使用與先前工作[47, 73]和中期訓(xùn)練階段類似的MLP編碼相機(jī)。過擬合后,模型在訓(xùn)練視圖上的PSNR略有提升,但驗(yàn)證PSNR下降了1.28點(diǎn)至17.95。這表明MLP無法為相機(jī)控制提供足夠的調(diào)制。
- 將Plücker作為位置編碼(第3行):在此設(shè)置中,使用通過MLP處理的下采樣和分塊化的Plücker坐標(biāo)創(chuàng)建位置編碼,并將其添加到噪聲潛在token中。此設(shè)置受到先前工作[4, 8, 27, 37, 75]的啟發(fā),與MLP相比,驗(yàn)證PSNR進(jìn)一步提高至18.89,但仍落后于未過擬合的基線。
- 使用ControlMLP和SIREN處理Plücker(第4、5行):在此設(shè)置中,我們使用ControlMLP模塊在每個(gè)多視角DiT塊輸出處注入空間控制。此外,使用SIREN編碼Plücker坐標(biāo)放大了相鄰像素之間的相對(duì)差異。此設(shè)置達(dá)到了20.13的PSNR,比基線提高了0.9。
- 添加空間錨點(diǎn)(第6行):最終,使用空間錨點(diǎn)使驗(yàn)證PSNR達(dá)到22.6(比基線提高了3.3點(diǎn)),并實(shí)現(xiàn)了強(qiáng)大的空間控制。因此,我們?cè)诤笃谟?xùn)練階段采用了此配置。
處理推理時(shí)視角數(shù)量的變化
在訓(xùn)練期間,聯(lián)合去噪固定數(shù)量的視角。在128×128分辨率下進(jìn)行中期訓(xùn)練時(shí)去噪24個(gè)視角,在512×512和1024×1024分辨率下進(jìn)行后期訓(xùn)練時(shí)分別去噪2個(gè)或12個(gè)視角。這一選擇主要是為了避免訓(xùn)練期間的GPU內(nèi)存不足錯(cuò)誤。在推理時(shí),希望進(jìn)一步擴(kuò)展視角數(shù)量以生成平滑的旋轉(zhuǎn)視頻。這是可行的,因?yàn)槲覀兛梢栽诎刖龋ㄊ褂胋float16)下運(yùn)行推理,并且不需要存儲(chǔ)反向傳播計(jì)算圖。
在推理時(shí)簡(jiǎn)單地將視角(或token)數(shù)量擴(kuò)展到訓(xùn)練時(shí)視角數(shù)量的2倍以上會(huì)導(dǎo)致生成結(jié)果模糊和退化。這些退化在輸入中未指定的區(qū)域(例如后腦勺或耳朵,如下圖5所示)最為顯著。接下來我們研究此問題,并引入注意力偏置來解決它。
在前面圖5中,展示了應(yīng)用建議的注意力偏置前后的生成視覺效果。更多關(guān)于增長(zhǎng)因子變化的視覺效果請(qǐng)參見附錄圖9。類似的技術(shù)在大型語言模型(LLM)中也有所探索,用于處理和生成更長(zhǎng)上下文的文本,其中上述縮放因子入類似于溫度縮放的倒數(shù)。
在生成過程中使用凸起函數(shù)(bump function)代替恒定的無分類器引導(dǎo)(Classifier-free Guidance)可以減少偽影。關(guān)于這一技巧的詳細(xì)討論見附錄B。
增強(qiáng)的 3D 一致性度量
傳統(tǒng)上,多視圖生成模型的 3D 一致性通常通過 2D 圖像指標(biāo)(如 PSNR、LPIPS 和 SSIM)來評(píng)估,并與一組固定的真實(shí)圖像進(jìn)行比較。然而,這種方法對(duì)那些生成合理但與固定真實(shí)圖像不同的 3D 一致性新內(nèi)容的模型存在不公平的懲罰。一些研究嘗試通過測(cè)量 SfM 或極線誤差(epipolar error)來解決這一問題,但這些方法要么依賴于相機(jī)位姿求解,要么由于測(cè)量整個(gè)極線而不夠魯棒。
為了解決這些局限性,本文使用已知的真實(shí)(GT)相機(jī)位姿作為輸入,并基于已知的相機(jī)位姿和預(yù)測(cè)的對(duì)應(yīng)關(guān)系計(jì)算重投影誤差(Reprojection Error, RE)。
RE 計(jì)算涉及以下步驟:
- 關(guān)鍵點(diǎn)檢測(cè)與匹配:使用 SuperPoint檢測(cè)生成圖像中的關(guān)鍵點(diǎn),并使用 SuperGlue在圖像間建立關(guān)鍵點(diǎn)的成對(duì)對(duì)應(yīng)關(guān)系。
- 三角測(cè)量:基于對(duì)應(yīng)關(guān)系和相機(jī)參數(shù),使用直接線性變換(DLT)進(jìn)行三角測(cè)量,以獲取每個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)的 3D 點(diǎn)。
- 重投影與誤差計(jì)算:將這些 3D 點(diǎn)重投影到每張圖像上,并計(jì)算 RE,即原始關(guān)鍵點(diǎn)與重投影 3D 點(diǎn)之間的 L2 距離,歸一化為圖像分辨率,并計(jì)算所有圖像的平均誤差。
該方法通過評(píng)估多視圖生成模型生成 3D 一致性結(jié)果的能力,而非僅僅與固定的真實(shí)圖像進(jìn)行比對(duì),從而提供更公平的評(píng)估標(biāo)準(zhǔn)。重投影誤差(RE)為不同方法之間的比較提供了有價(jià)值的依據(jù)。此外,通過在一組獨(dú)立于生成圖像的真實(shí)世界圖像上計(jì)算 RE,我們可以建立基線,以量化由于 SuperGlue 和 SuperPoint 預(yù)測(cè)中的噪聲而產(chǎn)生的誤差,而非生成圖像本身的質(zhì)量。命名約定(RE@SG)請(qǐng)注意,SuperPoint和 SuperGlue 僅是我們度量方法的一種具體實(shí)現(xiàn),未來可以用更強(qiáng)的替代方法,如 MAST3R或特定領(lǐng)域的關(guān)鍵點(diǎn)檢測(cè)器(如 Sapiens)。因此,采用 RE@SG 作為命名約定,表示在 SuperGlue(SG)估計(jì)下計(jì)算的重投影誤差(RE)。未來,這一命名可以根據(jù)不同的估計(jì)器進(jìn)行調(diào)整。
實(shí)驗(yàn)
本文提供所有訓(xùn)練和驗(yàn)證階段所使用數(shù)據(jù)集的詳細(xì)信息,并討論評(píng)估指標(biāo),重點(diǎn)介紹 3D 一致性度量方法,最后總結(jié)核心實(shí)驗(yàn)結(jié)果和消融研究。
數(shù)據(jù)
Humans-3B 數(shù)據(jù)集使用一個(gè)大型的專有數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含約 30 億張以人為中心的自然場(chǎng)景圖像。
頭部與全身工作室數(shù)據(jù)集我們依賴高質(zhì)量的專有工作室數(shù)據(jù)作為學(xué)習(xí) 3D 一致性的主要數(shù)據(jù)來源。本文的模型有兩個(gè)變體:僅頭部(head-only)和全身(full-body),分別在相應(yīng)的數(shù)據(jù)集上進(jìn)行中期訓(xùn)練(Mid-training)和后期訓(xùn)練(Post-training)。
- 全身模型:包含 861 名受試者(811 訓(xùn)練集,50 測(cè)試集),每位受試者約 1000 幀。
- 頭部模型:包含 1450 名受試者(1400 訓(xùn)練集,50 測(cè)試集),每位受試者約 40000 幀。
本文的工作室配置與 [49] 類似,使用兩個(gè)拍攝穹頂分別捕捉全身和頭部的高分辨率 4K 圖像,全身穹頂配備 230 臺(tái)攝像機(jī),頭部穹頂配備 160 臺(tái)攝像機(jī)。
iPhone 數(shù)據(jù)集為了評(píng)估模型在真實(shí)場(chǎng)景中的表現(xiàn),使用 iPhone 13 Pro 在室內(nèi)辦公環(huán)境中拍攝 50 名測(cè)試受試者的隨意圖像。使用 Sapiens-2B進(jìn)行背景分割后再輸入模型推理。該數(shù)據(jù)集僅用于評(píng)估模型在自然場(chǎng)景輸入上的表現(xiàn)。
評(píng)估設(shè)置與指標(biāo)
3D 一致性與以往研究類似,本文報(bào)告標(biāo)準(zhǔn)圖像質(zhì)量指標(biāo),包括 PSNR、SSIM(×100)和 LPIPS(×100)。然而,這些指標(biāo)會(huì)不公平地懲罰在不完整輸入下生成的合理新視角。因此,引入了 重投影誤差(Reprojection Error, RE) 作為 3D 一致性的度量方法,該指標(biāo)無需直接依賴真實(shí)數(shù)據(jù)即可進(jìn)行驗(yàn)證。我們的評(píng)估在測(cè)試集劃分中隨機(jī)選取 4 個(gè)視角進(jìn)行計(jì)算。
身份保持使用兩種指標(biāo)來衡量生成視圖之間的身份一致性:
- 面部相似度:計(jì)算通過 FaceNet 提取的特征之間的余弦距離。
- 全身相似度:使用 CLIP視覺編碼器計(jì)算特征的余弦距離。
預(yù)訓(xùn)練模型評(píng)估通過 FID 衡量預(yù)訓(xùn)練策略的有效性。具體實(shí)驗(yàn)配置如下:
- 選取 Humans-3B 數(shù)據(jù)集的 3000 萬張標(biāo)注子集訓(xùn)練圖像 & 文本條件 P1@128 模型。
- 選取未經(jīng)過濾的 3000 萬張子集訓(xùn)練無過濾 P1@128 模型。
- 選取iPhone 數(shù)據(jù)集的 1000 張測(cè)試樣本進(jìn)行評(píng)估。
結(jié)果
預(yù)訓(xùn)練與數(shù)據(jù)過濾下表 2 展示了我們的預(yù)訓(xùn)練模型結(jié)果(第 1 行),以及在人像數(shù)據(jù)過濾和圖像條件預(yù)訓(xùn)練上的消融實(shí)驗(yàn)(第 2-5 行)。實(shí)驗(yàn)表明,人像過濾和基于圖像的條件訓(xùn)練對(duì)高質(zhì)量生成至關(guān)重要。
高分辨率多視角生成在下表 3中,評(píng)估了工作室數(shù)據(jù)集上未見受試者的 3D 重建 和 身份保持 能力。實(shí)驗(yàn)表明,提高生成分辨率不會(huì)降低 3D 一致性或身份相似性。相關(guān)可視化結(jié)果見下圖 7,第 2、3 行。
隨意拍攝的 iPhone 照片生成
在上面表 3(第 3、6 行)中,報(bào)告了 iPhone 數(shù)據(jù)集(1K 分辨率模型)上隨意拍攝圖像的 重投影誤差 和 相似性評(píng)分。由于缺少真實(shí)數(shù)據(jù),這種情況下無法評(píng)估標(biāo)準(zhǔn)的重建誤差指標(biāo)。實(shí)驗(yàn)發(fā)現(xiàn),iPhone 拍攝的重投影誤差與工作室數(shù)據(jù)集相當(dāng),證明了 3D 一致性。這表明 Pippo 具備較強(qiáng)的泛化能力,能夠超越多視角訓(xùn)練數(shù)據(jù)域,而大規(guī)模自然人像數(shù)據(jù)預(yù)訓(xùn)練 在此過程中至關(guān)重要。相關(guān)可視化結(jié)果見上面圖 7,第 1 行。
與外部基準(zhǔn)方法的比較在下圖 6中,將Pippo與當(dāng)前最先進(jìn)的全身生成和頭部生成方法進(jìn)行比較:
- SiTH:使用ControlNet結(jié)合SDF 表示來重建紋理化人類網(wǎng)格。相比之下,Pippo 能夠生成更高分辨率的多視角結(jié)果,并提供更準(zhǔn)確的 3D 視角合成。
- DiffPortrait3D:基于 3D-GAN 逆向推理生成 3D 頭像。相比之下,Pippo 支持更大的視角變化范圍,并且能夠更嚴(yán)格地保持輸入圖像的細(xì)節(jié)。
?
定量比較與基準(zhǔn)測(cè)試現(xiàn)有的最先進(jìn)人像生成方法依賴 顯式 SMPL 先驗(yàn),因此無法直接進(jìn)行數(shù)值比較。從 定性分析(圖 6)來看,這些方法在 新視角生成 或 細(xì)節(jié)保持 方面存在明顯不足,因此我們未進(jìn)行直接的數(shù)值對(duì)比。
在Pippo中,專注于構(gòu)建強(qiáng)大的多視角人像生成模型,并在 iPhone 全身數(shù)據(jù)集 上評(píng)測(cè)了四種最先進(jìn)的 多視角擴(kuò)散模型(下表 4)。結(jié)果表明:
- Pippo 在身份保持(面部與身體相似性)和3D 一致性(RE)方面均優(yōu)于基準(zhǔn)方法。
- Pippo 能夠在更高分辨率下運(yùn)行,同時(shí)保持更好的生成質(zhì)量。
消融實(shí)驗(yàn)
在 128×128 分辨率的 Head-only 數(shù)據(jù)集 上分析各訓(xùn)練階段的設(shè)計(jì)選擇,并在 表 6 中展示消融實(shí)驗(yàn)結(jié)果。
預(yù)訓(xùn)練和中期訓(xùn)練的重要性在 Humans-3B 數(shù)據(jù)集 上進(jìn)行 預(yù)訓(xùn)練 可顯著增強(qiáng)模型對(duì) 新身份的泛化能力(下表 6,第 8 行)。缺少預(yù)訓(xùn)練 會(huì)導(dǎo)致模型泛化能力下降,生成的人臉模糊不清。此外,跳過低分辨率的中期訓(xùn)練 會(huì)破壞多視角一致性(表 6,第 2 行)。
正面輸入?yún)⒖嫉闹匾?/strong>表 6(第 10 行)表明,隨機(jī)選取輸入?yún)⒖紙D像的視角 會(huì)導(dǎo)致模型過度擬合訓(xùn)練身份。特別是 背面視角 含有極少的身份信息,迫使模型學(xué)習(xí)到不穩(wěn)定的相關(guān)性,最終影響泛化能力。
自注意力的重要性將 自注意力(self-attention) 替換為 交叉注意力(cross-attention) 進(jìn)行參考圖像編碼會(huì) 降低生成質(zhì)量(表 6,第 9 行)。實(shí)驗(yàn)表明,此設(shè)置會(huì)導(dǎo)致模型 忽略輸入圖像的約束,生成的結(jié)果僅 模糊地 近似訓(xùn)練數(shù)據(jù)。
Humans-3B 大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)集的作用使用 預(yù)訓(xùn)練階段(P1) 的中間檢查點(diǎn)進(jìn)行實(shí)驗(yàn),分別訓(xùn)練了:
- 僅使用30%的數(shù)據(jù)
- 僅使用70%的數(shù)據(jù)
- 僅使用1% 高質(zhì)量子集
然后,基于這些模型在 全身數(shù)據(jù)集(Full-body) 上進(jìn)行 兩天的 128×128 分辨率多視角去噪訓(xùn)練,并在下表 7中報(bào)告實(shí)驗(yàn)結(jié)果。
結(jié)果表明,大規(guī)模數(shù)據(jù)對(duì)于泛化至新身份至關(guān)重要,特別是在 面部相似性(face similarity)指標(biāo) 上表現(xiàn)出顯著提升。
結(jié)論
本文提出了一種擴(kuò)散 Transformer 模型 Pippo,能夠從單張圖像生成高分辨率、多視角一致的人物圖像集。實(shí)驗(yàn)結(jié)果表明,多階段訓(xùn)練策略(結(jié)合大規(guī)模野生數(shù)據(jù)與高質(zhì)量多視角影棚數(shù)據(jù))可以實(shí)現(xiàn)可泛化的高分辨率多視角合成。
對(duì)擴(kuò)散 Transformer 架構(gòu)的分析揭示了以下關(guān)鍵因素對(duì) 高保真多視角人物生成 至關(guān)重要:
- 自注意力(Self-attention)參考輸入圖像
- Plücker 坐標(biāo)結(jié)合SIREN
- 空間錨點(diǎn)(Spatial Anchor)
Pippo首次在1K 分辨率下實(shí)現(xiàn)了一致性多視角人物圖像生成。此外,提出的3D一致性度量 可以在無配對(duì)真實(shí)數(shù)據(jù)的情況下評(píng)估3D 一致性。
然而,本文的方法仍然存在可同時(shí)生成視角數(shù)量有限的限制,主要由于 上下文長(zhǎng)度大、內(nèi)存需求高。這一問題可以通過并行化技術(shù)和自回歸生成(autoregressive generation)進(jìn)行優(yōu)化。未來,將致力于擴(kuò)展該方法至多視角一致性視頻生成。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
