CVPR 2024 Highlight | 讓SD乖乖學(xué)會文本生360°全景!PanFusion 強(qiáng)勢來襲!
論文鏈接:https://arxiv.org/pdf/2404.07949.pdf
工程鏈接:https://chengzhag.github.io/publication/panfusion
生成模型,例如Stable Diffusion模型,已經(jīng)使從文本prompt生成逼真圖像成為可能。然而,從文本生成360度全景圖仍然是一項挑戰(zhàn),特別是由于缺乏成對的文本-全景數(shù)據(jù)和全景與透視圖之間的領(lǐng)域差異。本文介紹了一種名為PanFusion的新型雙分支擴(kuò)散模型,用于從文本prompt生成360度圖像。本文利用Stable Diffusion模型作為一個分支,以提供自然圖像生成的先驗知識,并將其與另一個全景分支注冊,以進(jìn)行整體圖像生成。本文提出了一種具有投影意識的獨特交叉注意力機(jī)制,以在協(xié)作去噪過程中最小化失真。實驗驗證了PanFusion超越現(xiàn)有方法,并且得益于其雙分支結(jié)構(gòu),可以集成額外的約束,如房間布局,以定制全景輸出。
部分成果展示
介紹
從文本prompt創(chuàng)建360度全景圖像是計算機(jī)視覺中一個新興但至關(guān)重要的前沿領(lǐng)域,對于需要廣泛環(huán)境表征的應(yīng)用具有深遠(yuǎn)的意義,例如環(huán)境照明、虛擬現(xiàn)實/增強(qiáng)現(xiàn)實、自動駕駛和視覺導(dǎo)航。盡管在文本到圖像的合成方面取得了重大進(jìn)展,但要實現(xiàn)生成完整的360度水平和180度垂直視場(FOV)的全景圖仍然具有挑戰(zhàn)性。
實現(xiàn)這一目標(biāo)面臨兩大主要障礙。第一個障礙是數(shù)據(jù)稀缺。與眾多的文本到常規(guī)圖像對比,文本到全景圖像對的可用性顯著較少。數(shù)據(jù)的匱乏使得生成模型的訓(xùn)練和finetuning變得復(fù)雜。第二個障礙在于幾何和領(lǐng)域的變化。全景圖像不僅在它們的長寬比(2:1)上有所不同,還在于使用的等距圓柱投影(ERP)幾何,這與大多數(shù)生成模型訓(xùn)練中使用的典型正方形透視投影圖像有顯著差異。
為了緩解特定于全景的訓(xùn)練數(shù)據(jù)的稀缺性,之前的解決方案遵循一個常見原則,即利用預(yù)訓(xùn)練生成模型的先驗知識。然而,馴服像Stable Diffusion這樣的強(qiáng)大模型生成高保真全景圖像仍然是一項非瑣碎的任務(wù)。早期嘗試將360度生成定義為一個迭代的圖像修復(fù)或變形過程。這種解決方案會遭受錯誤累積,并且未能處理閉環(huán)問題。為了解決這個問題,MVDiffusion提出了通過引入一個對應(yīng)感知的注意力模塊來同時生成多個透視圖像,從而促進(jìn)多視角一致性,然后將這些透視圖像拼接成一個完整的全景圖。盡管性能有所提高,但MVDiffusion中相鄰?fù)敢曋g的像素級一致性無法確保全局一致性,通常會導(dǎo)致重復(fù)元素或語義不一致,如下圖1所示。
因此,本文提出了一種新型雙分支擴(kuò)散模型,名為PanFusion,旨在解決先前模型在生成高質(zhì)量360度全景圖像方面的限制。具體來說,PanFusion設(shè)計為同時在全景和透視領(lǐng)域操作,采用一個全局分支來創(chuàng)建一個連貫的全景“畫布”,和一個專注于渲染細(xì)節(jié)豐富的多視角透視的局部分支。PanFusion的局部-全局協(xié)同顯著改善了結(jié)果全景圖像,解決了先前模型中普遍存在的錯誤傳播和視覺不一致問題。為了增強(qiáng)兩個分支之間的協(xié)同作用,本文進(jìn)一步提出了一個等距透視投影注意力(EPPA)機(jī)制,該機(jī)制遵循等距圓柱投影,以維持整個生成過程中的幾何完整性。此外,采用參數(shù)映射進(jìn)行位置編碼也是向前邁出的一大步,增強(qiáng)了模型的空間意識,進(jìn)一步確保生成的全景圖的一致性。進(jìn)一步,PanFusion的全景分支可以輕松地適應(yīng)全景級別的補(bǔ)充控制輸入,如房間布局,從而允許創(chuàng)建符合精確空間條件的圖像。本文的主要貢獻(xiàn)如下。
- 本文首創(chuàng)了一種雙分支擴(kuò)散模型PanFusion,利用全球全景和局部透視潛在領(lǐng)域,從文本prompt生成高質(zhì)量、一致的360度全景圖像。
- 為了增強(qiáng)兩個分支之間的交互,本文引入了一個“等距透視投影注意力”機(jī)制,該機(jī)制在全局全景和局部透視分支之間建立了新的對應(yīng)關(guān)系,解決了全景合成的獨特投影挑戰(zhàn)。
- 本文的PanFusion不僅在質(zhì)量和一致性上超越了以往的模型,還通過加入房間布局支持對生成過程的擴(kuò)展控制。廣泛的實驗結(jié)果證明了本文提出的框架的優(yōu)越性。
相關(guān)工作
Stable Diffusion。近年來,隨著擴(kuò)散模型在圖像生成領(lǐng)域引起轟動,這些模型變得更快,在圖像質(zhì)量和分辨率方面的能力也得到了顯著提升。這種成功促使人們開發(fā)了各種擴(kuò)散模型的應(yīng)用程序,如文本到圖像、基于圖像的生成、圖像修復(fù)以及以主體為驅(qū)動的生成。這些應(yīng)用大多試圖利用預(yù)訓(xùn)練擴(kuò)散模型的先驗知識來緩解特定任務(wù)數(shù)據(jù)的稀缺性,通過finetuning技術(shù)如LoRA,或引入輔助模塊來提取知識。本文也采用同樣的原則,利用預(yù)訓(xùn)練的潛在擴(kuò)散模型來生成全景圖像。
全景圖像生成。全景圖像生成涉及多種設(shè)置,包括全景外繪制和文本到全景圖像生成。
全景外繪制關(guān)注于從部分輸入圖像生成360度全景圖。不同的方法,如StyleLight 和BIPS ,已針對特定用例進(jìn)行了處理,專注于HDR環(huán)境照明和機(jī)器人導(dǎo)航場景。近期的工作通過使用擴(kuò)散模型提高了現(xiàn)實感,但通常缺乏利用預(yù)訓(xùn)練模型的豐富先驗信息,限制了其泛化能力。
另一方面,生成模型的最新發(fā)展開啟了從文本輸入合成沉浸式視覺內(nèi)容的新前沿。作為一種基于圖像的表現(xiàn)形式,從文本生成全景圖已受到廣泛關(guān)注。Text2Light 采用VQGAN 結(jié)構(gòu)從文本合成HDR全景圖像。為了用預(yù)訓(xùn)練的擴(kuò)散模型生成任意分辨率的圖像,DiffCollage、MultiDiffusion和SyncDiffusion提出融合擴(kuò)散路徑的方法,而PanoGen 則通過迭代修復(fù)解決這一問題。然而,它們未能模擬360度全景的等距圓柱投影。Lu等人采用自回歸框架,但存在效率低下的問題。MVDiffusion 設(shè)計了一個感知對應(yīng)關(guān)系的注意力模塊,能夠同時生成多視圖圖像以拼接,但結(jié)果呈現(xiàn)重復(fù)元素和不一致性。相比之下,本文提出的PanFusion是一個雙分支框架,通過考慮全局全景視圖和局部透視視圖,解決了現(xiàn)有方法的局限性,為文本驅(qū)動的360度全景圖像生成提供了全面的解決方案。
方法
初步介紹
雙分支擴(kuò)散模型
直接使用預(yù)訓(xùn)練的潛在擴(kuò)散模型,例如Stable Diffusion(SD),以迭代方式或同步方式從多個視角圖像生成全景圖像,會因缺乏全局理解而無法處理循環(huán)閉合或產(chǎn)生重復(fù)元素(見上圖1)。為了解決這個問題,本文提出了一個雙分支擴(kuò)散模型,該模型包括一個基于SD的UNet的全景分支和視角分支,如下圖2所示。全景分支旨在提供全局布局指導(dǎo),并注冊視角信息以獲得最終全景,無需拼接;而視角分支則利用SD豐富的視角圖像生成能力,并提供指導(dǎo)以減輕視角投影下的變形。這兩個分支在擴(kuò)散過程中共同工作,生成一個去噪的全景潛在映射。最后,這個潛在映射通過SD的預(yù)訓(xùn)練解碼器D運行,以產(chǎn)生最終的全景圖像。
在仔細(xì)檢查 SD 模型后,本文發(fā)現(xiàn)循環(huán)不一致主要是由于 UNet 主干中的卷積層引起的,因為缺乏一種機(jī)制來在全景圖像的兩端傳遞信息。因此,本文對 UNet 進(jìn)行了調(diào)整,通過在每個卷積層之前添加額外的環(huán)形填充,然后將輸出特征圖裁剪到原始大小。此外,本文還在解碼前對潛在映射添加環(huán)形填充,以減輕解碼器引起的較不明顯的環(huán)路不一致。上述技術(shù)的組合——潛在旋轉(zhuǎn)和環(huán)形填充——使得生成環(huán)路一致的結(jié)果幾乎不增加計算成本,因此可以作為另一個強(qiáng)大的基線。然而,這些措施本身并沒有充分利用 SD 擁有的視角生成能力。
EPP注意力機(jī)制
本文在交叉注意力的輸出處添加了初始化為零的 1×1 卷積層,并將其作為殘差加到目標(biāo)特征圖上。這確保了UNet在訓(xùn)練初期保持未修改狀態(tài),并可以逐漸適應(yīng)EPPA模塊。本文在UNet的每個下采樣層之后和每個上采樣層之前加入獨立的EPPA模塊,以連接兩個分支,詳細(xì)內(nèi)容在補(bǔ)充材料中??紤]到指導(dǎo)信息是根據(jù)相同的等距圓柱-透視投影規(guī)則在兩個方向上傳遞的,這種規(guī)則在本質(zhì)上是雙射的,本文共享兩個方向上EPPA模塊的權(quán)重。
布局條件生成
在全景生成的重要應(yīng)用之一是根據(jù)給定的房間布局生成全景。這對于全景新視角合成特別有用,并且可能對室內(nèi)3D場景生成有益。然而,這個問題對于基于擴(kuò)散的全景生成來說還沒有得到充分的研究,主要是因為在同時利用SD在透視格式中的豐富先驗知識時,引入布局約束存在困難。對于從多視角生成全景,一個簡單的解決方案是將布局條件投影到不同視圖中,以局部地控制透視圖像的生成。相反,對于本文的雙分支擴(kuò)散模型,本文可以自然地利用全景分支的全局性質(zhì)來強(qiáng)制執(zhí)行更強(qiáng)的布局約束。具體來說,本文將布局條件渲染為距離圖,然后使用它作為ControlNet的輸入來約束全景分支。
訓(xùn)練
實驗
實驗設(shè)置
數(shù)據(jù)集。本文遵循 MVDiffusion使用 Matterport3D 數(shù)據(jù)集,該數(shù)據(jù)集包含了10,800幅全景圖像和2,295個房間布局注釋。本文使用 BLIP-2 為每幅圖像生成簡短的描述。
實現(xiàn)細(xì)節(jié)。對于文本條件生成,保持訓(xùn)練和推理計劃與 MVDiffusion相同,以便進(jìn)行公平比較。對于文本-布局條件生成,本文在其他參數(shù)固定的情況下訓(xùn)練額外的 ControlNet。
評估指標(biāo)。按照之前的工作,本文評估全景和透視域中的圖像質(zhì)量。對于布局條件生成,本文提出一個新的指標(biāo)來評估生成的全景圖像如何遵循輸入布局。具體來說,本文使用以下指標(biāo):
- 全景圖。本文遵循 Text2Light 報告全景圖像的 Fréchet Inception Distance (FID) 和 Inception Score (IS),以衡量現(xiàn)實感和多樣性。此外,還使用 CLIP Score (CS) 來評估文本與圖像的一致性。雖然 FID 廣泛用于圖像生成,但它依賴于一個在透視圖像上訓(xùn)練的 Inception 網(wǎng)絡(luò),因此對全景圖像不太適用。因此,為了更好地比較現(xiàn)實感,使用了專為全景定制的 FID 變體,即 Fréchet Auto-Encoder Distance (FAED) 。
- 透視視圖。為了模擬用戶可以自由導(dǎo)航全景并從不同透視視圖查看的真實世界場景,本文也報告了20個隨機(jī)抽樣視圖的 FID 和 IS,以與生成 180°垂直視場的方法進(jìn)行比較。本文還遵循 MVDiffusion 報告 8 個水平抽樣視圖的 FID、IS 和 CS 分?jǐn)?shù)。值得注意的是,這組指標(biāo)偏好 MVDiffusion,因為它是通過測量其直接輸出來實現(xiàn)的,而本文的方法涉及透視視圖的插值。
- 布局一致性。本文提出了一個布局一致性指標(biāo),該指標(biāo)使用布局估計網(wǎng)絡(luò) HorizonNet 來估計從生成的全景中的房間布局,然后計算其與輸入布局條件的 2D IoU 和 3D IoU。
對比先前方法
Baseline。本文將其提出的 PanFusion 與以下 baseline 進(jìn)行比較(詳情見原文補(bǔ)充材料):
- MVDiffusion 利用多視圖擴(kuò)散模型生成 8 個水平視圖,這些視圖可以拼接成具有 90°垂直視場的全景。它在訓(xùn)練時需要單獨的prompt,同時提供從單一prompt生成的選項。
- Text2Light 從文本prompt中生成 180° 垂直視場的全景,采用兩階段自回歸方式。
- SD+LoRA 是本文的 baseline 模型,它使用 LoRA 對Stable Diffusion模型(Stable Diffusion)進(jìn)行finetuning,用于全景圖像。
- 全景分支是 SD+LoRA,其中包括第 3.2 節(jié)描述的額外修改,以確保循環(huán)一致性。
定量結(jié)果。上表1展示了定量比較結(jié)果。在這里,本文將真實感賦予圖像生成中的最高價值,通過 FAED 和 FID 來衡量。在這兩個指標(biāo)上,本文的方法在全景和透視兩方面都超過了基準(zhǔn)方法。對于 IS,本文的方法的表現(xiàn)略低于基準(zhǔn)。這可能是因為 IS 評估生成圖像中對象的多樣性,使用分類器進(jìn)行評估,而本文的模型與基準(zhǔn)模型不同,傾向于不生成意外的對象。類似地,可以說基準(zhǔn)模型呈現(xiàn)略高的 CS 是因為對象的重復(fù)加強(qiáng)了與prompt的對齊。考慮到 SD+LoRA 在 FAED 上優(yōu)于全景分支,并且在其他指標(biāo)上不相上下,本文只在下面與 SD+LoRA 進(jìn)行定性比較。
定性結(jié)果。下圖4展示了定性比較結(jié)果。由于缺乏左右邊界之間的信息傳遞,Text2Light 和 SD+LoRA 可以觀察到循環(huán)不一致性。它們還受到透視視圖中線條扭曲的影響,這意味著生成的全景圖未能遵循正確的等距圓柱投影。另一方面,MVDiffusion 遭受重復(fù)對象和不合理家具布局的問題,這可能是因為缺乏全局上下文。本文的方法生成了最逼真的場景,并且在文本條件下的對齊性最好,透視視圖中的扭曲也較少。
消融研究
在上文和下表中,本文展示了所提出的完整模型比 Pano Branch(本文方法的baseline 模型,不含透視分支)的表現(xiàn)更好。在這里,如下表2和下圖5所示,本文進(jìn)一步進(jìn)行了消融研究,以驗證本文方法中每個組件的有效性。為了保持一致的比較,本文通過采樣相同的噪聲進(jìn)行潛在地圖初始化,在不同的消融版本之間保持布局相似。
聯(lián)合潛在地圖初始化。 本文通過分別初始化全景和透視分支的潛在地圖來消融聯(lián)合潛在地圖初始化。在所有指標(biāo)和定性結(jié)果中都可以觀察到顯著的性能下降,這證明了聯(lián)合潛在地圖初始化的重要性。有趣的是,本文的聯(lián)合版本在 FID 上甚至比 Pano Branch 還要差。這可能是因為聯(lián)合潛在地圖初始化幫助相應(yīng)的像素從擴(kuò)散過程開始就共享類似的噪聲分布,這對于 EPPA 對齊重疊區(qū)域的內(nèi)容至關(guān)重要。
EPP SPE 和注意力mask。從 EPPA 模塊中去除了球形位置編碼(Ours-SPE)和注意力mask(Ours-mask)。從表2可以看到,缺少 SPE 對 FAED 和 FID 產(chǎn)生了負(fù)面影響,這可能是因為 SPE 幫助模型學(xué)習(xí)兩個分支之間像素的相對位置。而缺少注意力遮罩雖然使 FID 有所改善,但卻對 FAED 產(chǎn)生了不利影響,F(xiàn)AED 更準(zhǔn)確地評估了全景的質(zhì)量,因為它是為目標(biāo)數(shù)據(jù)集定制的。這兩種情況都會導(dǎo)致圖像中出現(xiàn)明顯的點光源周圍的偽影、地面紋理的不一致性,以及高亮投影中的扭曲,如圖5所示。
雙射 EPPA。本文對雙射 EPPA(Ours-bijective)進(jìn)行了消融實驗,使用了 EPPA 模塊中兩個方向的獨立參數(shù)。Ours-bijective 的 FAED 和 FID 表現(xiàn)均有下降。此外,消融版本在圖5中的走廊兩個方向上生成一致的地板和天花板紋理方面存在困難。相反,本文的完整模型能夠生成具有一致風(fēng)格的地板和天花板,顯示出對場景的更好的全局理解。
應(yīng)用:布局條件生成
為了展示本文的方法在生成具有額外布局條件的全景圖像方面的優(yōu)勢,根據(jù)前文的描述,在MVDiffusion中添加了一個ControlNet來構(gòu)建基線模型。本文將布局條件渲染成距離圖,然后將其投影到透視視圖中,以此來約束多視圖圖像的生成。訓(xùn)練設(shè)置與本文的PanFusion保持一致。
如下表3所示,本文的方法在布局一致性上超越了基線模型,同時保持了透視投影的真實性優(yōu)勢。將布局條件以線框形式疊加在生成的全景圖像上,可以在上圖6中看到,本文生成的全景圖像更好地遵循了它們的布局條件,特別是在透視視圖中突出顯示。更多細(xì)節(jié)請參考原文補(bǔ)充材料。
結(jié)論
PanFusion,這是一種新穎的文本到360度全景圖像生成方法,可以從單一文本prompt生成高質(zhì)量的全景圖像。特殊之處在于,引入了一種雙分支擴(kuò)散架構(gòu),以利用Stable Diffusion在透視領(lǐng)域的先驗知識,同時解決了先前工作中觀察到的重復(fù)元素和不一致問題。此外,還引入了一個EPPA模塊,以增強(qiáng)兩個分支之間的信息傳遞。本文還擴(kuò)展了PanFusion用于布局條件的全景圖像生成的應(yīng)用。全面的實驗表明,PanFusion能夠生成具有更好真實感和布局一致性的高質(zhì)量全景圖像,優(yōu)于以前的方法。
限制。盡管PanFusion的雙分支架構(gòu)結(jié)合了全景和透視領(lǐng)域的優(yōu)勢,但它也帶來了更高的計算復(fù)雜性。此外,本文的方法有時無法生成室內(nèi)場景的入口,如圖7所示,這對于虛擬旅游等用例來說是必需的。
參考文獻(xiàn)
[1] Taming Stable Diffusion for Text to 360? Panorama Image Generation
本文轉(zhuǎn)自 AI生成未來 ,作者:Cheng Zhang等
