讓多視角圖像生成更輕松!北航和VAST推出MV-Adapter
本文的主要作者來自北京航空航天大學(xué)、VAST 和上海交通大學(xué)。本文的第一作者為北京航空航天大學(xué)碩士生黃澤桓,主要研究方向?yàn)樯墒饺斯ぶ悄芎腿S視覺。本文的通訊作者為 VAST 首席科學(xué)家曹炎培和北京航空航天大學(xué)副教授盛律。
最近,2D/3D 內(nèi)容創(chuàng)作、世界模型(World Models)似乎成為 AI 領(lǐng)域的熱門關(guān)鍵詞。作為計(jì)算機(jī)視覺的基礎(chǔ)任務(wù)之一,多視角圖像生成是上述熱點(diǎn)方向的技術(shù)基礎(chǔ),在 3D 場(chǎng)景生成、虛擬現(xiàn)實(shí)、具身感知與仿真、自動(dòng)駕駛等領(lǐng)域展現(xiàn)了廣泛的應(yīng)用潛力。
近期多視角圖像生成工作大多在 3D 數(shù)據(jù)集上微調(diào)文生圖模型或視頻生成模型,但這些方法在兼容大規(guī)?;A(chǔ)模型和生成高分辨率圖像方面面臨諸多挑戰(zhàn),表現(xiàn)在難以支持更大基礎(chǔ)模型(如 SDXL),難以生成超過 512 分辨率的多視角圖像,以及高質(zhì)量 3D 訓(xùn)練數(shù)據(jù)稀缺而導(dǎo)致的出圖質(zhì)量下降??偟膩碚f,這些方法的局限性主要源自對(duì)基礎(chǔ)模型的侵入性修改和全模型微調(diào)的復(fù)雜性。
因此,北航、VAST、上海交通大學(xué)團(tuán)隊(duì)推出面向通用多視圖生成任務(wù)的第一個(gè)基于 Adapter 的解決方案(MV-Adapter)。通過高效的新型注意力架構(gòu)和統(tǒng)一的條件編碼器,MV-Adapter 在避免訓(xùn)練圖像基礎(chǔ)模型的前提下,實(shí)現(xiàn)了對(duì)多視圖一致性和參考圖像主體相關(guān)性的高效建模,并同時(shí)支持對(duì)視角條件和幾何條件的編碼。
總結(jié)來說,MV-Adapter 的功能如下:
- 支持生成 768 分辨率的多視角圖像(目前最高)
- 完美適配定制的文生圖模型、潛在一致性模型(LCM)、ControlNet 插件等,實(shí)現(xiàn)多視圖可控生成
- 支持文生和圖生多視圖(而后重建 3D 模型),或以已知幾何引導(dǎo)來生成高質(zhì)量 3D 貼圖
- 實(shí)現(xiàn)任意視角生成
- 論文題目:MV-Adapter: Multi-view Consistent Image Generation Made Easy
- 論文鏈接:https://arxiv.org/abs/2412.03632
- 項(xiàng)目主頁:https://huanngzh.github.io/MV-Adapter-Page/
- 代碼倉(cāng)庫:https://github.com/huanngzh/MV-Adapter
- 在線 Demo:
- 單圖生成多視圖:https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
- 文字生成二次元風(fēng)格的多視圖:https://huggingface.co/spaces/huanngzh/MV-Adapter-T2MV-Anime
- 貼圖 Demo 敬請(qǐng)期待
MV-Adapter 效果演示
在了解 MV-Adapter 技術(shù)細(xì)節(jié)前,先來看看它的實(shí)際表現(xiàn)。
首先是文字生成多視角圖像的能力。MV-Adapter 不僅支持訓(xùn)練時(shí)所采用的 SDXL 基礎(chǔ)模型,還能適配經(jīng)過定制訓(xùn)練后的文生圖模型(例如二次元等風(fēng)格模型)、潛在一致性模型(LCM)、ControlNet 插件等,大大提升了多視圖生成的可控性和定制化程度,這是以往多視圖生成模型難以做到的。
MV-Adapter 還能支持單張圖像到多視角圖像的生成,其生成的結(jié)果與輸入圖像具有高度的 ID 一致性。
下面是使用 MV-Adapter 從文字生成的多視角圖像重建 3D 物體的結(jié)果,可以看到,因?yàn)?MV-Adapter 生成圖像的多視角一致性高,其重建的幾何結(jié)果也都較為出色。
下面是使用 MV-Adapter 從單張圖像生成多視角圖像后,重建 3D 物體的結(jié)果。
此外,MV-Adapter 還支持給已知 mesh 幾何生成對(duì)應(yīng)貼圖,下面是從文字條件和單張圖像條件生成的 3D 貼圖結(jié)果,可以看到,其生成的貼圖結(jié)果質(zhì)量很高,且和輸入的條件匹配程度高。
MV-Adapter 還能輕易擴(kuò)展至任意視角生成,下面是生成 40 個(gè)俯仰角從低到高的結(jié)果,可以看到,盡管視角數(shù)量提升,MV-Adapter 仍能生成多視角一致的圖像。
整體而言,MV-Adapter 做出了以下貢獻(xiàn):
- 提出了面向通用多視圖生成的第一個(gè)適配器解決方案,大大提高效率,且支持更大尺度的基礎(chǔ)模型以獲得更高的性能。
- 引入了一個(gè)創(chuàng)新的注意力架構(gòu)和通用的條件編碼器,可以有效地對(duì) 3D 幾何知識(shí)進(jìn)行建模,并支持 3D 生成和紋理生成等多種應(yīng)用。
- MV-Adapter 可以擴(kuò)展至從任意視點(diǎn)生成圖像,從而促進(jìn)更廣泛的下游任務(wù)。
- MV-Adapter 提供了一個(gè)解耦學(xué)習(xí)框架,為建模新類型的知識(shí)(例如物理或時(shí)序知識(shí))提供了見解。
多視圖適配器 MV-Adapter
MV-Adapter 是一種即插即用的適配器,它可學(xué)習(xí)多視圖先驗(yàn),無需進(jìn)行特定調(diào)整即可將其遷移到文生圖模型及其衍生模型中,使其在各種條件下生成多視圖一致的圖像。在推理時(shí),我們的 MV-Adapter 包含條件引導(dǎo)器和解耦的注意層,可以直接插入定制化的基礎(chǔ)模型中,以構(gòu)成多視圖生成器。
通用的條件引導(dǎo)器
為了支持多視角圖像生成任務(wù),我們?cè)O(shè)計(jì)了一個(gè)通用的條件引導(dǎo)器,能夠同時(shí)編碼相機(jī)和幾何信息,從而為文生圖模型提供不同類型的引導(dǎo)。相機(jī)條件化采用 “光線圖”(raymap)表示,相機(jī)的位置和方向信息被精確編碼,以便與預(yù)訓(xùn)練模型的潛在表示相匹配。幾何條件化則通過全局的幾何表示來引導(dǎo)生成,結(jié)合三維位置圖和法線圖的細(xì)節(jié)信息,捕捉物體的幾何特征,有助于提高圖像的紋理細(xì)節(jié)與真實(shí)感。條件引導(dǎo)器采用輕量級(jí)的卷積網(wǎng)絡(luò)設(shè)計(jì),有效整合不同尺度的多視角信息,確保模型能夠在多個(gè)層級(jí)上無縫結(jié)合條件輸入,進(jìn)一步提升生成效果和適應(yīng)性。
解耦的注意力層
我們提出了一種解耦的注意力機(jī)制,通過復(fù)制現(xiàn)有的空間自注意力層來引入新的多視角注意力層和圖像交叉注意力層。這一設(shè)計(jì)保留了原始網(wǎng)絡(luò)結(jié)構(gòu)和特征空間,避免了傳統(tǒng)方法對(duì)基礎(chǔ)模型進(jìn)行侵入式修改。在過去的研究中,為了建模多視角一致性,通常會(huì)直接修改自注意力層,這會(huì)干擾到模型的學(xué)習(xí)先驗(yàn)并需要進(jìn)行全模型微調(diào)。而我們通過復(fù)制原有自注意力層的結(jié)構(gòu)與權(quán)重,并將新層的輸出投影初始化為零,從而確保新層可以獨(dú)立學(xué)習(xí)幾何信息,而不會(huì)影響原有模型的特征空間。這樣一來,模型能夠在不破壞原有預(yù)訓(xùn)練特征的前提下,充分利用幾何信息,提升多視角生成的效果。
為了更高效地整合不同類型的注意力層,我們?cè)O(shè)計(jì)了一種并行的注意力架構(gòu)。在傳統(tǒng)的 T2I 模型中,空間自注意力層與文本交叉注意力層通過殘差連接串聯(lián)在一起,而我們的設(shè)計(jì)則將多視角注意力層與圖像交叉注意力層并行添加。這種并行架構(gòu)確保了新引入的注意力層能夠與預(yù)訓(xùn)練的自注意力層共享輸入特征,從而充分繼承原始模型的圖像先驗(yàn)信息。具體來說,輸入特征在經(jīng)過自注意力層后,還會(huì)同時(shí)傳遞給多視角注意力和圖像交叉注意力層,允許這些新層與原始自注意力層并行工作,并在學(xué)習(xí)多視角一致性和圖像條件生成時(shí),無需從零開始學(xué)習(xí)。通過這種方式,我們能夠在不破壞基礎(chǔ)模型特征空間的前提下,高效地?cái)U(kuò)展模型的能力,提升生成質(zhì)量和多視角一致性。
多視角注意力機(jī)制的具體實(shí)現(xiàn)。為了滿足不同應(yīng)用需求,我們?cè)O(shè)計(jì)了多種多視角注意力策略。針對(duì) 3D 物體生成,我們使模型能夠生成位于 0° 仰角的多視角圖像,并采用行級(jí)自注意力。對(duì)于 3D 紋理生成,考慮到視角覆蓋要求,除了在 0° 仰角生成四個(gè)均勻分布的視角外,我們還加入了來自上下方向的兩個(gè)視角。通過行級(jí)和列級(jí)自注意力相結(jié)合,實(shí)現(xiàn)了視角之間信息的高效交換。而在任意視角生成任務(wù)中,我們則采用全自注意力,進(jìn)一步提升了多視角注意力層的靈活性和表現(xiàn)力。這樣的設(shè)計(jì)使得生成效果更加精細(xì)、豐富,適應(yīng)了各種復(fù)雜的多視角生成需求。
圖像交叉注意力機(jī)制的具體實(shí)現(xiàn)。為了在生成過程中更精確地引導(dǎo)參考圖像信息,我們提出了一種創(chuàng)新的圖像交叉注意力機(jī)制,在不改變?cè)?T2I 模型特征空間的情況下,充分利用參考圖像的細(xì)節(jié)信息。具體而言,我們采用預(yù)訓(xùn)練且被凍結(jié)的文生圖 U-Net 模型作為圖像編碼器,將清晰的參考圖像輸入該 U-Net,并設(shè)置時(shí)間步 t=0,提取來自空間自注意力層的多尺度特征。這些細(xì)粒度的特征包含了豐富的主題信息,通過解耦的圖像交叉注意力層注入到去噪 U-Net 中,從而利用預(yù)訓(xùn)練模型學(xué)到的深層表示,實(shí)現(xiàn)對(duì)生成內(nèi)容的精準(zhǔn)控制。這一方法有效提升了生成質(zhì)量,并使得模型在細(xì)節(jié)控制上更加靈活和精確。
實(shí)驗(yàn)結(jié)果
文章首先評(píng)估了多視圖生成的性能,與現(xiàn)有方法進(jìn)行對(duì)比。具體來說,文章評(píng)估了由文字生成多視圖、由單張圖像生成的多視圖的質(zhì)量和一致性,可以看到,MV-Adapter 的結(jié)果都優(yōu)于現(xiàn)存方法。
文章還評(píng)估了使用 MV-Adapter 生成 3D 貼圖的表現(xiàn)。從下面的結(jié)果可以看出,MV-Adapter 不管是生成的質(zhì)量,還是推理的速度,都達(dá)到 SOTA 水平。
文章還對(duì)所提出的方法進(jìn)行了消融實(shí)驗(yàn),如下表所示,其驗(yàn)證了 MV-Adapter 訓(xùn)練的高效,以及其提出的并行注意力架構(gòu)的有效性。
此外,文章還在附錄部分探討了以下內(nèi)容:
- MV-Adapter 與 LoRA 的討論和分析
- MV-Adapter 原生的圖像修復(fù)能力
- MV-Adapter 的應(yīng)用價(jià)值
- 將 MV-Adapter 擴(kuò)展至任意視角圖像生成的實(shí)現(xiàn)細(xì)節(jié)
更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。