AI2驚艷發(fā)布OneDiffusion:突破性大規(guī)模擴(kuò)散模型,支持多任務(wù)生成與理解,重塑視覺AI應(yīng)用 精華
文章鏈接:https://arxiv.org/pdf/2411.16318
項目鏈接:https://github.com/lehduong/OneDiffusion
亮點直擊
- 統(tǒng)一的多任務(wù)能力:OneDiffusion 提出了一個統(tǒng)一的擴(kuò)散模型,能夠無縫支持圖像合成和理解的雙向任務(wù)。它通過簡單靈活的框架,實現(xiàn)了多種任務(wù)(如文本到圖像生成、深度估計、多視角生成等)的處理,而無需依賴外部模塊或額外損失函數(shù)。
- 創(chuàng)新的訓(xùn)練方法:OneDiffusion 采用了基于序列數(shù)據(jù)的訓(xùn)練方法,將所有任務(wù)視為不同噪聲級別的幀序列進(jìn)行訓(xùn)練,使得模型能夠在推理時使用任意幀作為條件輸入。這種方法增強(qiáng)了模型的通用性和可擴(kuò)展性。
- 高效的數(shù)據(jù)集與訓(xùn)練:為了支持多任務(wù)的聯(lián)合訓(xùn)練,OneDiffusion 使用了 One-Gen 數(shù)據(jù)集,集成了來自多個來源的高質(zhì)量數(shù)據(jù),包括文本到圖像生成、深度估計、分割等任務(wù)的數(shù)據(jù)。該數(shù)據(jù)集為模型提供了多樣化的條件設(shè)置,提高了模型的泛化能力。
- 強(qiáng)大的性能與通用性:OneDiffusion 在多項生成和預(yù)測任務(wù)上展示了優(yōu)異的性能。在文本到圖像生成、多視角生成、深度估計等任務(wù)中,OneDiffusion 的表現(xiàn)與專門設(shè)計的最新方法相媲美,且模型能夠處理不同分辨率的任務(wù),具備強(qiáng)大的零-shot生成能力。
總結(jié)速覽
解決的問題
OneDiffusion 解決了跨任務(wù)的雙向圖像合成與理解問題,能夠處理多種圖像生成與理解任務(wù),如文本到圖像生成、圖像去模糊、圖像超分辨率、深度估計、語義分割等。此外,它還支持多視角生成、相機(jī)姿勢估計和通過連續(xù)圖像輸入進(jìn)行即時個性化。
提出的方案
OneDiffusion 采用了一種統(tǒng)一的訓(xùn)練框架,將所有任務(wù)視為具有不同噪聲尺度的幀序列,這使得每個幀都可以在推理時作為條件圖像。通過這種方式,該模型可以無縫支持多任務(wù)訓(xùn)練并適應(yīng)不同的分辨率,而無需專門的架構(gòu)。
應(yīng)用的技術(shù)
- 多任務(wù)訓(xùn)練框架:將任務(wù)視為幀序列處理,支持不同的任務(wù)條件,如文本、深度、姿態(tài)、布局和語義圖等。
- 圖像生成與理解:通過圖像去模糊、超分辨率、深度估計等技術(shù)實現(xiàn)圖像生成與理解。
- 多視角生成與相機(jī)姿勢估計:支持基于多個視角生成圖像,進(jìn)行相機(jī)姿勢估計,并允許即時個性化。
達(dá)到的效果
實驗結(jié)果表明,OneDiffusion 在生成和預(yù)測任務(wù)中具有競爭力的表現(xiàn),尤其在文本到圖像生成、多視角生成、ID 保持、深度估計和相機(jī)姿勢估計等任務(wù)中,盡管訓(xùn)練數(shù)據(jù)集相對較小,仍能展現(xiàn)出良好的泛化能力和可擴(kuò)展性。
方法論
生成建模中的流匹配
該目標(biāo)等同于原始的流匹配目標(biāo),只需要目標(biāo)分布的樣本和適當(dāng)?shù)臈l件概率路徑。
提出的方案
訓(xùn)練
實現(xiàn)細(xì)節(jié)
模型架構(gòu)
按照 [72],還使用了 3D RoPE 進(jìn)行位置編碼,從而實現(xiàn)對不同分辨率和長寬比的泛化。
文生圖(單視圖)
在只有一個“視圖”的情況下,訓(xùn)練和推理過程與標(biāo)準(zhǔn)的文本到圖像擴(kuò)散模型相同。我們在標(biāo)題前添加任務(wù)標(biāo)簽 ???[[text2image]]?
? 來指定任務(wù)。
圖生圖(雙視圖)
將第一個視圖設(shè)置為目標(biāo)圖像,第二個視圖作為條件輸入。在推理過程中,可以使用一個或兩個視圖進(jìn)行生成,模型被訓(xùn)練以生成目標(biāo)圖像。對于生成邊界框或語義圖等任務(wù),在提示中添加十六進(jìn)制顏色代碼和類別標(biāo)簽。例如,要分割一只帶有黃色遮罩的鼠標(biāo),提示為:
???[[semantic2image]] <#FFFF00 yellow mask: mouse> photo of a ...?
?進(jìn)一步的細(xì)節(jié)見附錄。
身份定制(2-4 視圖)
從同一人的多個視圖中采樣圖像,將每張輸入圖像的標(biāo)題拼接在一起,并用標(biāo)記 ???[[imgX]]?
?? 表示每張圖像。還在標(biāo)題前添加任務(wù)標(biāo)簽 ??[[faceid]]?
?。在推理時,可以基于任意數(shù)量的圖像進(jìn)行條件生成,從而生成多個輸出,提升一致性。
多視圖生成(4-12 視圖)
訓(xùn)練細(xì)節(jié)
訓(xùn)練期間的策略
One-Gen 數(shù)據(jù)集
文生圖
- 公共數(shù)據(jù)集:PixelProse、Unsplash、Coyo 和 JourneyDB。
- 內(nèi)部數(shù)據(jù)集:包含 1000 萬張圖片,使用 LLaVA-NeXT 和 Molmo 對圖像重新生成的描述。每張圖像的文本描述長度為 100-150 個單詞。如果存在原始提示詞,我們會同時使用生成的描述和原始描述。
圖生圖
- 簡單任務(wù):如去模糊、修復(fù)、基于 Canny 邊緣生成圖像或超分辨率,使用 100 萬條合成數(shù)據(jù)子集,并為每張圖像應(yīng)用相關(guān)預(yù)處理器生成輸入條件。
- 復(fù)雜任務(wù):根據(jù)以下流程使用 Midjourney、Stable Diffusion 和 Flux-dev 生成的輸出創(chuàng)建合成數(shù)據(jù)集:
- 收集包含 5 萬張主要以人體為主的圖片子集,用于姿態(tài)條件生成。
- 使用 YOLOv5 檢測感興趣區(qū)域的邊界框,并使用 ViTPose 進(jìn)行姿態(tài)估計。
- 使用 DepthAnything-v2 對來自多個數(shù)據(jù)集(包括真實和合成圖像)的 50 萬張圖片生成深度圖。
- 此外,我們對來自 Hypersim 數(shù)據(jù)集 的 4 萬張圖片進(jìn)行標(biāo)注,使用 LLaVA-NeXT 生成描述,將其整合到訓(xùn)練集中。
- 對每張圖像,使用 LLaVA-NeXT識別實體或主體(如人、襯衫、狗、建筑物),每張圖像最多識別 10 個實體。
- 基于 LLaVA-Next 提供的主體名稱,使用 SAM 進(jìn)行語義分割并提取邊界框。
- 每個類別從預(yù)定義列表中隨機(jī)分配一種顏色。
- 數(shù)據(jù)集包含 35 萬組三元組(語義地圖、邊界框和原始圖像)。
- 語義圖和檢測:
- 深度圖(Depth Map):
- 人體姿態(tài) (Human Poses):
身份定制 (ID Customization)
收集了來自游戲、電影和公共可用圖像的名人和角色數(shù)據(jù)集。
- 數(shù)據(jù)過濾:確保每個主體至少有 4 張圖像,并去除 NSFW 內(nèi)容。
- 數(shù)據(jù)規(guī)模:包含大約 6 萬名主體和 130 萬張圖像。
- 標(biāo)注:通過 LLaVA-NeXT 生成圖像的描述。
多視圖生成 (Multiview Generation)
- 數(shù)據(jù)集:DL3DV-10K、Objaverse 和 CO3D。
- Objaverse 數(shù)據(jù)集:使用 LGM 提供的過濾后 8 萬樣本分割及 Cap3D 提供的描述。
- DL3DV 數(shù)據(jù)集:從每個場景中隨機(jī)采樣一張圖像,并使用 LLaVA-Next 生成描述。
- CO3D 數(shù)據(jù)集:排除描述,僅在文本輸入中包含任務(wù)標(biāo)簽。
實驗
本節(jié)評估 OneDiffusion 模型在廣泛的圖像生成和理解任務(wù)上的性能。所有結(jié)果均未進(jìn)行任務(wù)特定的微調(diào)。
文本到圖像 (Text-to-Image)
下圖 3 展示了 OneDiffusion 在文本到圖像任務(wù)中的定性結(jié)果。得益于 One-Gen 數(shù)據(jù)集的多樣性,模型能夠處理各種藝術(shù)風(fēng)格,包括藝術(shù)化設(shè)計和逼真的視覺效果。
遵循前期研究的方法,在 GenEval 基準(zhǔn)測試上評估模型的文本到圖像能力。
- 對于每個提示詞,使用Euler 求解器生成 4 張圖像,采樣步數(shù)為 100,指導(dǎo)因子為 5。
- 結(jié)果:OneDiffusion 的性能與基線模型對比見下表 1。
- 分析:盡管訓(xùn)練數(shù)據(jù)量相對較小,模型表現(xiàn)出較強(qiáng)的性能,尤其在多任務(wù)能力上表現(xiàn)優(yōu)異。這主要歸功于數(shù)據(jù)集的多樣性以及為每個樣本提供的全面描述。
可控圖像生成 (Controllable Image Generation)
使用多個源域(如 HED 邊緣圖、深度圖、人類姿態(tài)、語義地圖、邊界框)進(jìn)行圖像到圖像轉(zhuǎn)換實驗。
- 定性結(jié)果見下圖 4 和下圖 19。
- 結(jié)果:OneDiffusion 在生成過程中能夠有效對齊輸入條件圖像,適應(yīng)各種輸入條件。這得益于模型的純注意力機(jī)制以及描述信息的輔助作用。
多視圖生成 (Multiview Generation)
使用 Google Scanned Object 數(shù)據(jù)集 評估多視圖生成能力。
- 下表 2 展示了 OneDiffusion 與當(dāng)前最先進(jìn)方法(包括 Zero123 、Zero123-XL 和 EscherNet)的對比結(jié)果。
- 對比特點:
- 這些基線模型專為多視圖生成任務(wù)設(shè)計并經(jīng)過專門訓(xùn)練。
- OneDiffusion 的優(yōu)勢:支持可變數(shù)量的條件輸入,并且其靈活的去噪框架能夠在相機(jī)位姿未知的情況下,整合額外的條件視圖。
多視圖生成 (Multiview Generation)
如上面表 2 所示,OneDiffusion 在單視圖條件下(1-view)性能顯著優(yōu)于 Zero123 和 Zero123-XL。此外,即使在相機(jī)位姿未知的情況下,OneDiffusion 依然表現(xiàn)出較強(qiáng)的生成能力。例如:
- 在2-view條件下:
- 未知相機(jī)位姿時,PSNR 為 19.83。
- 已知相機(jī)位姿時,PSNR 為 20.22,僅略有下降。
- 在3-view條件下:
- 未知相機(jī)位姿時,PSNR 為 20.64。
- 已知相機(jī)位姿時,PSNR 為 21.79。
總結(jié):這些結(jié)果表明,OneDiffusion 對多種輸入條件具有高度適應(yīng)性和生成效果的穩(wěn)定性,突顯了其在多視圖生成中的實際應(yīng)用潛力。
下圖 5 提供了從單個前視圖圖像生成多視圖的兩個定性示例,顯示模型能夠在不同方位角和仰角之間生成一致的視圖。更多可視化結(jié)果見下圖 10 和圖 11。
- 靈活性優(yōu)勢:通過對所有圖像進(jìn)行“mask”并僅輸入相機(jī)位姿,我們還可以直接執(zhí)行文本到多視圖生成(見下圖 12)。
身份定制 (ID Customization)
進(jìn)一步評估了 OneDiffusion 在身份定制任務(wù)中的表現(xiàn),該任務(wù)使用一個或多個身份圖像作為輸入進(jìn)行個性化生成。
- 對比方法:InstantID、PuLID 和 PhotoMaker。
- 評估維度:包括定性和定量分析,測試范圍超越標(biāo)準(zhǔn)基準(zhǔn)(unsplash-50),涵蓋了表情變化、視角變化甚至非人類圖像的生成能力。
下圖 6 展示了以下示例:
- 表情和視線方向變化(第一行)。
- 視角變化(第二行)。
- 非人類身份定制(第三行)。
結(jié)果:
- 優(yōu)勢:OneDiffusion 成功完成這些任務(wù),而其他方法均未能達(dá)到類似效果。
- 創(chuàng)新點:
- 與基于面部嵌入的傳統(tǒng)方法相比(這些方法主要“復(fù)制”原始面部),OneDiffusion 通過圖像與文本條件之間的注意力機(jī)制實現(xiàn)了靈活的端到端訓(xùn)練。
- 生成的輸出更具表現(xiàn)力,適用于更廣泛的應(yīng)用場景。
此外,確保一致多視圖生成的機(jī)制在身份定制中也能有效調(diào)整相機(jī)角度,這進(jìn)一步展示了模型在相關(guān)應(yīng)用中的適應(yīng)性。更多可視化結(jié)果見下圖 13 和圖 14。
定量結(jié)果:在 Unsplash-50 基準(zhǔn)上呈現(xiàn)了定量結(jié)果(見下表 3)。
- 對比分析:
- PuLID 通過從 ID 編碼器網(wǎng)絡(luò)(訓(xùn)練于人臉辨識任務(wù))中提取嵌入,有效保留了輸入圖像的身份特征。
- 然而,該方法在處理復(fù)雜的面部操控任務(wù)時面臨顯著局限性。
- OneDiffusion 優(yōu)勢:在保留身份特征的同時,支持更復(fù)雜的生成任務(wù),表現(xiàn)出更強(qiáng)的靈活性和生成能力。
深度估計 (Depth Estimation)
在圖像理解任務(wù)中評估了 OneDiffusion 模型在單目深度估計上的表現(xiàn),使用了標(biāo)準(zhǔn)基準(zhǔn):NYUv2和 DIODE。定量結(jié)果見下表 4。
- 定量結(jié)果:本文的模型與基于預(yù)訓(xùn)練文本到圖像擴(kuò)散模型(如 Marigold)的基線相比,展現(xiàn)了具有競爭力的性能。
- 模型優(yōu)勢:如下圖 7 所示,OneDiffusion 在處理基于擴(kuò)散的深度估計模型(例如 Marigold)時表現(xiàn)得更為穩(wěn)健。特別地,OneDiffusion 在處理開放世界圖像時表現(xiàn)優(yōu)異,包括繪畫作品、霧霾天氣和非常規(guī)紋理。
- 更多比較:有關(guān)進(jìn)一步的定性比較,請見下圖 15 和圖 16。
相機(jī)位姿估計 (Camera Pose Estimation)
使用 Google Scanned Object 數(shù)據(jù)集 對模型進(jìn)行了相機(jī)位姿估計任務(wù)評估。
- 任務(wù)描述:對于此任務(wù),我們使用每個合成物體的六張渲染圖像,并通過去噪相應(yīng)的光線嵌入來估計相機(jī)位姿。
- 優(yōu)化方法:采用 RayDiffusion 中的最小二乘優(yōu)化方法來估計相機(jī)中心和旋轉(zhuǎn)。
- 準(zhǔn)確度評估:以 0.3 的閾值衡量相機(jī)中心的準(zhǔn)確度,定量結(jié)果見表 5。
結(jié)果對比:
- 下圖 8 提供了本文模型與 RayDiffusion 的定性比較。
- RayDiffusion 局限性:RayDiffusion 始終預(yù)測上半球的相機(jī)位姿,這是由于其訓(xùn)練數(shù)據(jù)(如 CO3D)偏向上半球視角。
- OneDiffusion 優(yōu)勢:得益于大規(guī)模多樣化的訓(xùn)練數(shù)據(jù)集,OneDiffusion 在避免這一偏差的同時,取得了更高的準(zhǔn)確度。
其他任務(wù) (Other Tasks)
由于直接從原始輸出圖像中提取mask、邊界框和關(guān)鍵點并不直接,提供了在 COCO 數(shù)據(jù)集上進(jìn)行人體姿態(tài)估計和語義分割的定性結(jié)果。
- 任務(wù)說明:我們在附錄中展示了這些定性結(jié)果,分別見下圖 17 和圖 18。
- 模型特點:由于本文的模型在訓(xùn)練時不區(qū)分條件和圖像任務(wù),它在理解任務(wù)中的表現(xiàn)也為模型的額外評估提供了有價值的信息。
- 未來方向:計劃在未來的工作中進(jìn)一步探索這一方面的研究。
結(jié)論
OneDiffusion 在多個任務(wù)中取得了令人印象深刻的結(jié)果,包括條件化文本到圖像生成(T2I)、深度估計、開放詞匯語義分割、姿態(tài)估計、多視圖生成、身份定制和相機(jī)位姿估計。
- 貢獻(xiàn)與影響:這項工作推進(jìn)了擴(kuò)散模型的能力,提供了一種多功能且可擴(kuò)展的解決方案,與大語言模型所提供的靈活性相媲美。
- 展望:這標(biāo)志著向開發(fā)通用視覺模型邁出了重要一步,這種模型能夠作為多種應(yīng)用的基礎(chǔ)設(shè)施。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
