自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

北航 | 第一個多功能即插即用適配器MV-Adapter:輕松實現(xiàn)多視圖一致圖像生成

人工智能 新聞
論文提出了第一個基于適配器的多視圖圖像生成解決方案,并介紹了 MV-Adapter,這是一種多功能的即插即用適配器。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

北航提出了第一個多功能的即插即用適配器MV-Adapter。可以在不改變原有網(wǎng)絡(luò)結(jié)構(gòu)或特征空間的情況下增強T2I模型及其衍生模型。MV-Adapter 在 SDXL 上實現(xiàn)了高達(dá)768分辨率的多視圖圖像生成,并展示了出色的適應(yīng)性和多功能性。它還能擴(kuò)展到任意視角生成,為更廣泛的應(yīng)用打開了新大門。

下圖展示的第1行顯示了將 MV-Adapter 與個性化T2I、精煉的少步T2I 和 ControlNet 集成的結(jié)果,展示了其適應(yīng)性。第 2 行顯示了各種控制信號下的結(jié)果,包括使用文本或圖像輸入的視圖引導(dǎo)或幾何引導(dǎo)生成,展示了其多功能性。

圖片

相關(guān)鏈接

  • 代碼:https://github.com/huanngzh/MV-Adapter
  • 論文:https://arxiv.org/abs/2412.03632
  • 主頁:https://huanngzh.github.io/MV-Adapter-Page/
  • 試用:https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
  • ComfyUI:https://github.com/huanngzh/ComfyUI-MVAdapter

論文介紹

圖片MV-Adapter:輕松實現(xiàn)多視圖一致圖像生成

摘要

現(xiàn)有的多視圖圖像生成方法通常會對預(yù)訓(xùn)練的文本轉(zhuǎn)圖像 (T2I) 模型進(jìn)行侵入性修改并需要完全微調(diào),會導(dǎo)致以下問題:

  1. 計算成本高,尤其是對于大型基礎(chǔ)模型和高分辨率圖像。
  2. 由于優(yōu)化困難和高質(zhì)量 3D 數(shù)據(jù)稀缺而導(dǎo)致圖像質(zhì)量下降。

論文提出了第一個基于適配器的多視圖圖像生成解決方案,并介紹了 MV-Adapter,這是一種多功能的即插即用適配器,可在不改變原始網(wǎng)絡(luò)結(jié)構(gòu)或特征空間的情況下增強 T2I 模型及其衍生產(chǎn)品。通過更新更少的參數(shù),MV-Adapter 可以實現(xiàn)高效訓(xùn)練并保留預(yù)訓(xùn)練模型中嵌入的先驗知識,從而降低過度擬合風(fēng)險。

為了在適配器中有效地對 3D 幾何知識進(jìn)行建模,論文引入了創(chuàng)新設(shè)計,包括重復(fù)的自注意力層和并行注意力架構(gòu),使適配器能夠繼承預(yù)訓(xùn)練模型的強大先驗來對新穎的 3D 知識進(jìn)行建模。此外還提出了一個統(tǒng)一的條件編碼器,無縫集成了相機參數(shù)和幾何信息,促進(jìn)了基于文本和圖像的 3D 生成和紋理化等應(yīng)用。

MV-Adapter 在穩(wěn)定擴(kuò)散 XL (SDXL) 上實現(xiàn)了 768 分辨率的多視圖生成,并展示了適應(yīng)性和多功能性。它還可以擴(kuò)展到任意視圖生成,從而實現(xiàn)更廣泛的應(yīng)用。MV-Adapter 為多視圖圖像生成設(shè)定了新的質(zhì)量標(biāo)準(zhǔn),并因其效率、適應(yīng)性和多功能性開辟了新的可能性。

方法介紹

圖片MV-Adapter 是一個即插即用的適配器,它學(xué)習(xí)多視圖先驗,無需特殊調(diào)整即可轉(zhuǎn)移到 T2I 模型的衍生物,并使 T2I 能夠 在各種條件下生成多視圖一致的圖像。在推理時,MV-Adapter 包含條件引導(dǎo)器(黃色)和解耦的注意層(藍(lán)色),可以直接插入個性化或蒸餾的 T2I 中以構(gòu)成多視圖生成器。

圖片MV-Adapter 由兩部分組成:

  1. 對相機條件或幾何條件進(jìn)行編碼的條件引導(dǎo)器;
  2. 包含多視圖注意層的解耦注意層,用于學(xué)習(xí)多視圖一致性,以及可選的圖像交叉注意層以支持圖像條件生成

其中使用預(yù)先訓(xùn)練的 U-Net 對參考圖像進(jìn)行編碼以提取細(xì)粒度信息。

結(jié)果展示

文本到多視圖

圖片

圖像到多視圖

圖片

草圖到多視圖 (使用 ControlNet)

圖片

文本條件3D生成

圖片

圖像條件3D生成

圖片

文本條件紋理生成

圖片

圖像條件紋理生成

圖片

ComfyUI試用

將MV-Adapter集成到 ComfyUI 中,允許用戶直接在 ComfyUI 界面內(nèi)從文本提示或單個圖像生成多視圖一致的圖像。 具體可以參考上面的鏈接。

  • 支持與 SDXL LoRA 集成
  • 根據(jù)文本提示或單幅圖像生成多視角一致圖像

圖片圖片

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2024-12-18 15:20:00

視圖生成AI

2014-12-17 09:57:01

AndroidAdapteViewHolder

2021-04-07 13:38:27

Django項目視圖

2024-07-31 10:41:16

C#設(shè)計模式

2012-08-02 10:46:34

JavaAdapter模式

2024-08-05 14:17:59

大型語言模型適配器LLM

2009-09-14 09:36:19

Chrome多功能平臺谷歌

2016-03-17 14:26:09

QLogic

2024-02-22 12:13:49

適配器模式代碼

2025-02-10 07:30:00

malloc內(nèi)存分配器內(nèi)存

2013-12-10 09:44:00

網(wǎng)絡(luò)適配器卸載

2024-11-01 10:40:00

自動駕駛智能汽車

2022-05-29 22:55:00

適配器設(shè)計模式

2014-10-21 13:51:14

2009-11-18 18:08:20

PHP適配器模式

2022-02-18 17:21:29

適配器模式客戶端

2025-03-31 08:40:00

微服務(wù)OSS適配器

2020-10-25 08:56:21

適配器模式

2012-09-19 15:29:26

Worklight適配器

2023-09-21 22:43:17

Django框架
點贊
收藏

51CTO技術(shù)棧公眾號