自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

北航 | 第一個多功能即插即用適配器MV-Adapter：輕松實現(xiàn)多視圖一致圖像生成

作者：Zehuan Huang等 2025-01-07 10:00:00

人工智能新聞

論文提出了第一個基于適配器的多視圖圖像生成解決方案，并介紹了 MV-Adapter，這是一種多功能的即插即用適配器。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

北航提出了第一個多功能的即插即用適配器MV-Adapter。可以在不改變原有網(wǎng)絡(luò)結(jié)構(gòu)或特征空間的情況下增強T2I模型及其衍生模型。MV-Adapter 在 SDXL 上實現(xiàn)了高達(dá)768分辨率的多視圖圖像生成，并展示了出色的適應(yīng)性和多功能性。它還能擴(kuò)展到任意視角生成，為更廣泛的應(yīng)用打開了新大門。

下圖展示的第1行顯示了將 MV-Adapter 與個性化T2I、精煉的少步T2I 和 ControlNet 集成的結(jié)果，展示了其適應(yīng)性。第 2 行顯示了各種控制信號下的結(jié)果，包括使用文本或圖像輸入的視圖引導(dǎo)或幾何引導(dǎo)生成，展示了其多功能性。

相關(guān)鏈接

代碼：https://github.com/huanngzh/MV-Adapter
論文：https://arxiv.org/abs/2412.03632
主頁：https://huanngzh.github.io/MV-Adapter-Page/
試用：https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
ComfyUI：https://github.com/huanngzh/ComfyUI-MVAdapter

論文介紹

MV-Adapter：輕松實現(xiàn)多視圖一致圖像生成

摘要

現(xiàn)有的多視圖圖像生成方法通常會對預(yù)訓(xùn)練的文本轉(zhuǎn)圖像 (T2I) 模型進(jìn)行侵入性修改并需要完全微調(diào)，會導(dǎo)致以下問題：

計算成本高，尤其是對于大型基礎(chǔ)模型和高分辨率圖像。
由于優(yōu)化困難和高質(zhì)量 3D 數(shù)據(jù)稀缺而導(dǎo)致圖像質(zhì)量下降。

論文提出了第一個基于適配器的多視圖圖像生成解決方案，并介紹了 MV-Adapter，這是一種多功能的即插即用適配器，可在不改變原始網(wǎng)絡(luò)結(jié)構(gòu)或特征空間的情況下增強 T2I 模型及其衍生產(chǎn)品。通過更新更少的參數(shù)，MV-Adapter 可以實現(xiàn)高效訓(xùn)練并保留預(yù)訓(xùn)練模型中嵌入的先驗知識，從而降低過度擬合風(fēng)險。

為了在適配器中有效地對 3D 幾何知識進(jìn)行建模，論文引入了創(chuàng)新設(shè)計，包括重復(fù)的自注意力層和并行注意力架構(gòu)，使適配器能夠繼承預(yù)訓(xùn)練模型的強大先驗來對新穎的 3D 知識進(jìn)行建模。此外還提出了一個統(tǒng)一的條件編碼器，無縫集成了相機參數(shù)和幾何信息，促進(jìn)了基于文本和圖像的 3D 生成和紋理化等應(yīng)用。

MV-Adapter 在穩(wěn)定擴(kuò)散 XL (SDXL) 上實現(xiàn)了 768 分辨率的多視圖生成，并展示了適應(yīng)性和多功能性。它還可以擴(kuò)展到任意視圖生成，從而實現(xiàn)更廣泛的應(yīng)用。MV-Adapter 為多視圖圖像生成設(shè)定了新的質(zhì)量標(biāo)準(zhǔn)，并因其效率、適應(yīng)性和多功能性開辟了新的可能性。

方法介紹

MV-Adapter 是一個即插即用的適配器，它學(xué)習(xí)多視圖先驗，無需特殊調(diào)整即可轉(zhuǎn)移到 T2I 模型的衍生物，并使 T2I 能夠在各種條件下生成多視圖一致的圖像。在推理時，MV-Adapter 包含條件引導(dǎo)器（黃色）和解耦的注意層（藍(lán)色），可以直接插入個性化或蒸餾的 T2I 中以構(gòu)成多視圖生成器。

MV-Adapter 由兩部分組成：

對相機條件或幾何條件進(jìn)行編碼的條件引導(dǎo)器；
包含多視圖注意層的解耦注意層，用于學(xué)習(xí)多視圖一致性，以及可選的圖像交叉注意層以支持圖像條件生成

其中使用預(yù)先訓(xùn)練的 U-Net 對參考圖像進(jìn)行編碼以提取細(xì)粒度信息。

結(jié)果展示

文本到多視圖

圖像到多視圖

草圖到多視圖 (使用 ControlNet)

文本條件3D生成

圖像條件3D生成

文本條件紋理生成

圖像條件紋理生成

ComfyUI試用

將MV-Adapter集成到 ComfyUI 中，允許用戶直接在 ComfyUI 界面內(nèi)從文本提示或單個圖像生成多視圖一致的圖像。具體可以參考上面的鏈接。

支持與 SDXL LoRA 集成
根據(jù)文本提示或單幅圖像生成多視角一致圖像

責(zé)任編輯：張燕妮來源： AIGC Studio

圖像生成 AI 視圖

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="fyn19"></sub>