自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="fle9v"></sub>

<p id="fle9v"></p>

<kbd id="fle9v"></kbd>

<ol id="fle9v"><i id="fle9v"></i></ol>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

OminiControl：一個(gè)新的FLUX通用控制模型，單個(gè)模型實(shí)現(xiàn)圖像主題控制和深度控制

作者：AIGC Studio 2025-01-21 10:20:00

人工智能新聞

OminiControl 使用統(tǒng)一的 token 方法，為跨不同任務(wù)的 Diffusion Transformers 提供參數(shù)高效的圖像調(diào)節(jié)控制，無需額外的模塊。

OminiControl 也開源了其可控生成模型。OminiControl 是一個(gè)最小但功能強(qiáng)大的FLUX通用控制框架，可以一個(gè)模型實(shí)現(xiàn)圖像主題控制和深度控制。比如一個(gè)提示詞加一個(gè)服裝圖片就能讓生成的人物穿上服裝?；蛘邔?shí)現(xiàn)將圖片中的物品放到生成圖片的指定位置。主要有以下特點(diǎn)：

通用控制：支持主題驅(qū)動(dòng)控制和空間控制（例如邊緣引導(dǎo)和繪畫生成）的統(tǒng)一控制框架。
極簡設(shè)計(jì)：在保留原始模型結(jié)構(gòu)的同時(shí)注入控制信號(hào)。僅向基礎(chǔ)模型引入 0.1% 的額外參數(shù)。

相關(guān)鏈接

論文：https://arxiv.org/pdf/2411.15098

模型：https://huggingface.co/Yuanshi/OminiControl

試用：https://huggingface.co/spaces/Yuanshi/OminiControl

論文閱讀

摘要

本文介紹了 OminiControl，這是一個(gè)高度通用且參數(shù)高效的框架，它將圖像條件集成到預(yù)先訓(xùn)練的擴(kuò)散變換器 (DiT) 模型中。OminiControl 的核心是利用參數(shù)重用機(jī)制，使 DiT 能夠使用自身作為強(qiáng)大的主干對(duì)圖像條件進(jìn)行編碼，并使用其靈活的多模態(tài)注意處理器對(duì)其進(jìn)行處理。與現(xiàn)有方法不同，這些方法嚴(yán)重依賴具有復(fù)雜架構(gòu)的附加編碼器模塊，OminiControl有以下特點(diǎn)：

有效且高效地結(jié)合了注入的圖像條件，僅需 0.1% 的附加參數(shù)。
以統(tǒng)一的方式處理廣泛的圖像調(diào)節(jié)任務(wù)，包括主題驅(qū)動(dòng)生成和空間對(duì)齊條件，例如邊緣、深度等。

這些功能是通過對(duì) DiT 本身生成的圖像進(jìn)行訓(xùn)練來實(shí)現(xiàn)的，這對(duì)主題驅(qū)動(dòng)生成特別有益。廣泛的評(píng)估表明，OminiControl 在主題驅(qū)動(dòng)和空間對(duì)齊條件生成方面均優(yōu)于現(xiàn)有的基于 UNet 和 DiT 的模型。此外，論文還發(fā)布了訓(xùn)練數(shù)據(jù)集 Subjects200K，這是一個(gè)包含超過 200,000 張身份一致圖像的多樣化集合，以及一條高效的數(shù)據(jù)合成管道，以推進(jìn)主題一致生成的研究。

方法

擴(kuò)散變壓器 (DiT) 架構(gòu)和圖像調(diào)節(jié)的集成方法概述。OminiControl利用了一個(gè)參數(shù)復(fù)用機(jī)制，使DiT能夠使用自身作為強(qiáng)大的后端來編碼圖像條件，并通過其靈活的多模態(tài)注意力處理器處理這些條件。與現(xiàn)有依賴于具有復(fù)雜架構(gòu)的額外編碼模塊的方法不同，OminiControl以僅0.1%的額外參數(shù)有效且高效地整合了注入的圖像條件，并以統(tǒng)一的方式解決了包括主題驅(qū)動(dòng)生成和空間對(duì)齊條件（如邊緣、深度等）在內(nèi)的廣泛圖像條件控制生成任務(wù)。

兩種方法整合圖像條件的結(jié)果比較。與直接添加相比，多模態(tài)方法表現(xiàn)出更好的條件跟蹤效果。

來自Subjects200K 數(shù)據(jù)集的示例。每對(duì)圖像顯示同一物體在不同位置、角度和光照條件下的狀態(tài)。該數(shù)據(jù)集包括各種物體，例如衣服、家具、車輛和動(dòng)物，共計(jì)超過 200,000張圖像。該數(shù)據(jù)集以及生成管道將公開發(fā)布。

結(jié)果

主題驅(qū)動(dòng)生成

文字提示

提示 1：此物品的近距離視圖。它放在一張木桌上。背景是一個(gè)黑暗的房間，電視開著，屏幕上正在播放烹飪節(jié)目。屏幕上的文字寫著“Omini Control！”。
提示 2：電影風(fēng)格的鏡頭。在月球上，這個(gè)物品駛過月球表面。上面有一面旗幟，上面寫著“Omini”。背景是地球在前景中若隱若現(xiàn)。
提示3：在一個(gè)包豪斯風(fēng)格的房間里，這件物品被放置在一張閃亮的玻璃桌上，旁邊放著一瓶鮮花。在午后的陽光下，百葉窗的陰影投射在墻上。
提示 4：“在海灘上，一位女士坐在一把寫著‘Omini’的沙灘傘下。她穿著這件襯衫，臉上掛著燦爛的笑容，身后背著沖浪板。背景是夕陽西下。天空呈現(xiàn)出美麗的橙色和紫色?！?/span>

試穿效果

場景變化

Dreambooth數(shù)據(jù)集

空間對(duì)齊控制

圖像修復(fù)（左：原始圖像；中：蒙版圖像；右：填充圖像）

提示：蒙娜麗莎戴著一個(gè)白色的 VR 耳機(jī)，上面寫著“Omini”。

提示：一本黃色的書，封面上用大號(hào)字體寫著“OMINI”。底部寫著“for FLUX”的字樣。

限制

由于訓(xùn)練中缺乏人類數(shù)據(jù)，該模型的主體驅(qū)動(dòng)生成主要針對(duì)物體而不是人類主體。
主題驅(qū)動(dòng)的生成模型可能不太適合FLUX.1-dev。
發(fā)布的型號(hào)目前僅支持512x512的分辨率。

待辦事項(xiàng)

發(fā)布更高分辨率（1024x1024）的模型。
發(fā)布訓(xùn)練代碼。

結(jié)論

OminiControl 使用統(tǒng)一的 token 方法，為跨不同任務(wù)的 Diffusion Transformers 提供參數(shù)高效的圖像調(diào)節(jié)控制，無需額外的模塊。該方法優(yōu)于傳統(tǒng)方法，而新的 Subjects200K 數(shù)據(jù)集（包含超過 200,000 張高質(zhì)量、主題一致的圖像）支持主題一致生成的進(jìn)步。結(jié)果證實(shí)了 OminiControl 在擴(kuò)散模型中的可擴(kuò)展性和有效性。

責(zé)任編輯：張燕妮來源： AIGC Studio

圖像生成開源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="yygfo"><i id="yygfo"></i></blockquote>}

<sub id="yygfo"></sub>

<p id="yygfo"></p>