自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

可媲美GPT-4o的開(kāi)源圖像生成框架來(lái)了!騰訊聯(lián)手InstantX解決角色一致性難題

人工智能 新聞
騰訊混元攜手InstantX團(tuán)隊(duì)合作打破次元壁,開(kāi)源定制化角色生成插件——InstantCharacter。

GPT-4o帶火的漫畫(huà)風(fēng)角色生成,現(xiàn)在有了開(kāi)源版啦!

騰訊混元攜手InstantX團(tuán)隊(duì)合作打破次元壁,開(kāi)源定制化角色生成插件——InstantCharacter。

圖片

以往針對(duì)角色驅(qū)動(dòng)的圖像生成方法,都存在一定的缺陷。

例如,基于適配器的方案雖然基本實(shí)現(xiàn)主體一致和文本可控,但在泛化性、姿勢(shì)變化和風(fēng)格轉(zhuǎn)換的開(kāi)放域角色方面仍然存在困難?;谖⒄{(diào)則需對(duì)模型進(jìn)行重新訓(xùn)練,從而浪費(fèi)過(guò)長(zhǎng)的時(shí)間。更不必說(shuō),費(fèi)用高昂的推理時(shí)間的微調(diào)。

而現(xiàn)在這個(gè)插件基于DiTs(Diffusion Transformers),能在保證推理效率和文本可編輯性的同時(shí),完美實(shí)現(xiàn)角色個(gè)性化創(chuàng)作。

圖片

那么一起看看它具體是如何實(shí)現(xiàn)的?

方法介紹

現(xiàn)代 DiTs與傳統(tǒng)的UNet架構(gòu)相比,展現(xiàn)出前所未有的保真度和容量,為生成和編輯任務(wù)提供了更強(qiáng)大的基礎(chǔ)?;诖耍琁nstantCharacter擴(kuò)展了DiT,從而用于強(qiáng)泛化性和高保真的角色驅(qū)動(dòng)圖像生成。

圖片

InstantCharacter的架構(gòu)圍繞兩個(gè)關(guān)鍵創(chuàng)新展開(kāi):

1.可擴(kuò)展適配器 :開(kāi)發(fā)了一個(gè)可擴(kuò)展的適配器模塊,有效解析角色特征并與DiTs潛在空間無(wú)縫交互。2.漸進(jìn)訓(xùn)練策略:設(shè)計(jì)了一個(gè)漸進(jìn)式三階段訓(xùn)練策略,以適應(yīng)收集的多功能數(shù)據(jù)集,使角色一致性和文本可編輯性的分開(kāi)訓(xùn)練成為可能。

可擴(kuò)展的適配器設(shè)計(jì)

傳統(tǒng)的定制適配器,例如IPAdapter或ReferenceNet,在DiT架構(gòu)中往往失效,因?yàn)樗鼈兪菍榛赨-Net的模型設(shè)計(jì)的,缺乏可擴(kuò)展性。

為了更好地適應(yīng)DiT模型,研究員提出了一種可擴(kuò)展的full-transformer適配器,它作為角色圖像與基礎(chǔ)模型潛在生成空間之間的關(guān)鍵連接,通過(guò)增加層深度和隱藏特征尺寸實(shí)現(xiàn)可擴(kuò)展性。

該適配器由三個(gè)編碼器塊組成:

1.通用視覺(jué)編碼器:首先利用預(yù)訓(xùn)練的大型視覺(jué)基礎(chǔ)編碼器來(lái)提取通用角色特征,從它們的開(kāi)放域識(shí)別能力中受益。

以前的方法通常依賴于CLIP,因?yàn)樗鼘?duì)齊了視覺(jué)和文本特征。然而,雖然CLIP能夠捕捉抽象的語(yǔ)義信息,但它往往會(huì)丟失對(duì)維持角色一致性至關(guān)重要的詳細(xì)紋理信息。為此,研究者用SigLIP替代CLIP,SigLIP在捕捉更細(xì)粒度的角色信息方面表現(xiàn)出色。

此外,引入DINOv2作為另一個(gè)圖像編碼器來(lái)增強(qiáng)特征的穩(wěn)健性,減少背景或其他干擾因素導(dǎo)致的特征損失。

最后,通過(guò)在通道維度的拼接整合DINOv2和SigLIP特征,從而獲得更全面的開(kāi)放域角色表示。

2.中間編碼器:由于SigLIP和DINOv2是在相對(duì)較低的384分辨率下預(yù)訓(xùn)練和推理的,在處理高分辨率角色圖像時(shí),通用視覺(jué)編碼器的原始輸出可能會(huì)丟失細(xì)粒度特征。為了緩解這個(gè)問(wèn)題,采用雙流特征融合策略分別探索低級(jí)特征(low-level features)區(qū)域級(jí)特征(region-level features)。

首先,直接從通用視覺(jué)編碼器的淺層提取low-level features,捕捉在更高層次中常常丟失的細(xì)節(jié)。

其次,將參考圖像分割成多個(gè)不重疊的區(qū)塊,并將每個(gè)區(qū)塊輸入視覺(jué)編碼器以獲取region-level features。

然后,這兩種不同的特征流通過(guò)專用的中間transformer編碼器進(jìn)行分層整合。具體來(lái)說(shuō),每個(gè)特征路徑都由獨(dú)立的transformer編碼器單獨(dú)處理,以與高級(jí)語(yǔ)義特征整合。隨后,來(lái)自兩個(gè)路徑的精煉特征沿著token維度連接,從而建立一個(gè)全面的融合表示,捕捉多層次的互補(bǔ)信息。

3.投影頭:最后,精煉的角色特征通過(guò)投影頭投射到去噪過(guò)程,并與潛在噪聲交互。通過(guò)時(shí)間步感知的Q-former實(shí)現(xiàn)這一點(diǎn),它將中間編碼器輸出作為鍵值對(duì)處理,同時(shí)通過(guò)注意力機(jī)制動(dòng)態(tài)更新一組可學(xué)習(xí)的查詢向量。轉(zhuǎn)換后的查詢特征隨后通過(guò)可學(xué)習(xí)的交叉注意力層注入去噪空間。最終,適配器可以實(shí)現(xiàn)強(qiáng)身份保持和復(fù)雜文本驅(qū)動(dòng)的靈活適應(yīng)。

訓(xùn)練策略

為了有效訓(xùn)練該框架,研究者首先精心構(gòu)建了一個(gè)高質(zhì)量的數(shù)據(jù)集,包含1000萬(wàn)張多樣化的全身人類/角色圖像,包括用于學(xué)習(xí)角色一致性的配對(duì)圖像和用于實(shí)現(xiàn)精確文本到圖像對(duì)齊的非配對(duì)數(shù)據(jù)集。

其次,精細(xì)設(shè)計(jì)了訓(xùn)練方案,以優(yōu)化角色一致性、文本可控性和視覺(jué)保真度。為了實(shí)現(xiàn)角色一致性,首先使用未配對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,其中角色圖像作為參考引導(dǎo)進(jìn)行自重建,以保持結(jié)構(gòu)一致性。同時(shí)研究發(fā)現(xiàn)使用512的分辨率比1024更為高效。

在第二階段,繼續(xù)以低分辨率(512)進(jìn)行訓(xùn)練,但切換到配對(duì)訓(xùn)練數(shù)據(jù)。為生成不同動(dòng)作、姿勢(shì)和風(fēng)格的角色圖像,研究者通過(guò)將角色圖像作為輸入,生成新場(chǎng)景中的角色。這個(gè)訓(xùn)練階段有效消除了復(fù)制粘貼效應(yīng),增強(qiáng)了文本可控性,確保生成的圖像準(zhǔn)確遵循文本條件。

最后一個(gè)階段涉及使用配對(duì)和非配對(duì)圖像進(jìn)行高分辨率聯(lián)合訓(xùn)練。團(tuán)隊(duì)發(fā)現(xiàn)有限數(shù)量的高分辨率訓(xùn)練迭代可以顯著提高圖像的視覺(jué)質(zhì)量和紋理。這一階段利用了高質(zhì)量圖像實(shí)現(xiàn)高保真和文本可控的角色圖像。

實(shí)驗(yàn)結(jié)果

作者對(duì)基于FLUX的先進(jìn)方法進(jìn)行定性比較:OminiControl、EasyControl、ACE+和UNO;以及大型多模態(tài)模型GPT4o。為了評(píng)估,作者收集了一組不存在于訓(xùn)練數(shù)據(jù)中的開(kāi)放域角色圖像。

現(xiàn)有方法存在局限性:OminiControl和EasyControl無(wú)法保留角色身份特征,而ACE++僅在簡(jiǎn)單場(chǎng)景中保持部分特征,但在面對(duì)動(dòng)作導(dǎo)向的提示時(shí)表現(xiàn)不佳。UNO過(guò)度保持一致性,這降低了動(dòng)作和背景的可編輯性??梢钥吹剑琁nstantCharacter達(dá)到了與GPT4o相當(dāng)?shù)慕Y(jié)果,但它不是開(kāi)源的。

相比之下,InstantCharacter始終表現(xiàn)最佳。具體而言,InstantCharacter在保持精確的文本可控性的同時(shí),實(shí)現(xiàn)了更出色的角色細(xì)節(jié)保留和高保真度,即使是針對(duì)復(fù)雜的動(dòng)作提示。

圖片

圖片

InstantCharacter還可以通過(guò)引入不同的風(fēng)格loras來(lái)實(shí)現(xiàn)靈活的角色風(fēng)格化。如圖所示,InstantCharacter可以在吉卜力和Makoto風(fēng)格之間切換,同時(shí)不影響角色一致性和文本可編輯性。然而,Jimeng和GPT4o很難靈活地保持這些風(fēng)格。

圖片

本文插件代碼及項(xiàng)目均已開(kāi)源,鼓勵(lì)更多的人積極參與相關(guān)工作探討。

論文地址:https://arxiv.org/abs/2504.12395代碼地址:https://github.com/Tencent/InstantCharacter項(xiàng)目地址:https://instantcharacter.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-08-14 14:30:00

AI訓(xùn)練

2025-03-31 08:50:00

AI生成模型

2017-07-25 14:38:56

數(shù)據(jù)庫(kù)一致性非鎖定讀一致性鎖定讀

2021-06-06 12:45:41

分布式CAPBASE

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2022-12-14 08:23:30

2025-04-08 02:26:00

2024-05-21 12:23:17

2025-03-26 09:13:02

2025-04-07 00:00:00

OpenAIGPT-4o圖像

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2021-02-05 08:00:48

哈希算法?機(jī)器

2021-02-02 12:40:50

哈希算法數(shù)據(jù)

2025-04-15 08:01:12

2024-06-27 12:45:30

2021-02-04 06:30:26

Python編程語(yǔ)言

2024-06-05 08:29:35

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2024-09-24 11:13:14

2023-05-09 10:59:33

緩存技術(shù)派MySQL
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)