自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!

發(fā)布于 2025-4-7 00:18
瀏覽
0收藏

今天給大家介紹一個字節(jié)剛開源的換臉寫真新模型InfiniteYou,這是一種先進的零樣本身份ID一致性保持模型,由字節(jié)跳動基于文生圖領域最強開源模型FLUX模型研發(fā)的。InfiniteYou專注于利用擴散變換器(DiTs)技術實現(xiàn)靈活且高保真的身份保留圖像生成。它解決了現(xiàn)有方法中存在的問題,如身份相似性不足、文本與圖像對齊不佳以及生成質(zhì)量和美學水平低下等。同時,InfiniteYou具有高度的兼容性,可以與現(xiàn)有的多種方法無縫集成,如FLUX.1-dev的不同變體、ControlNets、LoRAs等,為定制化任務提供了更多的控制力和靈活性。

相關鏈接:

主頁:https://bytedance.github.io/InfiniteYou

論文:??https://arxiv.org/pdf/2503.16418??

試用:??https://huggingface.co/spaces/ByteDance/InfiniteYou-FLUX??

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

InfiniteYou 生成具有出色身份相似性、文本圖像對齊、質(zhì)量和美觀度的身份保存圖像。

論文介紹

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

實現(xiàn)靈活、高保真且身份保存的圖像生成仍然是一項艱巨的任務,特別是使用 FLUX 這樣的先進擴散變換器 (DiT)。論文推出了InfiniteYou (InfU),這是最早利用 DiT 完成此任務的強大框架之一。InfU 解決了現(xiàn)有方法的重大問題,例如身份相似度不足、文圖對齊不佳以及生成質(zhì)量和美觀度低。InfU 的核心是 InfuseNet,它是一個通過殘差連接將身份特征注入 DiT 基礎模型的組件,在保持生成能力的同時增強身份相似度。多階段訓練策略,包括使用合成單人多樣本 (SPMS) 數(shù)據(jù)進行預訓練和監(jiān)督微調(diào) (SFT),進一步改善了文圖對齊、提高了圖像質(zhì)量并減輕了人臉復制粘貼。大量實驗表明,InfU 實現(xiàn)了最先進的性能,超越了現(xiàn)有基線。此外,InfU 的即插即用設計確保與各種現(xiàn)有方法的兼容性,為更廣泛的社區(qū)做出了寶貴的貢獻。

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

與最先進的相關方法的比較

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

InfU 與最先進的基線 FLUX.1-dev IP-Adapter 和 PuLID-FLUX 的定性比較結果。FLUX.1-dev IP-Adapter (IPA) 生成的結果的身份相似性和文本-圖像對齊不足。PuLID-FLUX 生成具有良好身份相似性的圖像。然而,它的文本-圖像對齊較差(第 1、2、4 列),圖像質(zhì)量(例如,第 5 列中的壞手)和美感下降。此外,PuLID-FLUX 的面部復制粘貼問題也很明顯(第 5 列)。相比之下,提出的 InfU 在所有維度上都優(yōu)于基線。

采用現(xiàn)成的流行方法的即插即用特性

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

InfU 具有理想的即插即用設計,與許多現(xiàn)有方法兼容。它自然支持使用 FLUX.1-dev 的任何變體(例如 FLUX.1-schnell)替換基礎模型,以實現(xiàn)更高效的生成(例如,分 4 步完成)。與 ControlNets 和 LoRAs 的兼容性為定制任務提供了更多的可控性和靈活性。值得注意的是,與 OminiControl 的兼容性擴展了我們在多概念個性化方面的潛力,例如交互式身份 (ID) 和對象個性化生成。InfU 還與 IP-Adapter (IPA) 兼容,用于個性化圖像的風格化,通過 IPA 注入樣式參考時可產(chǎn)生不錯的效果。

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

InfU 具有理想的即插即用特性,兼容許多流行的方法和插件。

方法

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

InfiniteYou (InfU) 的主要框架和 InfuseNet 的詳細架構。投影的身份特征和可選的控制圖像由 InfuseNet 通過殘差連接注入到文本到圖像的 DiT 中。具體來說,InfuseNet 中的每個 DiT 塊預測基礎模型中相應 i DiT 塊的輸出殘差。只有 InfuseNet 和投影網(wǎng)絡是可訓練的。

字節(jié)開源換臉寫真模型InfiniteYou,可實現(xiàn)零樣本身份ID一致保持,無縫集成FLUX、ControlNets、LoRAs!-AI.x社區(qū)

結論

InfU是一種使用高級 DiT 進行身份保留圖像生成的新框架。InfU 解決了現(xiàn)有方法在身份相似性、文本圖像對齊、整體圖像質(zhì)量和生成美學方面的關鍵限制。該框架核心是 InfuseNet,它在保持生成能力的同時增強了身份保留。多階段訓練策略進一步提高了整體表現(xiàn)。綜合實驗表明,InfU 的表現(xiàn)優(yōu)于最先進的基線。此外,InfU 是即插即用的,可與各種方法兼容,為更廣泛的社區(qū)做出了重大貢獻。InfU 在該領域樹立了新的標桿,展示了集成 DiT 實現(xiàn)高級個性化生成的巨大潛力。未來的工作可能會探索可擴展性和效率的增強,以及將 InfU 的應用擴展到其他領域。

限制和社會影響。 盡管結果令人鼓舞,但 InfU 的身份相似性和整體質(zhì)量還有待進一步提高。潛在的解決方案包括額外的模型擴展和增強的 InfuseNet 設計。另一方面,InfU 可能會引發(fā)人們對其促進高質(zhì)量虛假媒體合成的潛力的擔憂。                                               

?

本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio                                 

已于2025-4-7 00:20:49修改
收藏
回復
舉報
回復
相關推薦