阿里發(fā)布新ID保持項(xiàng)目EcomID, 可從單個(gè)ID參考圖像生成定制的保ID圖像,ComfyUI可使用
阿里媽媽發(fā)布了一個(gè)新的ID保持項(xiàng)目EcomID,旨在從單個(gè)ID參考圖像生成定制的保ID圖像,優(yōu)勢(shì)在于很強(qiáng)的語(yǔ)義一致性,同時(shí)受人臉關(guān)鍵點(diǎn)控制。
EcomID 方法結(jié)合了 PuLID 和 InstantID 的優(yōu)點(diǎn),以獲得更好的背景一致性、面部關(guān)鍵點(diǎn)控制、更真實(shí)的面部以及更高的相似度。目前,EcomID 的 Comfyui 原生實(shí)現(xiàn)官方插件也已經(jīng)發(fā)布,大家可以從文章中的鏈接獲取。
相關(guān)鏈接
代碼:https://github.com/alimama-creative/SDXL_EcomID_ComfyUI
模型地址: https://huggingface.co/alimama-creative/SDXL-EcomID
ComfyUI:https://github.com/alimama-creative/SDXL_EcomID_ComfyUI
EcomID 結(jié)構(gòu)
PuLID 的 IP-Adapter:EcomID 借鑒了 PuLID 的 ID-Encoder 和交叉注意力組件,其使用對(duì)齊損失訓(xùn)練而成。故而該方法有效減少了 ID embedding 對(duì)交叉注意力部分的文本 embedding的干擾,最小化對(duì)底層模型文本到圖像能力的干擾。
InstantID 的 IdentityNet 架構(gòu):利用 200 萬(wàn)張美觀的人像圖像數(shù)據(jù)集,訓(xùn)練了IdentityNet,增強(qiáng)了關(guān)鍵點(diǎn)控制,提高了 ID 一致性和面部真實(shí)感。在訓(xùn)練過(guò)程中,IP-adapter 被凍結(jié),只有 IdentityNet 被訓(xùn)練。面部Keypoint用作條件輸入,同時(shí)面部嵌入通過(guò)交叉注意力集成到 IdentityNet 中。
效果對(duì)比
ComfyUI使用
訓(xùn)練細(xì)節(jié)
該模型在 200 萬(wàn)張?zhí)詫殘D像上進(jìn)行訓(xùn)練,其中人臉比例大于 3%。圖像分辨率大于800,且美學(xué)評(píng)分超過(guò) 5.5。
- 混合精度:fp16
- 學(xué)習(xí)率:1e-4
- 批量大?。?
- 圖像大小:1024x1024
注意事項(xiàng)
EcomID與其他基于SDXL模型也高度兼容,如leosams-helloworld-xl、dreamshaper-xl、stable-diffusion-xl-base-1.0 等。
它與SDXL Turbo/Lighting、EcomXL Inpainting ControlNet和 EcomXL Softedge ControlNet 的兼容性非常好。