自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="kfbil"><rp id="kfbil"></rp></ruby>

<thead id="kfbil"></thead>

<cite id="kfbil"><rp id="kfbil"></rp></cite>

<abbr id="kfbil"></abbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

適配Diffusers框架的全套教程來了！從T2I-Adapter到大熱ControlNet

作者：機器之心 2023-03-13 15:51:53

人工智能新聞

本文從實際存在的問題出發(fā)，對代碼框架不兼容、模型加載受限等問題率先提出了自研解決方案，快速幫助開發(fā)者更容易地開發(fā)。

在 ChatGPT 出圈不久，ControlNet 的橫空出世很快在英文和中文互聯(lián)網(wǎng)收獲了眾多開發(fā)者和普通用戶，甚至有用戶宣傳 ControlNet 的出現(xiàn)將 AI 創(chuàng)作帶入了直立行走的時代。不夸張地說，包括 ControlNet 在內(nèi)，同期的 T2I-Adapter、Composer，以及 LoRA 訓(xùn)練技巧，可控生成作為 AI 創(chuàng)作最后一道高墻，極有可能在可預(yù)見的時間內(nèi)有進一步突破，從而極大地降低用戶的創(chuàng)作成本，提高創(chuàng)作的可玩性。距離 ControlNet 開源僅僅過去兩周，其官方 Star 就已經(jīng)超過 1 萬，這種熱度無疑是空前的。

與此同時，開源社區(qū)也極大地降低了用戶的使用門檻，如 Hugging Face 平臺提供了基礎(chǔ)模型權(quán)重以及通用的模型訓(xùn)練框架 diffusers，stable-diffusion-webui 開發(fā)了完善的一套 Demo 平臺，Civitai 貢獻了海量風(fēng)格化 LoRA 權(quán)重。

盡管 webui 作為目前最受歡迎的可視化工具，已經(jīng)快速地支持了近期推出的各種生成模型，并且支持眾多選項供用戶設(shè)置。由于其重點考慮了前端界面的易用性，背后代碼結(jié)構(gòu)其實十分復(fù)雜，對于開發(fā)者而言不夠友好。比如 webui 盡管支持了多種類型的加載和推理，但卻無法支持不同框架下的轉(zhuǎn)換，也無法支持模型的靈活訓(xùn)練。我們在社區(qū)討論中發(fā)現(xiàn)了許多現(xiàn)有開源代碼暫未解決的痛點。

首先，代碼框架不兼容，目前熱門的模型，如 ControlNet、T2I-Adapter，與主流的 Stable Diffusion 訓(xùn)練庫 diffusers 不兼容，ControlNet 預(yù)訓(xùn)練的模型無法直接在 diffusers 框架中被使用。

其次，模型加載受限，目前模型保存格式多樣，如.bin、.ckpt、.pth、.satetensors 等，除了 webui 外，目前 diffusers 框架對于這些模型格式的支持還有限，考慮到 LoRA 大部分模型以 safetensors 保存為主，用戶很難直接將 LoRA 的模型加載到已有的基于 diffusers 框架訓(xùn)練的模型中。

第三，基礎(chǔ)模型受限，目前 ControlNet、T2I-Adapter 均基于 Stable-Diffusion-1.5 進行訓(xùn)練，且僅開源了 SD1.5 下的模型權(quán)重，考慮到特定場景，已經(jīng)存在諸如 anything-v4、ChilloutMix 等優(yōu)質(zhì)動漫模型，即使引入了可控信息，最終生成結(jié)果仍然受限于 SD1.5 中 UNet 的能力。

最后，模型訓(xùn)練受限，目前 LoRA 已經(jīng)被廣泛驗證是風(fēng)格遷移、保持特定形象 IP 最有效的方法之一，但 diffusers 框架目前僅支持 UNet 的 LoRA 嵌入，無法支持 text encoder 的嵌入，會限制 LoRA 的訓(xùn)練。

我們和開源社區(qū)討論后，了解到 diffusers 框架作為通用代碼庫，正計劃同時適配近期不斷推出的生成模型；由于涉及較多底層接口重寫，仍然需要一段時間更新。為此，我們從以上實際存在的問題出發(fā)，率先提出了對于每一個問題的自研解決方案，快速幫助開發(fā)者更容易地開發(fā)。

LoRA、ControlNet、T2I-Adapter 到 diffusers 的全適配方案

LoRA for diffusers

本方案是為了在 diffusers 框架，即基于 diffusers 訓(xùn)練保存的模型中，靈活嵌入各種格式的 LoRA 權(quán)重。由于 LoRA 的訓(xùn)練通常凍結(jié) base model，因此可以作為可插拔模塊輕松嵌入已有模型，作為風(fēng)格或 IP 條件約束。LoRA 本身是一種通用的訓(xùn)練技巧，它的基本原理是，通過低秩分解，可以極大地減少模塊的參數(shù)量，目前在圖像生成中，一般用于訓(xùn)練獨立于 base model 外的可插拔模塊，實際使用是以殘差形式與 base model 的輸出合并。

首先是 LoRA 權(quán)重的嵌入，目前 Civitai 平臺上提供的權(quán)重主要以 ckpt 或 safetensors 格式存儲，分以下兩種情況。

（1）Full model（base model + LoRA 模塊）

如果 full model 是 safetensors 格式，可以通過以下 diffusers 腳本轉(zhuǎn)換

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.safetensors  --dump_path save_dir --from_safetensors

如果 full model 是 ckpt 格式，可以通過以下 diffusers 腳本轉(zhuǎn)換

python ./scripts/convert_original_stable_diffusion_to_diffusers.py --checkpoint_path xxx.ckpt  --dump_path save_dir

轉(zhuǎn)換完成后，可直接利用 diffusers 的 API 進行模型加載

from diffusers import StableDiffusionPipeline  
pipeline = StableDiffusionPipeline.from_pretrained (save_dir,torch_dtype=torch.float32)

（2）LoRA only （僅包含 LoRA 模塊）

目前 diffusers 官方無法支持僅加載 LoRA 權(quán)重，而開源平臺上的 LoRA 權(quán)重基本以這種形式存儲。本質(zhì)上是完成 LoRA 權(quán)重中 key-value 的重新映射，使其適配到 diffusers 模型中。為此，我們自行支持這個功能，提供了轉(zhuǎn)換腳本。

pipeline = StableDiffusionPipeline.from_pretrained (model_id,torch_dtype=torch.float32)
model_path = "onePieceWanoSagaStyle_v2Offset.safetensors"
state_dict = load_file (model_path)

只需要指定 diffusers 格式的模型，以及存儲為 safetensors 格式的 LoRA 權(quán)重。我們提供了一個轉(zhuǎn)換示例。

# the default mergering ratio is 0.75, you can manually set it 
python convert_lora_safetensor_to_diffusers.py

此外，LoRA 本身由于其輕量化，可以在小數(shù)據(jù)情況下快速完成訓(xùn)練，并能夠嵌入到其他網(wǎng)絡(luò)中。為了不局限于已有 LoRA 權(quán)重，我們在 diffusers 框架中支持了 LoRA 的多模塊（UNet+text encoder）訓(xùn)練，并已經(jīng)在官方代碼庫提交 PR（https://github.com/huggingface/diffusers/pull/2479），并支持了 ColossalAI 中訓(xùn)練 LoRA。

代碼開源在：https://github.com/haofanwang/Lora-for-Diffusers

ControlNet for diffusers

本方案是為了支持在 diffusers 框架中，使用 ControlNet?；陂_源社區(qū)的部分嘗試，我們提供了完整的 ControlNet+Anything-V3 使用用例，支持將 base model 從原本 SD1.5 的替換到 anything-v3 模型，使 ControlNet 具備較好動漫生成的能力。

此外，我們也支持 ControlNet+Inpainting，并提供了適配 diffusers 的 pipeline，

以及多條件控制的 Multi-ControlNet。

代碼開源在：https://github.com/haofanwang/ControlNet-for-Diffusers

T2I-Adapter for diffusers

與 ControlNet 相似，我們也同時支持了同期開源的 T2I-Adapter 到 diffusers 的適配。

代碼開源在：https://github.com/haofanwang/T2I-Adapter-for-Diffusers

目前以上三種適配方案均已經(jīng)向社區(qū)開源，并在 ControlNet、T2I-Adapter 中被官方分別致謝，也收到了來自 stable-diffusion-webui-colab 作者的感謝。我們正在與 diffusers 官方保持討論，會在近期完成以上方案向官方代碼庫的集成工作。也歡迎大家提前嘗試我們的工作，有任何問題均可以直接提 issue，我們會盡快回復(fù)。

責(zé)任編輯：張燕妮來源：機器之心

代碼開發(fā)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營