使用Stable Diffusion生成超逼真人臉的三條途徑
譯文譯者 | 布加迪
審校 | 重樓
有沒有想過別人是如何使用AI圖像生成如此超逼真的人臉,而你自己的嘗試最終卻充斥著缺陷和失真,看起來明顯很假?你試著調(diào)整了提示和設(shè)置,但質(zhì)量還是無法與你看到其他人生成的圖像相媲美。你做錯(cuò)了什么?
這篇博文將逐一介紹三項(xiàng)關(guān)鍵技術(shù),開始使用Stable Diffusion生成超逼真的人臉。首先,我們將介紹提示工程的基礎(chǔ)知識(shí),幫助你使用基本模型生成圖像。接下來,我們將探討如何升級(jí)到Stable Diffusion XL模型可以通過更大的參數(shù)和訓(xùn)練顯著提高圖像質(zhì)量。最后,我將介紹一個(gè)專門用于生成高質(zhì)量圖像的自定義模型。
1. 提示工程
首先,我們將學(xué)習(xí)寫正面和負(fù)面的提示,以生成逼真的人臉。我們將使用在Hugging Face Spaces上提供的Stable Diffusion版本2.1演示版。它是免費(fèi)的,你根本不用設(shè)置就可以開始入手。
鏈接:hf.co/spaces/stabilityai/stable-diffusion
創(chuàng)建正面提示時(shí),確保包括圖像的所有必要的細(xì)節(jié)和風(fēng)格。在這個(gè)例子中,我們想生成一個(gè)走在街上的年輕女子的圖像。我們將使用基本的負(fù)面提示,但你可以添加額外的關(guān)鍵字,以避免圖像中的任何重復(fù)性錯(cuò)誤。
正面提示:“一個(gè)20多歲的年輕女子,走在街上,直視鏡頭,自信而友好的表情,穿著隨意,一身現(xiàn)代時(shí)尚的服裝,城市街景背景,陽光明媚的白天光線,鮮艷的色彩。”
負(fù)面提示:“外貌丑陋,難看,不成熟,卡通,動(dòng)漫,3D,繪畫,卡通,插圖,最差質(zhì)量,低質(zhì)量”。
我們有一個(gè)良好的開端。圖像是準(zhǔn)確的,但圖像的質(zhì)量還有待提高。你可以調(diào)整提示,但這是你從基本模型得到的最好結(jié)果。
2. Stable Diffusion XL
我們將使用Stable Diffusion XL(SDXL)模型來生成高質(zhì)量圖像。先使用基本模式生成latent圖像,然后使用提煉器對(duì)其進(jìn)行處理,以生成詳細(xì)而準(zhǔn)確的圖像。
鏈接:hf.co/spaces/hysts/SD-XL
在生成圖像之前,我們將向下滾動(dòng),并打開“高級(jí)選項(xiàng)”。我們將添加一個(gè)負(fù)面提示,設(shè)置種子,并運(yùn)用提煉器以獲得最佳圖像質(zhì)量。
然后,我們將編寫與之前相同的提示,只是做了一些小的更改。我們將生成一個(gè)年輕的印度女性的圖像,而不是一個(gè)普通的年輕女性的圖像。
這個(gè)結(jié)果經(jīng)過了大幅改善。人臉五官完美。不妨嘗試生成其他種族的人臉,以檢查偏差并比較結(jié)果。
我們得到了逼真的臉,但所有圖像都有Instagram濾鏡。通常,皮膚在現(xiàn)實(shí)生活中并不光滑,會(huì)有粉刺、斑點(diǎn)、雀斑和皺紋。
3. CivitAI:RealVisXL V2.0
在這一部分中,我們將生成帶有疤痕和逼真皮膚的精致人臉。為此,我們將使用CivitAI的自定義模型(RealVisXL V2.0),該模型進(jìn)行了微調(diào),以獲得高質(zhì)量圖像。
鏈接:civitai.com/models/139562/realvisxl-v20
你可以通過點(diǎn)擊“創(chuàng)建”按鈕在線使用該模型,也可以通過Stable Diffusion WebUI下載到本地使用。
首先,下載模型并將文件移動(dòng)到Stable Diffusion WebUI模型目錄:C:\WebUI\webui\ models\Stable- Diffusion。
要在WebUI上顯示模型,你必須按刷新按鈕,然后選擇“realvisxl20…”模型檢查點(diǎn)。
我們將從編寫相同的正面提示和負(fù)面提示開始入手,生成高質(zhì)量的1024X1024圖像。
這張照片看起來很完美。為了充分利用自定義模型,我們必須更改提示。
新的正面和負(fù)面提示可以通過向下滾動(dòng)模型頁面并點(diǎn)擊你喜歡的逼真圖像來獲得。CivitAI上的圖像隨帶正面和負(fù)面提示以及先進(jìn)的轉(zhuǎn)向。
正面提示:“一個(gè)印度年輕女子的形象,專注,果斷,逼真,動(dòng)態(tài)姿勢(shì),超高分辨率,銳利的紋理,高細(xì)節(jié)的RAW照片,精致的人臉,淺景深,銳利的眼睛,(逼真的皮膚紋理:1.2),淺色皮膚,DSLR,膠片紋理”
負(fù)面提示:“(最差質(zhì)量,低質(zhì)量,插圖,3D, 2D,繪畫,漫畫,素描),張嘴”
我們有一個(gè)印度女人的詳細(xì)圖像,皮膚逼真。與基本的SDXL模型相比,它是一個(gè)改進(jìn)版。
我們又生成了三個(gè)圖像來比較不同的種族。結(jié)果驚人,包含皮膚疤痕、凹凸不平的皮膚和準(zhǔn)確的臉部特征。
結(jié)論
生成式藝術(shù)方面的進(jìn)步將很快達(dá)到真實(shí)圖像和合成圖像難以區(qū)分的水平。這標(biāo)志著在將來,任何人都可以利用基于各種現(xiàn)實(shí)世界數(shù)據(jù)訓(xùn)練的自定義模型,由簡(jiǎn)單的文本提示創(chuàng)建高度逼真的可傳播媒介。快速的進(jìn)步意味著令人興奮的潛力——也許有一天,生成逼真的視頻可能像輸入描述性提示一樣簡(jiǎn)單。
我們在這篇文章中學(xué)習(xí)了提示工程、先進(jìn)的Stable設(shè)計(jì)模型和服裝微調(diào)模型,以生成高度準(zhǔn)確和逼真的人臉。如果你想要更好的效果,建議在civitai.com上探究各種高質(zhì)量的模型。
原文標(biāo)題:3 Ways to Generate Hyper-Realistic Faces Using Stable Diffusion,作者:Abid Ali Awan