一周2.5k star,3張照片打造專屬形象,開源項目FaceChain讓每個人AIGC出個人寫真
最近,一些 AI 生成視覺形象的應用爆火,例如只需 9 塊 9 就能生成個人寫真的「妙鴨相機」。由于操作簡單,不涉及任何技術操作,很多用戶都紛紛在朋友圈曬出妙鴨相機生成的寫真。
妙鴨相機雖然好用,但它是一個需要付費的應用?,F(xiàn)在,一個名為 FaceChain 的開源項目可以用 AI 模型打造人物寫真。項目上線一周,已經(jīng)狂攬 2.5k star,今天還上了Github趨勢排行榜第一名。
項目地址:https://github.com/modelscope/facechain
用戶僅需提供最低三張照片,就可以獲得特定風格的個人寫真。例如,生成商務證件照:
也可以在 ModelScope 創(chuàng)空間中直接體驗這項應用,無需任何安裝步驟。
試玩地址:https://modelscope.cn/studios/CVstudio/cv_human_portrait/summary
作者在項目介紹中講解了 AI 生成個人寫真的技術原理,解釋了生成式 AI 模型如何成為「寫真神器」,我們來看下這部分講解內容。
個人寫真的生成原理
基本原理
AI 生成個人寫真的能力來源于 Stable Diffusion 模型的文生圖功能,—— 輸入一段文本或一系列 prompt,輸出對應的圖像。而影響個人寫真生成效果的因素主要有兩方面:寫真風格信息和用戶人物信息。
為此,項目作者分別使用線下訓練的風格 LoRA 模型和線上訓練的人臉 LoRA 模型來學習上述兩方面的信息。LoRA 是一種具有較少可訓練參數(shù)的微調模型,在 Stable Diffusion 中,可以通過對少量輸入圖像進行文生圖訓練的方式將輸入圖像的信息注入到 LoRA 模型中。
因此,個人寫真模型的能力分為訓練與推斷兩個階段,訓練階段生成用于微調 Stable Diffusion 模型的圖像與文本標簽數(shù)據(jù),得到人臉 LoRA 模型;推斷階段基于人臉 LoRA 模型和風格 LoRA 模型生成個人寫真圖像。
訓練階段
訓練階段的輸入是用戶上傳的包含清晰人臉區(qū)域的圖像,輸出是人臉 LoRA 模型。
具體來說,項目作者首先使用基于朝向判斷的圖像旋轉模型,以及基于人臉檢測和關鍵點模型的人臉精細化旋轉方法,來處理用戶上傳圖像,得到包含正向人臉的圖像;接下來使用人體解析模型和人像美膚模型,以獲得高質量的人臉訓練圖像;隨后,該項目使用人臉屬性模型和文本標注模型,結合標簽后處理方法,產(chǎn)生訓練圖像的精細化標簽;最后使用上述圖像和標簽數(shù)據(jù)微調 Stable Diffusion 模型得到人臉 LoRA 模型。
推斷階段
推斷階段的輸入是訓練階段用戶上傳圖像和預設的用于生成個人寫真的輸入 prompt,輸出是個人寫真圖像。
在推斷階段,該項目首先將人臉 LoRA 模型和風格 LoRA 模型的權重融合到 Stable Diffusion 模型中;接下來使用 Stable Diffusion 模型的文生圖功能,基于預設的 prompt 初步生成個人寫真圖像;隨后,該項目使用人臉融合模型進一步改善上述寫真圖像的人臉細節(jié),其中用于融合的模板人臉通過人臉質量評估模型在訓練圖像中進行挑選;最后再使用人臉識別模型計算生成的寫真圖像與模板人臉的相似度,以此對寫真圖像進行排序,并輸出排名靠前的個人寫真圖像作為最終輸出結果。
項目作者已詳細介紹安裝與使用方法,并將項目代碼開源,感興趣的讀者快去試試吧。