速度提升數(shù)十倍,只需一張圖一句話,谷歌新模型20秒即可實現(xiàn)變臉
此前,谷歌和波士頓大學的研究者提出了一種「個性化(Personalization)」的文本到圖像擴散模型 DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定制照片級圖像。
對于「個性化」我們可以這樣理解,以輸入圖像為參考,生成的圖像在各種情境和不同風格中都能保持對其身份的高度忠實。
舉例來講,輸入左側 4 張小狗的照片,DreamBooth 就可以生成不同類型的小狗,如小狗在景點里旅游、在海里游泳、趴在窩棚里睡覺、甚至人類給它修剪毛發(fā),而生成的圖片都高度保持了原圖像的特點。
圖片
然而,個性化過程在時間和內存需求方面還存在很多挑戰(zhàn)。具體到單個個性化模型,進行微調需要大量的 GPU 時間投入,不僅如此,個性化模型還需要很高的存儲容量。
為了克服這些挑戰(zhàn),時隔 8 個月,谷歌又提出了一種新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和風格的人臉,同時還能保留臉部關鍵知識。
在只使用一張參考圖像的情況下,HyperDreamBooth 在大約 20 秒內實現(xiàn)了對人臉的個性化處理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不僅如此,生成的圖像與 DreamBooth 質量一樣、風格還多樣性。此外,HyperDreamBooth 還比常規(guī)的 DreamBooth 模型小 10000 倍。
圖片
論文地址:https://arxiv.org/pdf/2307.06949.pdf
論文主頁:https://hyperdreambooth.github.io/
在我們深入探討技術細節(jié)之前,先看一些效果。
下圖中,左邊一欄是輸入圖像,給定一張圖像就可以;中間一欄是根據(jù)不同的提示生成的人臉,提示語分別是 Instagram 上一張 V 型臉的自拍照;皮克斯卡通人物的 V 型臉;搖滾明星 V 型臉;樹皮一樣的 V 型臉。最右邊生成的是人物專業(yè)照片 V 型臉。結果顯示,HyperDreamBooth 具有相當大的可編輯性,同時還能保持人物關鍵面部特征的完整性。
圖片
HyperDreamBooth 與 Textual Inversion 、DreamBooth 方法比較有何優(yōu)勢呢?
下圖展示了兩個示例、5 種風格,結果顯示,HyperDreamBooth 可以很好的保持輸入圖像特性,還具有很強的可編輯性。
圖片
接下來我們看看 HyperDreamBooth 具體是如何實現(xiàn)的。
方法介紹
該研究提出的方法由 3 個核心部分組成,分別是輕量級 DreamBooth(Lightweight DreamBooth,LiDB)、預測 LiDB 權重的 HyperNetwork 和 rank-relaxed 快速微調。
LiDB 的核心思想是進一步分解 rank-1 LoRa 殘差的權重空間。具體來說,該研究使用 rank-1 LoRA 權重空間內的隨機正交不完全基(random orthogonal incomplete basis)來實現(xiàn)這一點,如下圖所示:
圖片
HyperDreamBooth 的訓練和快速微調如下圖 2 所示,分為兩個階段。
圖片
第 1 階段:訓練 HyperNetwork 以根據(jù)人臉圖像預測網(wǎng)絡權重。該研究使用預先計算的個性化權重進行監(jiān)督,使用 L2 損失和 vanilla 擴散重建損失函數(shù)。第 2 階段:給定面部圖像,用 HyperNetwork 預測網(wǎng)絡權重的初步猜測(initial guess),然后使用重建損失進行微調以增強保真度。
HyperNetwork 架構
該研究使用的 HyperNetwork 架構如下圖 4 所示。其中,視覺 Transformer(ViT)編碼器將人臉圖像轉換成潛在的人臉特征,然后將其連接到潛在層權重特征(初始化為 0)。Transformer 解碼器接收連接特征的序列,并通過使用 delta 預測細化初始權重來迭代地預測權重特征的值。
圖片
值得一提的是,這是 transformer 解碼器首次被用于 HyperNetwork。
如下圖所示,HyperNetwork + 快速微調取得了良好的效果:
圖片
實驗
下表為 HyperDreamBooth 與 DreamBooth、 Textual Inversion 比較結果。表明,在所有指標上,HyperDreamBooth 得分最高。
圖片
下表為不同迭代次數(shù)下的比較結果,比較模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。結果顯示,HyperDreamBooth 在三項指標上都超過其他模型。
下表為消融實驗結果:主要對比的是 HyperNetwork 對性能的影響。
圖片
用戶研究。該研究還讓用戶以投票的方式參與評估,結果顯示用戶對 HyperNetwork 生成的結果偏好強烈。
了解更多內容,請參考原論文。