自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

速度提升數(shù)十倍,只需一張圖一句話,谷歌新模型20秒即可實現(xiàn)變臉

人工智能 新聞
時隔 8 個月,谷歌又提出了一種能在 20 秒內實現(xiàn)人臉個性化處理的新生成模型。

此前,谷歌和波士頓大學的研究者提出了一種「個性化(Personalization)」的文本到圖像擴散模型 DreamBooth,用戶只需提供 3~5 個樣本 + 一句話,AI 就能定制照片級圖像。

對于「個性化」我們可以這樣理解,以輸入圖像為參考,生成的圖像在各種情境和不同風格中都能保持對其身份的高度忠實。

舉例來講,輸入左側 4 張小狗的照片,DreamBooth 就可以生成不同類型的小狗,如小狗在景點里旅游、在海里游泳、趴在窩棚里睡覺、甚至人類給它修剪毛發(fā),而生成的圖片都高度保持了原圖像的特點。

圖片圖片

然而,個性化過程在時間和內存需求方面還存在很多挑戰(zhàn)。具體到單個個性化模型,進行微調需要大量的 GPU 時間投入,不僅如此,個性化模型還需要很高的存儲容量。

為了克服這些挑戰(zhàn),時隔 8 個月,谷歌又提出了一種新的生成模型 HyperDreamBooth。HyperDreamBooth 可以生成不同上下文和風格的人臉,同時還能保留臉部關鍵知識。

在只使用一張參考圖像的情況下,HyperDreamBooth 在大約 20 秒內實現(xiàn)了對人臉的個性化處理,比 DreamBooth 快 25 倍,比 Textual Inversion 快 125 倍,不僅如此,生成的圖像與 DreamBooth 質量一樣、風格還多樣性。此外,HyperDreamBooth 還比常規(guī)的 DreamBooth 模型小 10000 倍。

圖片圖片

論文地址:https://arxiv.org/pdf/2307.06949.pdf

論文主頁:https://hyperdreambooth.github.io/

在我們深入探討技術細節(jié)之前,先看一些效果。

下圖中,左邊一欄是輸入圖像,給定一張圖像就可以;中間一欄是根據(jù)不同的提示生成的人臉,提示語分別是 Instagram 上一張 V 型臉的自拍照;皮克斯卡通人物的 V 型臉;搖滾明星 V 型臉;樹皮一樣的 V 型臉。最右邊生成的是人物專業(yè)照片 V 型臉。結果顯示,HyperDreamBooth 具有相當大的可編輯性,同時還能保持人物關鍵面部特征的完整性。

圖片圖片

HyperDreamBooth 與 Textual Inversion 、DreamBooth 方法比較有何優(yōu)勢呢?

下圖展示了兩個示例、5 種風格,結果顯示,HyperDreamBooth 可以很好的保持輸入圖像特性,還具有很強的可編輯性。

圖片圖片

接下來我們看看 HyperDreamBooth 具體是如何實現(xiàn)的。

方法介紹

該研究提出的方法由 3 個核心部分組成,分別是輕量級 DreamBooth(Lightweight DreamBooth,LiDB)、預測 LiDB 權重的 HyperNetwork 和 rank-relaxed 快速微調。

LiDB 的核心思想是進一步分解 rank-1 LoRa 殘差的權重空間。具體來說,該研究使用 rank-1 LoRA 權重空間內的隨機正交不完全基(random orthogonal incomplete basis)來實現(xiàn)這一點,如下圖所示:

圖片圖片

HyperDreamBooth 的訓練和快速微調如下圖 2 所示,分為兩個階段。

圖片圖片

第 1 階段:訓練 HyperNetwork 以根據(jù)人臉圖像預測網(wǎng)絡權重。該研究使用預先計算的個性化權重進行監(jiān)督,使用 L2 損失和 vanilla 擴散重建損失函數(shù)。第 2 階段:給定面部圖像,用 HyperNetwork 預測網(wǎng)絡權重的初步猜測(initial guess),然后使用重建損失進行微調以增強保真度。

HyperNetwork 架構

該研究使用的 HyperNetwork 架構如下圖 4 所示。其中,視覺 Transformer(ViT)編碼器將人臉圖像轉換成潛在的人臉特征,然后將其連接到潛在層權重特征(初始化為 0)。Transformer 解碼器接收連接特征的序列,并通過使用 delta 預測細化初始權重來迭代地預測權重特征的值。

圖片圖片

值得一提的是,這是 transformer 解碼器首次被用于 HyperNetwork。

如下圖所示,HyperNetwork + 快速微調取得了良好的效果:

圖片圖片

實驗

下表為 HyperDreamBooth 與 DreamBooth、 Textual Inversion 比較結果。表明,在所有指標上,HyperDreamBooth 得分最高。

圖片圖片

下表為不同迭代次數(shù)下的比較結果,比較模型包括 HyperDreamBooth、DreamBooth、400 次迭代的 DreamBooth-Agg-1 和 40 次迭代的 DreamBooth-Agg-2。結果顯示,HyperDreamBooth 在三項指標上都超過其他模型。

圖片

下表為消融實驗結果:主要對比的是 HyperNetwork 對性能的影響。

圖片圖片

用戶研究。該研究還讓用戶以投票的方式參與評估,結果顯示用戶對 HyperNetwork 生成的結果偏好強烈。

圖片

了解更多內容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-28 00:53:03

AI3D

2023-03-17 16:47:46

圖像特技

2024-02-08 09:33:37

蘋果AI

2015-08-03 10:21:04

設計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2023-01-07 12:53:44

模型效果Muse

2023-12-12 13:24:00

項目promptT2V

2010-03-29 11:55:12

無線上網(wǎng)報錯

2023-05-08 15:44:23

3D數(shù)字人

2022-11-11 15:06:17

模型AI

2022-12-12 13:45:46

模型修圖

2023-05-12 14:13:23

3D建模OpenAI

2025-03-19 13:12:14

2019-08-15 11:42:56

程序員電腦軟件

2018-09-21 10:45:54

2014-05-07 10:47:51

移動金融互聯(lián)網(wǎng)金融GMIC

2018-01-15 10:45:43

社交網(wǎng)絡互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼

2019-09-05 10:13:28

點贊
收藏

51CTO技術棧公眾號