自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開挖擴(kuò)散模型小動(dòng)作,生成圖像幾乎原版復(fù)制訓(xùn)練數(shù)據(jù),隱私要暴露了

人工智能 新聞
該研究表明,擴(kuò)散模型能從其訓(xùn)練數(shù)據(jù)中記憶圖像,并在生成圖像中復(fù)現(xiàn)。

去噪擴(kuò)散模型是一類新興的生成神經(jīng)網(wǎng)絡(luò),通過迭代去噪過程從訓(xùn)練分布中生成圖像。與之前的方法(如 GANs 和 VAEs)相比,這類擴(kuò)散模型產(chǎn)生的樣本質(zhì)量更高,且更容易擴(kuò)展和控制。因此,經(jīng)過快速發(fā)展,它們已經(jīng)可以生成高分辨率圖像,而公眾也對(duì)諸如 DALL-E 2 這樣的大型模型產(chǎn)生了極大的興趣。

生成擴(kuò)散模型的魅力在于它們合成新圖像的能力,從表面上看,這些圖像不同于訓(xùn)練集中的任何東西。而事實(shí)上,過去大規(guī)模的訓(xùn)練工作沒有發(fā)現(xiàn)過擬合會(huì)成為問題,隱私敏感領(lǐng)域的研究人員甚至建議可以用擴(kuò)散模型來保護(hù)隱私,通過生成合成示例來生成真實(shí)圖像。這一系列的工作是在擴(kuò)散模型沒有記憶和重新生成訓(xùn)練數(shù)據(jù)的假設(shè)下進(jìn)行的。而這樣做將違反所有的隱私保障,并滋生模型泛化和數(shù)字偽造方面的許多問題。

本文中,來自谷歌、 DeepMind 等機(jī)構(gòu)的研究者證明了 SOTA 擴(kuò)散模型確實(shí)可以記憶和重新生成單個(gè)訓(xùn)練示例。

圖片

論文地址:https://arxiv.org/pdf/2301.13188v1.pdf

首先,研究提出并實(shí)現(xiàn)了圖像模型中記憶的新定義。然后,研究設(shè)計(jì)了分為兩階段的數(shù)據(jù)提取入侵(data extraction attack),使用標(biāo)準(zhǔn)方法生成圖像,并對(duì)一些圖像進(jìn)行標(biāo)記。研究將該方法應(yīng)用于 Stable Diffusion 和 Imagen,從而提取了 100 多個(gè)幾乎相同的訓(xùn)練圖像副本,這些圖像中,既有個(gè)人可識(shí)別照片也有商標(biāo) logo(如圖 1)。

圖片

為了更好地理解記憶的方式和其中的緣由,研究者在 CIFAR10 上訓(xùn)練了數(shù)百個(gè)擴(kuò)散模型,以分析模型精度、超參數(shù)、增強(qiáng)和重復(fù)數(shù)據(jù)刪除對(duì)隱私的影響。擴(kuò)散模型是研究評(píng)估中私密度最低的圖像模型形式,它們泄漏的訓(xùn)練數(shù)據(jù)是 GANs 的兩倍之多。更糟的是,研究還發(fā)現(xiàn)現(xiàn)有的隱私增強(qiáng)技術(shù)無法提供可接受的隱私 - 效用權(quán)衡??偟膩碚f,本文強(qiáng)調(diào)了日益強(qiáng)大的生成模型和數(shù)據(jù)隱私之間存在著緊張的關(guān)系,并提出了關(guān)于擴(kuò)散模型如何工作以及如何被妥善部署的問題。

為什么要做這項(xiàng)研究?

理解擴(kuò)散模型如何記憶和重新生成訓(xùn)練數(shù)據(jù)的背后存在著兩個(gè)動(dòng)機(jī)。

第一個(gè)是了解隱私風(fēng)險(xiǎn)。重新生成從互聯(lián)網(wǎng)上抓取數(shù)據(jù)的擴(kuò)散模型可能會(huì)帶來與語言模型類似的隱私和版權(quán)風(fēng)險(xiǎn)。比方說,已經(jīng)有人指出,記憶和重新生成受版權(quán)保護(hù)的文本和源代碼存在著潛在的侵權(quán)指標(biāo)。那么同理,復(fù)制專業(yè)藝術(shù)家創(chuàng)作的圖像也會(huì)被稱為數(shù)字偽造,藝術(shù)界為此展開了一場爭論。

第二個(gè)是理解泛化。除了數(shù)據(jù)隱私,理解擴(kuò)散模型如何以及為什么記憶訓(xùn)練數(shù)據(jù)有助于理解它們的泛化能力。例如,大規(guī)模生成模型的一個(gè)常見問題是,它們令人印象深刻的結(jié)果是來自真正的生成,還是直接復(fù)制和重新混合訓(xùn)練數(shù)據(jù)的結(jié)果。通過研究記憶,可以提供生成模型執(zhí)行這種數(shù)據(jù)復(fù)制速率的具體經(jīng)驗(yàn)描述。

從 SOTA 擴(kuò)散模型中提取數(shù)據(jù)

從 Stable Diffusion 中提取數(shù)據(jù)

現(xiàn)在從 Stable Diffusion(最大、最流行的開源擴(kuò)散模型)中提取訓(xùn)練數(shù)據(jù)。

本次提取將先前工作的方法應(yīng)用于圖像,包括兩個(gè)步驟:

1. 使用標(biāo)準(zhǔn)抽樣方式的擴(kuò)散模型并使用前一節(jié)的已知 prompt 生成多個(gè)示例。

2. 進(jìn)行推理,將新一代的模型與已記憶的訓(xùn)練模型相分離。

為了評(píng)估入侵的有效性,研究從訓(xùn)練數(shù)據(jù)集中選擇了 35 萬個(gè)重復(fù)次數(shù)最多的示例,并為每個(gè)提示生成 500 個(gè)候選圖像(總共生成 1.75 億張圖像)。

首先,研究對(duì)所有這些生成的圖像進(jìn)行排序,以確定哪些是記憶訓(xùn)練數(shù)據(jù)生成的圖像。然后,將這些生成的每張圖像與論文中定義 1 下的訓(xùn)練圖像進(jìn)行比較,并將每張圖像注釋為提取或未提取。研究發(fā)現(xiàn)有 94 張圖像被提取,為了確保這些圖像不僅是符合某些任意的定義,研究還通過視覺分析手動(dòng)注釋了前 1000 張生成的圖像,這些圖像要么是記憶的,要么是沒有記憶的,并且發(fā)現(xiàn)另外 13 張(總共 109 張圖像)幾乎是訓(xùn)練示例的副本,即使它們不符合研究 L_2 范數(shù)定義。圖 3 顯示了提取圖像的子集,這些圖像以近乎完美像素的精度再現(xiàn)。

圖片

實(shí)驗(yàn)還給出了在有給定帶注釋的有序圖像集的情況下,計(jì)算曲線,評(píng)估提取的圖像數(shù)量與入侵的假陽性率。入侵異常精確:在 1.75 億張生成的圖像中,可以識(shí)別出 50 張 0 假陽性的記憶圖像,并且所有的記憶圖像都可以以 50% 以上的精度提取。圖 4 包含了兩種記憶定義的精度 - 召回曲線。

圖片

從圖像中提取數(shù)據(jù)

盡管 Stable Diffusion 是目前公開可用的擴(kuò)散模型中最佳選擇,但一些非公開模型使用更大的模型和數(shù)據(jù)集獲得了更強(qiáng)的性能。先前研究發(fā)現(xiàn),較大的模型更容易記住訓(xùn)練數(shù)據(jù),因此該研究對(duì) Imagen(一個(gè) 20 億參數(shù)的文本 - 圖像擴(kuò)散模型)展開了研究。

令人驚訝的是,研究發(fā)現(xiàn)在 Imagen 中入侵非分布圖像比在 Stable Diffusion 中更有效。在 Imagen 上,研究嘗試提取出 500 張 out-of - distribution(OOD)得分最高的圖像。Imagen 記憶并復(fù)制了其中 3 個(gè)圖像(這三個(gè)圖像在訓(xùn)練數(shù)據(jù)集中是獨(dú)有的)。相比之下,當(dāng)研究將相同的方法應(yīng)用于 Stable Diffusion 時(shí),即使在嘗試提取 10,000 個(gè)最離群的樣本后,也未能識(shí)別任何記憶。因此,在復(fù)制和非復(fù)制圖像上,Imagen 比 Stable Diffusion 的私密性更差。這可能是由于 Imagen 使用的模型比 Stable Diffusion 更大,因此記得的圖像也就更多。此外,Imagen 在更小的數(shù)據(jù)集上進(jìn)行了更多的迭代訓(xùn)練,這也可以有助于提高記憶水平。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2017-02-17 15:51:00

GoogleAndroid編程

2023-11-17 08:46:26

2017-06-02 10:05:11

電商數(shù)據(jù)物流

2023-10-28 13:31:08

模型數(shù)據(jù)

2023-08-31 22:24:18

Vega擴(kuò)散模型圖像

2023-09-04 12:59:03

AI數(shù)據(jù)

2025-01-15 09:28:42

訓(xùn)練模型圖像生成

2023-10-11 12:32:26

模型訓(xùn)練

2024-11-12 13:10:49

2021-12-29 08:38:07

數(shù)據(jù)泄露漏洞信息安全

2024-10-30 14:10:00

圖像生成模型

2021-12-30 10:11:38

模型人工智能深度學(xué)習(xí)

2024-10-29 14:40:00

圖像生成模型

2023-02-14 10:30:07

ChatGPT代碼微軟

2024-12-05 13:00:00

2020-06-15 14:18:05

數(shù)據(jù)平臺(tái)架構(gòu)

2020-09-16 10:46:44

數(shù)據(jù)泄漏雷蛇鼠標(biāo)

2022-02-16 09:15:23

數(shù)據(jù)泄露網(wǎng)絡(luò)安全

2023-07-06 08:00:00

機(jī)器學(xué)習(xí)擴(kuò)散模型Midjourney

2024-05-24 08:42:29

智能體訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)