大型語言模型中的隱私注意事項(xiàng)
經(jīng)過訓(xùn)練以預(yù)測(cè)句子中下一個(gè)單詞的基于機(jī)器學(xué)習(xí)的語言模型變得越來越強(qiáng)大、普遍和有用,從而導(dǎo)致問答、翻譯等應(yīng)用程序的突破性改進(jìn)。但隨著語言模型的不斷發(fā)展,新的和意想不到的風(fēng)險(xiǎn)可能會(huì)暴露出來,這就要求研究界積極努力開發(fā)新的方法來緩解潛在的問題。
其中一種風(fēng)險(xiǎn)是模型可能會(huì)從訓(xùn)練數(shù)據(jù)中泄露細(xì)節(jié)。雖然這可能是所有大型語言模型都關(guān)心的問題,但如果要公開使用基于私有數(shù)據(jù)訓(xùn)練的模型,則可能會(huì)出現(xiàn)其他問題。由于這些數(shù)據(jù)集可能很大(數(shù)百 GB)并且來自各種來源,因此它們有時(shí)可能包含敏感數(shù)據(jù),包括個(gè)人身份信息 (PII)——姓名、電話號(hào)碼、地址等,即使是根據(jù)公共數(shù)據(jù)進(jìn)行訓(xùn)練的. 這增加了使用此類數(shù)據(jù)訓(xùn)練的模型可以在其輸出中反映其中一些私人細(xì)節(jié)的可能性。因此,重要的是要識(shí)別并最大限度地降低此類泄漏的風(fēng)險(xiǎn),并制定策略以解決未來模型的問題。
在與OpenAI、Apple、斯坦福大學(xué)、伯克利分校和東北大學(xué)合作的“從大型語言模型中提取訓(xùn)練數(shù)據(jù)”中,我們證明,只要能夠查詢預(yù)訓(xùn)練的語言模型,就可以提取特定的片段模型記憶的訓(xùn)練數(shù)據(jù)。因此,訓(xùn)練數(shù)據(jù)提取攻擊是對(duì)最先進(jìn)的大型語言模型的現(xiàn)實(shí)威脅。這項(xiàng)研究代表了早期的關(guān)鍵步驟,旨在讓研究人員了解此類漏洞,以便他們可以采取措施減輕這些弱點(diǎn)。
語言模型攻擊的倫理
訓(xùn)練數(shù)據(jù)提取攻擊在應(yīng)用于公眾可用但訓(xùn)練中使用的數(shù)據(jù)集不可用的模型時(shí)最有可能造成傷害。然而,由于在這樣的數(shù)據(jù)集上進(jìn)行這項(xiàng)研究可能會(huì)產(chǎn)生有害的后果,我們改為對(duì)GPT-2進(jìn)行概念驗(yàn)證訓(xùn)練數(shù)據(jù)提取攻擊,GPT-2是一種由 OpenAI 開發(fā)的大型公開可用語言模型,僅使用公共數(shù)據(jù)進(jìn)行訓(xùn)練。雖然這項(xiàng)工作特別關(guān)注 GPT-2,但結(jié)果適用于理解大型語言模型上可能存在的隱私威脅。
與其他與隱私和安全相關(guān)的研究一樣,在實(shí)際執(zhí)行此類攻擊之前考慮此類攻擊的道德規(guī)范很重要。為了最大限度地降低這項(xiàng)工作的潛在風(fēng)險(xiǎn),這項(xiàng)工作中的訓(xùn)練數(shù)據(jù)提取攻擊是使用公開可用的數(shù)據(jù)開發(fā)的。此外,GPT-2 模型本身在 2019 年由 OpenAI 公開,用于訓(xùn)練 GPT-2 的訓(xùn)練數(shù)據(jù)是從公共互聯(lián)網(wǎng)收集的,任何遵循GPT中記錄的數(shù)據(jù)收集過程的人都可以下載-2 紙。
此外,根據(jù)負(fù)責(zé)任的計(jì)算機(jī)安全披露規(guī)范,我們會(huì)跟蹤提取了 PII 的個(gè)人,并在發(fā)布對(duì)這些數(shù)據(jù)的引用之前獲得了他們的許可。此外,在這項(xiàng)工作的所有出版物中,我們已經(jīng)編輯了任何可能識(shí)別個(gè)人身份的個(gè)人識(shí)別信息。我們還在 GPT-2 的分析中與 OpenAI 密切合作。
訓(xùn)練數(shù)據(jù)提取攻擊
根據(jù)設(shè)計(jì),語言模型使得生成大量輸出數(shù)據(jù)變得非常容易。通過用隨機(jī)短語為模型播種,該模型可以生成數(shù)百萬個(gè)延續(xù),即完成句子的可能短語。大多數(shù)情況下,這些延續(xù)將是合理文本的良性字符串。例如,當(dāng)被要求預(yù)測(cè)字符串“ Mary had a little… ”的連續(xù)性時(shí),語言模型將有很高的置信度認(rèn)為下一個(gè)標(biāo)記是“ lamb ”這個(gè)詞。但是,如果某個(gè)特定的訓(xùn)練文檔碰巧多次重復(fù)字符串“ Mary had a little wombat ”,模型可能會(huì)改為預(yù)測(cè)該短語。
訓(xùn)練數(shù)據(jù)提取攻擊的目標(biāo)是篩選來自語言模型的數(shù)百萬個(gè)輸出序列,并預(yù)測(cè)記住哪些文本。為了實(shí)現(xiàn)這一點(diǎn),我們的方法利用了這樣一個(gè)事實(shí),即模型往往對(duì)直接從訓(xùn)練數(shù)據(jù)中捕獲的結(jié)果更有信心。這些成員推理攻擊使我們能夠通過檢查模型對(duì)特定序列的置信度來預(yù)測(cè)結(jié)果是否用于訓(xùn)練數(shù)據(jù)。
這項(xiàng)工作的主要技術(shù)貢獻(xiàn)是開發(fā)了一種高精度推斷成員資格的方法,以及以鼓勵(lì)輸出記憶內(nèi)容的方式從模型中采樣的技術(shù)。我們測(cè)試了許多不同的采樣策略,其中最成功的一種生成以各種輸入短語為條件的文本。然后我們比較兩種不同語言模型的輸出。當(dāng)一個(gè)模型對(duì)序列有很高的置信度,而另一個(gè)(同樣準(zhǔn)確的)模型對(duì)序列的置信度較低時(shí),很可能第一個(gè)模型已經(jīng)記住了數(shù)據(jù)。
結(jié)果
在 GPT-2 語言模型的 1800 個(gè)候選序列中,我們從公共訓(xùn)練數(shù)據(jù)中提取了 600 多個(gè)記憶,總數(shù)受限于需要手動(dòng)驗(yàn)證。記住的示例涵蓋了廣泛的內(nèi)容,包括新聞標(biāo)題、日志消息、JavaScript 代碼、PII 等。盡管這些示例在訓(xùn)練數(shù)據(jù)集中很少出現(xiàn),但它們中的許多示例都被記住了。例如,對(duì)于我們提取的許多 PII 樣本,僅在數(shù)據(jù)集中的單個(gè)文檔中找到。但是,在大多數(shù)情況下,原始文檔包含 PII 的多個(gè)實(shí)例,因此模型仍將其作為高似然文本進(jìn)行學(xué)習(xí)。
最后,我們還發(fā)現(xiàn)語言模型越大,它就越容易記住訓(xùn)練數(shù)據(jù)。例如,在一項(xiàng)實(shí)驗(yàn)中,我們發(fā)現(xiàn) 15 億個(gè)參數(shù)的 GPT-2 XL 模型比 1.24 億個(gè)參數(shù)的 GPT-2 Small 模型記憶的信息多 10 倍。鑒于研究界已經(jīng)訓(xùn)練了 10 到 100 倍大的模型,這意味著隨著時(shí)間的推移,需要做更多的工作來監(jiān)控和緩解越來越大的語言模型中的這個(gè)問題。
經(jīng)驗(yàn)教訓(xùn)
雖然我們專門演示了對(duì) GPT-2 的這些攻擊,但它們顯示了所有大型生成語言模型中的潛在缺陷。這些攻擊是可能的,這一事實(shí)對(duì)使用這些類型模型的機(jī)器學(xué)習(xí)研究的未來產(chǎn)生了重要影響。
幸運(yùn)的是,有幾種方法可以緩解這個(gè)問題。最直接的解決方案是確保模型不會(huì)在任何可能有問題的數(shù)據(jù)上進(jìn)行訓(xùn)練。但這在實(shí)踐中很難做到。
差分隱私 的使用允許對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,而無需透露單個(gè)訓(xùn)練示例的任何細(xì)節(jié),是訓(xùn)練具有隱私的機(jī)器學(xué)習(xí)模型的最有原則的技術(shù)之一。在 TensorFlow 中,這可以通過使用tensorflow/privacy 模塊(或類似的 PyTorch 或 JAX)來實(shí)現(xiàn),該模塊是現(xiàn)有優(yōu)化器的直接替代品。即使這樣也會(huì)有限制,并且不會(huì)阻止對(duì)重復(fù)次數(shù)足夠多的內(nèi)容的記憶。如果這是不可能的,我們建議至少測(cè)量發(fā)生了多少記憶,以便采取適當(dāng)?shù)男袆?dòng)。
語言模型繼續(xù)展示出巨大的實(shí)用性和靈活性——然而,與所有創(chuàng)新一樣,它們也可能帶來風(fēng)險(xiǎn)。負(fù)責(zé)任地發(fā)展它們意味著主動(dòng)識(shí)別這些風(fēng)險(xiǎn)并開發(fā)減輕它們的方法。我們希望這項(xiàng)突出大語言建模當(dāng)前弱點(diǎn)的努力將提高更廣泛的機(jī)器學(xué)習(xí)社區(qū)對(duì)這一挑戰(zhàn)的認(rèn)識(shí),并激勵(lì)研究人員繼續(xù)開發(fā)有效的技術(shù)來訓(xùn)練模型,減少記憶。