自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ChatGPT新漏洞:失控背出個(gè)人隱私泄露訓(xùn)練數(shù)據(jù),OpenAI修復(fù)后依然有效

人工智能 新聞
DeepMind的研究人員聯(lián)合華盛頓大學(xué)、康奈爾大學(xué)等高校,發(fā)現(xiàn)了ChatGPT的數(shù)據(jù)泄露漏洞。

ChatGPT最新漏洞曝光,一句話就能讓訓(xùn)練數(shù)據(jù)原封不動(dòng)地泄露。

只需要讓它重復(fù)一個(gè)詞,它就會(huì)在一定次數(shù)后“發(fā)瘋”,甚至毫無(wú)防備說(shuō)出某人的個(gè)人隱私信息。

圖片

DeepMind的研究人員聯(lián)合華盛頓大學(xué)、康奈爾大學(xué)等高校,發(fā)現(xiàn)了ChatGPT的數(shù)據(jù)泄露漏洞。

利用他們的方法,只要預(yù)算充足,可以提取出大約1GB的訓(xùn)練數(shù)據(jù)。

圖片

更可怕的是,訓(xùn)練時(shí)間越長(zhǎng)——也就是越強(qiáng)大的模型,泄露出來(lái)的數(shù)據(jù)反而越多。

研究團(tuán)隊(duì)已在論文發(fā)表之前90天把這一情況報(bào)告給了OpenAI,后者也做出了一定修復(fù)。

但到現(xiàn)在還是有網(wǎng)友發(fā)現(xiàn),把論文里的詞改一改,bug就會(huì)卷土重來(lái)。

圖片

那么,這個(gè)漏洞究竟是怎么一回事呢?

數(shù)據(jù)泄露防不勝防

作者攻擊ChatGPT(API訪問(wèn),3.5-turbo版本)的方式,叫做分歧攻擊。

他們發(fā)現(xiàn),當(dāng)ChatGPT被要求重復(fù)一個(gè)單詞多次時(shí),模型會(huì)在某些情況下偏離正常的聊天式生成,開(kāi)始輸出與訓(xùn)練數(shù)據(jù)更接近的文本。

圖片

這些內(nèi)容五花八門(mén),除了個(gè)人信息,還包括文學(xué)作品、學(xué)術(shù)論文、鏈接、代碼……甚至是工作場(chǎng)所不宜內(nèi)容。

為了驗(yàn)證這些內(nèi)容是否來(lái)自于訓(xùn)練數(shù)據(jù),作者用了多個(gè)公開(kāi)模型的訓(xùn)練數(shù)據(jù)組成了AuxDataset數(shù)據(jù)集(由于ChatGPT數(shù)據(jù)集未公開(kāi),只能通過(guò)其他模型的數(shù)據(jù)來(lái)估計(jì))

結(jié)果發(fā)現(xiàn)有上萬(wàn)條內(nèi)容命中了AuxDataset,這些內(nèi)容長(zhǎng)度不等,最長(zhǎng)的有4000多token。

圖片

作者還發(fā)現(xiàn),這種攻擊方法對(duì)單詞提示更有效,而對(duì)多詞提示則效果較差,特別是當(dāng)被要求重復(fù)的詞是company時(shí),能獲得到的信息是最多的。

圖片

作者使用Good-Turing估計(jì)器估計(jì)了ChatGPT中可提取記憶的總量,結(jié)論是至少有150萬(wàn)個(gè)獨(dú)特的50-gram序列(相鄰的50個(gè)token)是可提取的。

不過(guò)由于預(yù)算有限,作者表示這個(gè)估計(jì)可能低估了可提取數(shù)據(jù)的規(guī)模。

不僅是API,在正式的網(wǎng)頁(yè)版ChatGPT中測(cè)試,也有概率得到同樣的結(jié)果,說(shuō)明模型之外的“系統(tǒng)護(hù)欄”也沒(méi)能防住這波攻擊。

圖片

我們簡(jiǎn)單實(shí)測(cè)了一下,發(fā)現(xiàn)這個(gè)漏洞到目前仍然沒(méi)有被完全修復(fù)。

當(dāng)重復(fù)詞為“text”時(shí),ChatGPT沒(méi)有輸出其他內(nèi)容,但給對(duì)話起了一個(gè)奇怪的標(biāo)題。

圖片

而當(dāng)重復(fù)詞為“company”時(shí),ChatGPT經(jīng)過(guò)三次regenerate后輸出了一段疑似是ins文案的內(nèi)容。

圖片

不過(guò)作者表示,這種攻擊方法目前只對(duì)3.5版本奏效,GPT-4由于專(zhuān)門(mén)做過(guò)防泄露方面的對(duì)齊,逃過(guò)了一劫。

這種對(duì)齊在3.5版本中也有設(shè)置,但3.5的防御措施可以通過(guò)論文中展示的提示詞攻擊方法來(lái)繞過(guò)。

圖片

除了ChatGPT,作者也對(duì)Llama、Falcon、Mistral等開(kāi)源或半開(kāi)源模型進(jìn)行了測(cè)試,結(jié)果發(fā)現(xiàn)同樣存在數(shù)據(jù)泄露現(xiàn)象。

圖片

而越強(qiáng)大的模型,泄露出的數(shù)據(jù)也越多,ChatGPT泄露的數(shù)據(jù)量明顯超過(guò)了其他模型。

圖片

泄露現(xiàn)象出現(xiàn)的范圍也不局限在語(yǔ)言模型,該團(tuán)隊(duì)之前還從Stable Diffusion中提取了訓(xùn)練數(shù)據(jù)集中的約100張人物照片和其他類(lèi)型的圖像。

他們發(fā)現(xiàn),當(dāng)用訓(xùn)練數(shù)據(jù)集中人物的姓名做Prompt時(shí),Stable Diffusion就會(huì)“偷懶”,直接把照片當(dāng)做輸出結(jié)果。

圖片

網(wǎng)友:還有其他攻擊方法

這篇論文中提到的方式并不是孤例,還有其他攻擊方法也能達(dá)到類(lèi)似的結(jié)果,比如用沒(méi)什么實(shí)際意義的123ABC加上簡(jiǎn)單的代碼就讓ChatGPT生成了一段關(guān)于臭氧層的文本。

圖片

發(fā)現(xiàn)者解釋到,這是ChatGPT的輸入清理機(jī)制的漏洞導(dǎo)致的,它清除了套娃式的兩個(gè)<|endoftext>標(biāo)簽中處于內(nèi)部的一個(gè),但外部的“殼”則由于初始形態(tài)被拆開(kāi)而被忽略。

圖片

作者和網(wǎng)友們的這些新發(fā)現(xiàn),意味著ChatGPT違反了歐盟通用數(shù)據(jù)保護(hù)條例(GDPR)的規(guī)定,OpenAI可能會(huì)因此遇到麻煩。

GDPR第17條規(guī)定,數(shù)據(jù)主體(用戶)有權(quán)要求控制者(模型開(kāi)發(fā)者)立即刪除與其有關(guān)的個(gè)人數(shù)據(jù),也就是擁有“遺忘權(quán)”。

圖片

不過(guò),一般個(gè)人對(duì)此也不必那么擔(dān)心,因?yàn)檫@種攻擊方式成本不低。

在這個(gè)實(shí)驗(yàn)中,研究者提取幾MB數(shù)據(jù),就已經(jīng)花費(fèi)了200美元。

圖片

那么,對(duì)于ChatGPT泄露數(shù)據(jù)這件事,你有什么看法?

論文地址:https://arxiv.org/abs/2311.17035

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2020-09-17 17:56:24

數(shù)據(jù)泄露隱私信息安全

2023-03-28 10:09:56

ChatGPT開(kāi)源庫(kù)漏洞

2021-05-06 09:18:56

漏洞網(wǎng)絡(luò)安全iPhone

2017-03-02 15:45:07

2009-04-08 08:35:31

2013-04-01 09:33:03

個(gè)人隱私數(shù)字文件Facebook

2023-08-21 15:16:03

數(shù)據(jù)隱私安全

2021-04-06 09:34:31

Facebook隱私黑客

2011-04-15 09:39:10

2021-01-28 11:16:28

TikTok漏洞數(shù)據(jù)泄露

2022-03-21 15:29:53

大數(shù)據(jù)隱私數(shù)據(jù)分析

2016-09-28 14:52:03

2020-02-13 09:35:42

信息安全大數(shù)據(jù)技術(shù)

2017-06-19 14:36:37

2020-12-11 14:30:33

安全隱私數(shù)據(jù)

2017-10-19 18:53:10

2023-03-27 13:17:42

2022-03-17 16:40:33

3.15晚會(huì)安全隱私

2022-10-20 11:46:31

2023-05-05 00:10:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)