ChatGPT泄露陌生男子自拍照!隱私數(shù)據(jù)被模型偷了?網(wǎng)友大恐慌
最近,ChatGPT響應(yīng)中蹦出陌生男子照片事件,讓許多網(wǎng)友們震驚了!
事情是這樣的,一名用戶向ChatGPT求助——Python中的代碼格式化包back該怎樣使用。
開(kāi)始,ChatGPT的回答還很正常。
誰(shuí)料想,ChatGPT忽然就在響應(yīng)中,發(fā)出了一張陌生男子的自拍照!
而且還出現(xiàn)了第二次!
網(wǎng)友們立刻陷入恐慌。
莫非ChatGPT現(xiàn)真身了?
有人猜,這不會(huì)又是一個(gè)AI中的幽靈吧?
或許是ChatGPT的恐怖女士男人版?
有人想起了這樣一個(gè)傳說(shuō):在互聯(lián)網(wǎng)上有大量隱藏在潛伏空間中的東西,這涉及到很多理論。
還有人猜,沒(méi)準(zhǔn)是ChatGPT被下毒了!
或者有人黑進(jìn)了OpenAI,讓ChatGPT隨機(jī)發(fā)布自己的照片,作為戰(zhàn)果來(lái)炫耀。
答案出乎意料
網(wǎng)友們集思廣益,到處搜集線索,終于破案了!
這不是ChatGPT生成的照片,而是一個(gè)用戶的真實(shí)自拍照。
原來(lái),這種照片在2016年12月7日被傳到Imgur上。(這張圖片本來(lái)的瀏覽量在幾百,但是隨著越來(lái)越多群眾圍觀此次事件,目前的瀏覽量已經(jīng)變成17000多次了。)
有人猜測(cè),事情應(yīng)該是這樣的:ChatGPT在生成響應(yīng)的時(shí)候,隨機(jī)生成了一個(gè)Imgur URL,碰巧就鏈到了這個(gè)自拍小伙。
ChatGPT的目標(biāo)就是生成一張說(shuō)明的圖片,它以為自己在分享Visual Studio Code設(shè)置的截圖,沒(méi)想到通過(guò)Imgur鏈接生成的是圖片。
也就是說(shuō),在ChatGPT的訓(xùn)練數(shù)據(jù)集之中,有許多答案包含了指向部分答案的Imgur鏈接,所以Imgur鏈接和正確答案高度相關(guān)。
但是,ChatGPT無(wú)法以統(tǒng)計(jì)方式自動(dòng)完成隨機(jī)圖像鏈接,所以結(jié)果是不可預(yù)測(cè)的。這個(gè)小伙的照片,類似于GPT的幻覺(jué)頁(yè)碼。
另外一個(gè)網(wǎng)友也給出了類似解釋:ChatGPT生了一個(gè)答案,是一個(gè)Imgur鏈接。
它想到了自己應(yīng)該提供帶答案的Imgur鏈接,但沒(méi)有意識(shí)到自己需要的是相同的Imgur URL,相反,它竟然生成了一組隨機(jī)URL。
而巧的不能再巧的是,這居然是一個(gè)有效的鏈接,正好鏈到了外國(guó)小伙的照片上。
也有人說(shuō),并不是Imgur被用于訓(xùn)練,而是ChatGPT能夠生成Imgur鏈接(實(shí)際上可以說(shuō)的任何鏈接)。
所以說(shuō),這個(gè)鏈接是ChatGPT隨機(jī)生成的,這件事可能性有多大?
有人算出來(lái),Imgur圖像ID是由集合 [A-Za-z0-9] 中的7個(gè)字符組成,所以有 62^7=3,521,614,606,208,也就是3.5萬(wàn)億種可能的組合。
Igmur在2014年第一輪融資期間,托管了大概6.5萬(wàn)億張圖像。推算一下,自2014年以來(lái),互聯(lián)網(wǎng)上創(chuàng)建的數(shù)據(jù)量激增了860%。按照這個(gè)邏輯,Imgur現(xiàn)在可以托管大約62.4億張圖像。
因此,ChatGPT猜到有效圖像ID的幾率是——
6.24B / 62^7 x 100 = 0.177%
大概在每565次聊天中,這種事就會(huì)發(fā)生一次,所以要是說(shuō)ChatGPT生成這個(gè)Imgur鏈接,倒也是不無(wú)可能。
層主特意寫了一個(gè)簡(jiǎn)單的腳本來(lái)測(cè)試這些數(shù)字,在發(fā)出的10000個(gè)請(qǐng)求中,它找到了19個(gè)有效圖像,所以概率是0.19%。順便還秀了一把恩愛(ài)?
到這里,事情似乎水落石出了。
所以,要謹(jǐn)記自己上傳或者輸入的內(nèi)容都會(huì)被用于訓(xùn)練ChatGPT,如果不想泄露隱私,切記要把上傳聊天紀(jì)錄的按鈕關(guān)閉。
并且,任何你在互聯(lián)網(wǎng)上留下的數(shù)字足跡,都有可能在某一天變成AI的訓(xùn)練數(shù)據(jù)。
總之,千萬(wàn)不要什么照片都發(fā)給AI,你根本搞不清它會(huì)拿你的照片去做什么。