黑客入侵OpenAI,細(xì)節(jié)一年后才公開,三類數(shù)據(jù)資源讓AI公司成為活靶子 原創(chuàng)
作者 | Devin Coldewey
編譯 | 伊風(fēng)
前OpenAI員工Leopold Aschenbrenner,最近在一檔播客中暗示OpenAI曾被黑客成功入侵。隨后,《紐約時(shí)報(bào)》對這次攻擊進(jìn)行了更詳細(xì)的報(bào)道。
2023 年初,一名黑客成功入侵了 OpenAI 的內(nèi)部通信系統(tǒng),并進(jìn)入了內(nèi)部員工的在線社區(qū),平臺(tái)中包含公司最新人工智能技術(shù)的討論。
2023 年 4 月,OpenAI 的高管向員工和董事會(huì)披露了這一事件,但由于沒有客戶或合作伙伴的相關(guān)數(shù)據(jù)被泄露,OpenAI決定不將其公之于眾。領(lǐng)導(dǎo)層認(rèn)為,黑客是一個(gè)獨(dú)立的實(shí)體,與任何外國政府都沒有關(guān)聯(lián),因此他們沒有讓執(zhí)法部門介入。這也引發(fā)了人們對OpenAI透明度的質(zhì)疑。
雖然,OpenAI強(qiáng)調(diào)在這起入侵事件中,沒有泄露任何用戶的對話或個(gè)人信息。然而,這次黑客攻擊本身給人帶來的不安還只是表面性的——更重要的提示是,AI公司已經(jīng)迅速成為黑客們最有吸引力的目標(biāo)之一。
任何安全漏洞都不應(yīng)被輕視,尤其是竊聽內(nèi)部OpenAI開發(fā)討論確實(shí)有巨大的價(jià)值。但這遠(yuǎn)非黑客的全部目標(biāo):獲取內(nèi)部系統(tǒng)、研發(fā)中的模型、秘密路線圖等等。
事實(shí)上,這些AI公司已經(jīng)成為龐大數(shù)據(jù)的守門人。
OpenAI和其他AI公司創(chuàng)建了海量的數(shù)據(jù),最值得被黑客“惦記”的莫過于:高質(zhì)量的訓(xùn)練數(shù)據(jù)、大量用戶互動(dòng)及客戶數(shù)據(jù)。
1.高質(zhì)量的訓(xùn)練數(shù)據(jù)
目前尚不清楚它們擁有哪些訓(xùn)練數(shù)據(jù),因?yàn)檫@些公司對它們的數(shù)據(jù)庫進(jìn)行了嚴(yán)格保密。
但認(rèn)為它們只是大量收集的網(wǎng)絡(luò)數(shù)據(jù)是錯(cuò)誤的。AI公司確實(shí)使用網(wǎng)絡(luò)爬蟲或像Pile這樣的數(shù)據(jù)集,不過要將這些原始數(shù)據(jù)塑造成能夠訓(xùn)練像GPT-4o這樣的模型所需的數(shù)據(jù),需要大量的人工工作——這只能部分自動(dòng)化。
一些機(jī)器學(xué)習(xí)工程師推測,在創(chuàng)建大型語言模型(或任何基于Transformer的系統(tǒng))時(shí),最重要的因素之一是數(shù)據(jù)集的質(zhì)量。這就是為什么在Twitter和Reddit上訓(xùn)練的模型永遠(yuǎn)不會(huì)像在上個(gè)世紀(jì)的所有出版作品上訓(xùn)練的模型那樣雄辯。(也可能是OpenAI據(jù)稱使用了在法律上有爭議的數(shù)據(jù)來源,如版權(quán)書籍,他們聲稱已放棄這種做法。)
因此,OpenAI構(gòu)建的訓(xùn)練數(shù)據(jù)集對競爭對手來說具有巨大的價(jià)值,無論是其他公司、對手國家還是美國的監(jiān)管機(jī)構(gòu)。
2.用戶互動(dòng)數(shù)據(jù)
更有價(jià)值的也許是OpenAI擁有的大量用戶數(shù)據(jù) —— 大約數(shù)十億與ChatGPT進(jìn)行的對話,涉及數(shù)十萬個(gè)主題。
就像搜索數(shù)據(jù)曾經(jīng)是理解網(wǎng)絡(luò)集體心理的關(guān)鍵一樣,ChatGPT現(xiàn)在觸及的人群也許沒有谷歌用戶那么廣泛,但提供了更多的深度。(如果你不知道,除非你選擇退出,否則你的對話正在用作訓(xùn)練數(shù)據(jù)。)
圖片
開啟“為所有用戶改進(jìn)模型”時(shí),對話會(huì)進(jìn)入訓(xùn)練數(shù)據(jù)庫
例如,Google上搜索“空調(diào)”的頻率增加,則說明該市場正在升溫。但這些用戶接下來不會(huì)告訴谷歌:他們想要什么、愿意花多少錢、他們的家是什么樣子、他們想避免的制造商等等。
但你知道這是非常有價(jià)值的信息——谷歌正試圖通過用AI交互替代搜索來獲取這些信息!
想想人們與ChatGPT的對話有多少,以及這些信息對開發(fā)AI的人員、市場團(tuán)隊(duì)、顧問、分析師來說有多有用,這是一座金礦。
3.客戶數(shù)據(jù)
最后一類數(shù)據(jù)可能是開放市場上價(jià)值最高的:客戶實(shí)際如何使用AI,以及他們自己向模型輸入的數(shù)據(jù)。
數(shù)百家大公司和無數(shù)小公司使用像OpenAI和Anthropic的API這樣的工具,執(zhí)行同樣廣泛的任務(wù)。為了使語言模型對他們有用,通常需要在它們自己的內(nèi)部數(shù)據(jù)庫上進(jìn)行微調(diào)或以其他方式提供訪問權(quán)限。
這可能是一些乏味的舊預(yù)算表或人事記錄(例如,使它們更易搜索),也可能是未發(fā)布的軟件代碼。他們?nèi)绾卫肁I的能力(以及它們是否真的有用)是他們的事,但事實(shí)是,AI提供商有特權(quán)訪問,就像其他任何SaaS產(chǎn)品一樣。
這些都是工業(yè)機(jī)密,而AI公司突然間就處在這些機(jī)密的核心位置。這個(gè)行業(yè)的新奇性帶來了特殊的風(fēng)險(xiǎn),因?yàn)锳I流程尚未標(biāo)準(zhǔn)化或完全理解。
像任何SaaS提供商一樣,AI公司完全有能力提供行業(yè)標(biāo)準(zhǔn)的安全性、隱私性、本地選項(xiàng),并且通常會(huì)負(fù)責(zé)任地提供服務(wù)。我毫不懷疑OpenAI的財(cái)富500強(qiáng)客戶的私密數(shù)據(jù)庫和API調(diào)用是嚴(yán)密鎖定的!他們肯定對在AI環(huán)境下處理機(jī)密數(shù)據(jù)的風(fēng)險(xiǎn)非常了解。(OpenAI沒有報(bào)告此次攻擊是他們的選擇,但這并未增加一個(gè)急需信任的公司的信任。)
但良好的安全措施并不會(huì)改變它們所保護(hù)的東西的價(jià)值,也不會(huì)改變惡意行為者和各種對手正在試圖闖入的事實(shí)。
安全不僅僅是選擇正確的設(shè)置或保持軟件更新——盡管基礎(chǔ)的舉措也很重要。
4.寫在最后
黑客與公司數(shù)據(jù)之間,是一場永無止境的貓鼠游戲,諷刺的是,現(xiàn)在這場游戲正被AI本身大大加速:代理和攻擊自動(dòng)化程序正在探查這些公司每一個(gè)角落和縫隙的攻擊面。
我們沒有理由驚慌——擁有大量個(gè)人或商業(yè)價(jià)值數(shù)據(jù)的公司多年來一直面臨并管理著類似的風(fēng)險(xiǎn)。
但AI公司代表了一個(gè)更新、更年輕、潛在更有吸引力的目標(biāo),比你常見的配置不良的企業(yè)服務(wù)器或不負(fù)責(zé)任的數(shù)據(jù)經(jīng)紀(jì)人更具吸引力。即使是像上面報(bào)道的那樣的黑客攻擊,據(jù)我們所知沒有嚴(yán)重的數(shù)據(jù)泄露,也應(yīng)該讓任何與AI公司有業(yè)務(wù)往來的人感到擔(dān)憂。
OpenAI們已經(jīng)在自己背上標(biāo)上了靶子。當(dāng)任何人,甚至所有人,試圖攻擊他們時(shí),不要感到驚訝。
參考鏈接:
1.https://techcrunch.com/2024/07/05/openai-breach-is-a-reminder-that-ai-companies-are-treasure-troves-for-hackers/
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
