OpenAI遭起訴:訓(xùn)練ChatGPT,涉嫌竊取數(shù)百萬用戶信息
明星大模型 ChatGPT 的走向開始出現(xiàn)一些小波折。
一家總部位于加州的克拉克森律師事務(wù)所用一份長達(dá) 157 頁的訴訟將 OpenAI 告到法庭,該訴訟表明 OpenAI 在利潤的驅(qū)使下,正在竊取大量個人信息來訓(xùn)練其人工智能模型,使其聊天機(jī)器人能夠模仿人類語言。
訴訟稱,這種數(shù)據(jù)抓取的規(guī)模是前所未有的。原來 OpenAI 從互聯(lián)網(wǎng)上秘密抓取了約 3000 億字的內(nèi)容,其中包括書籍、文章、網(wǎng)站和帖子,甚至還包括未經(jīng)同意的個人信息,這違反了隱私法。
圖片
訴訟文件鏈接:https://assets.bwbx.io/documents/users/iqjWHBFdfxIU/rIZH4FXwShJE/v0
該訴訟指責(zé) OpenAI 冒著「文明崩潰」的風(fēng)險。他們根據(jù)受害的個人類別估計有數(shù)百萬人,提出了 30 億美元的潛在損失。
「通過收集數(shù)百萬人以前模糊的個人數(shù)據(jù),并將其挪用,進(jìn)而開發(fā)不穩(wěn)定的、未經(jīng)測試的技術(shù),OpenAI 將每個人置于不可估量的風(fēng)險之中,但無論采取任何負(fù)責(zé)任的數(shù)據(jù)保護(hù)和使用措施,都是不可接受的,」該律師事務(wù)所的一位合伙人 Timothy K. Giordano 表示。
文件顯示,OpenAI 爬取了大量的數(shù)據(jù),包括社交媒體網(wǎng)站的數(shù)據(jù)。OpenAI 的專有 AI 語料庫 WebText2 上積累了大量的個人數(shù)據(jù),其中包括從 Reddit 帖子及其鏈接到網(wǎng)站中獲取的數(shù)據(jù)。
OpenAI 獲取的數(shù)據(jù)包括私人信息、私人對話、醫(yī)療數(shù)據(jù)、兒童信息。他們在獲取這些信息時沒有通知用戶,更不用說被用戶許可了。
除了爬取廣大公眾的數(shù)據(jù)外,訴訟表明 OpenAI 還存在存儲和披露用戶個人信息的行為,包括用戶創(chuàng)建 OpenAI 賬戶的詳細(xì)信息、聊天記錄和社交媒體信息。
圖片
訴訟還稱:盡管制定了購買和使用個人信息的協(xié)議,但被告采取了不同的方法「盜竊」。
直接使用 ChatGPT 信息遭泄露,那些集成了 ChatGPT 應(yīng)用程序的用戶也被波及,例如使用 Snapchat、Stripe、Spotify、Microsoft Teams 和 Slack 的用戶也存在信息泄露的風(fēng)險。
該訴訟要求在 OpenAI 實施更多監(jiān)管和保護(hù)措施之前,暫停 OpenAI 產(chǎn)品的商業(yè)訪問和商業(yè)開發(fā),包括允許人們選擇退出數(shù)據(jù)收集,并防止其產(chǎn)品超越人類智能并對他人造成傷害。除了 OpenAI,其背后的主要支持者微軟也被列為被告。
「毫無疑問,人工智能平臺可能為世界帶來很多好事,但它們也可能對人類造成潛在的災(zāi)難性風(fēng)險。」訴訟顯示。
其實,OpenAI 并不是唯一一家借助互聯(lián)網(wǎng)獲取大量數(shù)據(jù)來訓(xùn)練 AI 模型的公司。谷歌、Meta、微軟和越來越多的其他公司都在做同樣的事情。但該律師事務(wù)所的一位合伙人表示,他們之所以決定追擊 OpenAI,是因為去年 OpenAI 通過 ChatGPT 刺激了更大的競爭對手推出自己的人工智能產(chǎn)品。他們是引發(fā)這場人工智能軍備競賽的公司,他們自然是第一目標(biāo)。
這波未平,那波又起。北京時間 6 月 30 日,據(jù)路透社報道,又有兩名作者在美國舊金山聯(lián)邦法院起訴 OpenAI,他們認(rèn)為 OpenAI 濫用其作品來訓(xùn)練 ChatGPT。
來自馬薩諸塞州的兩位作家 Paul Tremblay 和 Mona Awad 表示,ChatGPT 在未經(jīng)許可的情況下挖掘了數(shù)千本書的數(shù)據(jù),侵犯了作者的版權(quán)。
大家都知道,ChatGPT 和其他生成式人工智能系統(tǒng)使用從互聯(lián)網(wǎng)上獲取的大量數(shù)據(jù)創(chuàng)建內(nèi)容。Tremblay 和 Awad 的訴訟稱,書籍是一個關(guān)鍵要素,因為它們提供了高質(zhì)量長篇寫作的最佳示例。
他們估計,OpenAI 的訓(xùn)練數(shù)據(jù)包含了超過 30 萬本書,當(dāng)中有許多是沒有獲得許可、非法獲取的有版權(quán)圖書。
Tremblay 和 Awad 表示 ChatGPT 可以生成非常準(zhǔn)確的書籍摘要,表明這些書籍出現(xiàn)在其數(shù)據(jù)庫中。
一時之間,圍繞 OpenAI 的訓(xùn)練數(shù)據(jù)問題不斷被暴露。
其實,自去年 11 月發(fā)布 ChatGPT 以來,生成式人工智能由于其可以創(chuàng)建文本、音頻、圖像、視頻等大受歡迎。人們一直尋求將生成式人工智能用于個人、專業(yè)和學(xué)術(shù)目的,盡管有人擔(dān)心它對個人數(shù)據(jù)帶來威脅。
為了應(yīng)對 ChatGPT 帶來的潛在風(fēng)險,今年 3 月,意大利宣布暫時禁止訪問 ChatGPT,原因是出于隱私擔(dān)憂,聲稱沒有法律依據(jù)來證明用于訓(xùn)練 ChatGPT 的大規(guī)模數(shù)據(jù)是合法的。一些公司,包括亞馬遜和微軟,已經(jīng)指示員工不要將機(jī)密信息輸入到聊天機(jī)器人。與此同時,三星已全面禁止員工使用生成式人工智能工具。
除此以外,人工智能還會傳播虛假信息也是大家擔(dān)心的問題,有些人還將其故意用于惡意目的。
雖然 ChatGPT 的成功引發(fā)了科技界一場明顯的人工智能軍備競賽,大大小小的公司現(xiàn)在都在競相開發(fā)人工智能工具并將其部署到盡可能多的產(chǎn)品中。但不管怎樣,信息安全還是首位的。