撰稿 | 清竹
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
大模型的浪潮滾滾向前,總免不了鬧劇一幕幕上演。
前有字節(jié)跳動被 OpenAI封號的羅生門,接著谷歌Gemini自曝中文用百度文心一言訓練看呆網(wǎng)友,這次,大模型又在數(shù)據(jù)集上翻車了!
斯坦福大學近日針對開源模型訓練數(shù)據(jù)集 LAION-5B 展開研究,發(fā)現(xiàn)該數(shù)據(jù)集中包含數(shù)百張已知的兒童性虐待材料 (CSAM) 圖像,這些圖像用于訓練流行的 AI 文本到圖像生成模型,例如穩(wěn)定擴散模型。
這里提到的利用 LAION-5B 訓練自家模型的公司,正包括當紅的 Stability AI 和 Google 。
事情一出,Stability AI 迅速撇清關(guān)系:“Stable Diffusion 模型雖然使用 LAION-5B 進行訓練,但采用的是經(jīng)過篩選及微調(diào)過的訓練集版本,因此并不會影響模型輸出結(jié)果”。谷歌方面也表示,其 Imagen 模型的迭代并沒有使用 LAION 數(shù)據(jù)集。
1、大模型開源數(shù)據(jù)集“塌房”
近日斯坦福大學互聯(lián)網(wǎng)觀察站的一份報告顯示,大型開源人工智能數(shù)據(jù)集 LAION-5B 已用于訓練流行的人工智能文本到圖像生成器,例如 Stable Diffusion 和 Google 的 Imagen,該數(shù)據(jù)集包含至少 1,008 個兒童性虐待材料實例。
報告稱,LAION-5B 數(shù)據(jù)集于 2022 年 3 月發(fā)布,包含來自互聯(lián)網(wǎng)的超過 50 億張圖像和相關(guān)說明文字,還可能包括數(shù)千條疑似兒童性虐待材料(CSAM)。該報告警告說,數(shù)據(jù)集中的 CSAM 材料可以使基于這些數(shù)據(jù)構(gòu)建的人工智能產(chǎn)品輸出新的且可能真實的虐待兒童內(nèi)容。
早在3個月前,研究人員就著手梳理 LAION 數(shù)據(jù)集,通過查看哈希值或圖像的標識符,調(diào)查其中存在多少兒童性虐待材料 (CSAM)。調(diào)查表明,該數(shù)據(jù)集包括從各種來源抓取 CSAM,其中至少包含 1,679 張從社交媒體帖子和流行成人網(wǎng)站上抓取的非法圖像。
目前研究人員已將出現(xiàn)問題的圖像 URL 上報美國國家失蹤和受虐兒童中心(NCMEC) 和加拿大兒童保護中心(C3P)。這些機構(gòu)主要使用 PhotoDNA 等哈希工具進行檢測,將圖像的指紋與其數(shù)據(jù)庫進行匹配。
研究人員表示,他們不會查看被濫用的內(nèi)容,并且會向受虐兒童中心(NCMEC )報告匹配結(jié)果,必要時由加拿大兒童保護中心進行驗證。
2、LAION:數(shù)據(jù)集沒問題,是你的搜索方法有問題
針對此次事件,LAION方面回應(yīng)媒體:出于“高度謹慎”,它暫時刪除了其數(shù)據(jù)集,“以確保在重新發(fā)布之前它們是安全的”。
據(jù)LAION 網(wǎng)站稱,其數(shù)據(jù)集不保存圖像存儲庫。數(shù)據(jù)集主要來自對互聯(lián)網(wǎng)進行索引,并包含其抓取的圖像和替代文本的鏈接。
翻看LAION官網(wǎng)的FAQ就能明顯感受到,LAION 對其數(shù)據(jù)集的安全性和合規(guī)性方面并不是很自信。
比如針對“LAION數(shù)據(jù)集是否包含可能令觀看者感到不安的圖像”這一疑問,LAION明確回答:不會!卻緊接著把“鍋”甩給了用戶:“但數(shù)據(jù)集中的鏈接可能會導(dǎo)致圖像令人不安或不適,具體取決于所使用的過濾器或搜索方法。”
圖片
此次“數(shù)據(jù)集翻車”事件的受害者之一Stability AI 明確表示,雖然確實使用了 LAION-5B 訓練其模型,但它們對數(shù)據(jù)集進行了微調(diào),確保了數(shù)據(jù)安全性。
Google 方面也迅速劃清界限:Imagen 的初始版本僅用于研究,而且是在 LAION-5B 的舊版本 ( LAION-400M)上進行訓練的,后續(xù)迭代并沒有使用 LAION 數(shù)據(jù)集。但這一回應(yīng)馬上被“打臉”:斯坦福大學的報告指出,Imagen 的開發(fā)人員發(fā)現(xiàn) 400M 包含“各種不當內(nèi)容,包括色情圖像、種族主義誹謗和有害的社會成見”。
其實對于LAION數(shù)據(jù)集是什么情況,Google心里也有數(shù)。早在Imagen發(fā)布時,也專門針對LAION-400M做出警示:因為依賴于這種未經(jīng)整理的網(wǎng)絡(luò)數(shù)據(jù), 集成了大模型的社會偏見和限制,因此不適合公開使用。
斯坦福大學的研究人員表示, CSAM 的存在并不一定會影響在數(shù)據(jù)集上訓練的模型的輸出,但模型總有可能從圖像中學到一些東西。 同時研究人員也承認,要完全刪除有問題的內(nèi)容是很困難的,尤其是從人工智能模型中刪除。他們建議應(yīng)該棄用在 LAION-5B 上訓練的模型,并在可行的情況下停止分發(fā)。
3、有“前科”,還不止一次
誰能想到,這并不是 LAION 的圖像數(shù)據(jù)集第一次受到攻擊。
早在 2021 年 10 月,認知科學家 Abeba Birhane(現(xiàn)任 Mozilla 人工智能高級研究員)就發(fā)表了一篇研究早期圖像數(shù)據(jù)集 LAION-400M的論文。研究發(fā)現(xiàn),該數(shù)據(jù)集包含“令人不安的露骨圖像和文本對”。
此外,LAION還被卷入兩場訴訟之中。
一起是2023 年年初,三名藝術(shù)家對 Stability AI 和另外兩家公司提起訴訟,稱這些公司使用了來自 LAION-5B 的數(shù)百萬張受版權(quán)保護的圖像來訓練他們的圖像生成模型。其中一位知名人士Karla Ortiz還在一次公開講話中抨擊了 LAION-5B 數(shù)據(jù)集:“LAION-5B包含令人深感擔憂的材料,例如私人醫(yī)療記錄、未經(jīng)同意的色情內(nèi)容、兒童圖像,甚至社交媒體上我們真實面孔的照片?!?/p>
另一起案件的訴訟原因如出一轍。Getty Images起訴Stability AI,指責后者公然侵犯了其知識產(chǎn)權(quán),且規(guī)模驚人。Getty Images聲稱,Stability AI未經(jīng)許可將其1200萬張照片(通過 LAION)取走,并用來訓練Stable Diffusion,侵犯了Getty Images的版權(quán)和商標保護權(quán)。
4、AI訓練中的數(shù)據(jù)合規(guī)問題
大模型“大力出奇跡”的暴力美學,決定了擁有的數(shù)據(jù)越多、質(zhì)量越高,大模型的能力也就愈加強大。除企業(yè)本身積累的數(shù)據(jù),開源數(shù)據(jù)集等也構(gòu)成大模型數(shù)據(jù)來源的一部分。如何確保來源繁雜的AI訓練數(shù)據(jù)的合規(guī)?成為擺在企業(yè)面前的一道難題。
人工智能技術(shù)的應(yīng)用中存在的數(shù)據(jù)合規(guī)問題主要包括以下幾個方面:
一是數(shù)據(jù)隱私保護。個人或組織的敏感信息可能被用于訓練機器學習模型和數(shù)據(jù)分析。因此,需要采取措施保護數(shù)據(jù)隱私,例如數(shù)據(jù)加密、匿名化和訪問控制等。
二是數(shù)據(jù)的可信和準確性。模型訓練的準確性和性能取決于訓練數(shù)據(jù)的質(zhì)量。因此,需要采取刪除無用數(shù)據(jù)、數(shù)據(jù)質(zhì)量檢查、刪除敏感信息、數(shù)據(jù)標注等措施確保數(shù)據(jù)的可靠和準確。
三是數(shù)據(jù)的所有權(quán)問題。許多數(shù)據(jù)是由多個組織共享的,例如醫(yī)療記錄或交通流量數(shù)據(jù)。因此,需要明確數(shù)據(jù)的所有權(quán)和共享方式,以避免數(shù)據(jù)的非法使用和侵權(quán)行為。
頂尖科技的發(fā)展過程雖然可能摻雜一些“小插曲”,但AI大模型的發(fā)展之路也不應(yīng)被這些插曲淹沒,而是應(yīng)該從中得到一些反思。回到這次事件本身,無論是提供開源數(shù)據(jù)集的組織,還是使用公眾數(shù)據(jù)集的企業(yè),都應(yīng)該守好行業(yè)底線、遵守行業(yè)準則,讓AI應(yīng)用能夠穩(wěn)穩(wěn)落地。
參考鏈接:
https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/
https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford
https://zhuanlan.zhihu.com/p/621678747