自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大型開源數(shù)據(jù)集曝驚天丑聞,當紅AI公司牽涉其中

原創(chuàng) 精選
開源 人工智能
LAION-5B 數(shù)據(jù)集于 2022 年 3 月發(fā)布,包含來自互聯(lián)網(wǎng)的超過 50 億張圖像和相關(guān)說明文字,還可能包括數(shù)千條疑似兒童性虐待材料(CSAM)。該報告警告說,數(shù)據(jù)集中的 CSAM 材料可以使基于這些數(shù)據(jù)構(gòu)建的人工智能產(chǎn)品輸出新的且可能真實的虐待兒童內(nèi)容。

撰稿 | 清竹

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

大模型的浪潮滾滾向前,總免不了鬧劇一幕幕上演。

前有字節(jié)跳動被 OpenAI封號的羅生門,接著谷歌Gemini自曝中文用百度文心一言訓練看呆網(wǎng)友,這次,大模型又在數(shù)據(jù)集上翻車了!

斯坦福大學近日針對開源模型訓練數(shù)據(jù)集 LAION-5B 展開研究,發(fā)現(xiàn)該數(shù)據(jù)集中包含數(shù)百張已知的兒童性虐待材料 (CSAM) 圖像,這些圖像用于訓練流行的 AI 文本到圖像生成模型,例如穩(wěn)定擴散模型。

這里提到的利用 LAION-5B 訓練自家模型的公司,正包括當紅的 Stability AI 和 Google 。

事情一出,Stability AI 迅速撇清關(guān)系:“Stable Diffusion 模型雖然使用 LAION-5B 進行訓練,但采用的是經(jīng)過篩選及微調(diào)過的訓練集版本,因此并不會影響模型輸出結(jié)果”。谷歌方面也表示,其 Imagen 模型的迭代并沒有使用 LAION 數(shù)據(jù)集。

1、大模型開源數(shù)據(jù)集“塌房”

近日斯坦福大學互聯(lián)網(wǎng)觀察站的一份報告顯示,大型開源人工智能數(shù)據(jù)集 LAION-5B 已用于訓練流行的人工智能文本到圖像生成器,例如 Stable Diffusion 和 Google 的 Imagen,該數(shù)據(jù)集包含至少 1,008 個兒童性虐待材料實例。

報告稱,LAION-5B 數(shù)據(jù)集于 2022 年 3 月發(fā)布,包含來自互聯(lián)網(wǎng)的超過 50 億張圖像和相關(guān)說明文字,還可能包括數(shù)千條疑似兒童性虐待材料(CSAM)。該報告警告說,數(shù)據(jù)集中的 CSAM 材料可以使基于這些數(shù)據(jù)構(gòu)建的人工智能產(chǎn)品輸出新的且可能真實的虐待兒童內(nèi)容。

早在3個月前,研究人員就著手梳理 LAION 數(shù)據(jù)集,通過查看哈希值或圖像的標識符,調(diào)查其中存在多少兒童性虐待材料 (CSAM)。調(diào)查表明,該數(shù)據(jù)集包括從各種來源抓取 CSAM,其中至少包含 1,679 張從社交媒體帖子和流行成人網(wǎng)站上抓取的非法圖像。

目前研究人員已將出現(xiàn)問題的圖像 URL 上報美國國家失蹤和受虐兒童中心(NCMEC) 和加拿大兒童保護中心(C3P)。這些機構(gòu)主要使用 PhotoDNA 等哈希工具進行檢測,將圖像的指紋與其數(shù)據(jù)庫進行匹配。

研究人員表示,他們不會查看被濫用的內(nèi)容,并且會向受虐兒童中心(NCMEC )報告匹配結(jié)果,必要時由加拿大兒童保護中心進行驗證。

2、LAION:數(shù)據(jù)集沒問題,是你的搜索方法有問題

針對此次事件,LAION方面回應(yīng)媒體:出于“高度謹慎”,它暫時刪除了其數(shù)據(jù)集,“以確保在重新發(fā)布之前它們是安全的”。

據(jù)LAION 網(wǎng)站稱,其數(shù)據(jù)集不保存圖像存儲庫。數(shù)據(jù)集主要來自對互聯(lián)網(wǎng)進行索引,并包含其抓取的圖像和替代文本的鏈接。

翻看LAION官網(wǎng)的FAQ就能明顯感受到,LAION 對其數(shù)據(jù)集的安全性和合規(guī)性方面并不是很自信。

比如針對“LAION數(shù)據(jù)集是否包含可能令觀看者感到不安的圖像”這一疑問,LAION明確回答:不會!卻緊接著把“鍋”甩給了用戶:“但數(shù)據(jù)集中的鏈接可能會導(dǎo)致圖像令人不安或不適,具體取決于所使用的過濾器或搜索方法。”

圖片圖片

此次“數(shù)據(jù)集翻車”事件的受害者之一Stability AI 明確表示,雖然確實使用了 LAION-5B 訓練其模型,但它們對數(shù)據(jù)集進行了微調(diào),確保了數(shù)據(jù)安全性。

Google 方面也迅速劃清界限:Imagen 的初始版本僅用于研究,而且是在 LAION-5B 的舊版本 ( LAION-400M)上進行訓練的,后續(xù)迭代并沒有使用 LAION 數(shù)據(jù)集。但這一回應(yīng)馬上被“打臉”:斯坦福大學的報告指出,Imagen 的開發(fā)人員發(fā)現(xiàn) 400M 包含“各種不當內(nèi)容,包括色情圖像、種族主義誹謗和有害的社會成見”。

其實對于LAION數(shù)據(jù)集是什么情況,Google心里也有數(shù)。早在Imagen發(fā)布時,也專門針對LAION-400M做出警示:因為依賴于這種未經(jīng)整理的網(wǎng)絡(luò)數(shù)據(jù), 集成了大模型的社會偏見和限制,因此不適合公開使用。

斯坦福大學的研究人員表示, CSAM 的存在并不一定會影響在數(shù)據(jù)集上訓練的模型的輸出,但模型總有可能從圖像中學到一些東西。 同時研究人員也承認,要完全刪除有問題的內(nèi)容是很困難的,尤其是從人工智能模型中刪除。他們建議應(yīng)該棄用在 LAION-5B 上訓練的模型,并在可行的情況下停止分發(fā)。

3、有“前科”,還不止一次

誰能想到,這并不是 LAION 的圖像數(shù)據(jù)集第一次受到攻擊。

早在 2021 年 10 月,認知科學家 Abeba Birhane(現(xiàn)任 Mozilla 人工智能高級研究員)就發(fā)表了一篇研究早期圖像數(shù)據(jù)集 LAION-400M的論文。研究發(fā)現(xiàn),該數(shù)據(jù)集包含“令人不安的露骨圖像和文本對”。

此外,LAION還被卷入兩場訴訟之中。

一起是2023 年年初,三名藝術(shù)家對 Stability AI 和另外兩家公司提起訴訟,稱這些公司使用了來自 LAION-5B 的數(shù)百萬張受版權(quán)保護的圖像來訓練他們的圖像生成模型。其中一位知名人士Karla Ortiz還在一次公開講話中抨擊了 LAION-5B 數(shù)據(jù)集:“LAION-5B包含令人深感擔憂的材料,例如私人醫(yī)療記錄、未經(jīng)同意的色情內(nèi)容、兒童圖像,甚至社交媒體上我們真實面孔的照片?!?/p>

另一起案件的訴訟原因如出一轍。Getty Images起訴Stability AI,指責后者公然侵犯了其知識產(chǎn)權(quán),且規(guī)模驚人。Getty Images聲稱,Stability AI未經(jīng)許可將其1200萬張照片(通過 LAION)取走,并用來訓練Stable Diffusion,侵犯了Getty Images的版權(quán)和商標保護權(quán)。

4、AI訓練中的數(shù)據(jù)合規(guī)問題

大模型“大力出奇跡”的暴力美學,決定了擁有的數(shù)據(jù)越多、質(zhì)量越高,大模型的能力也就愈加強大。除企業(yè)本身積累的數(shù)據(jù),開源數(shù)據(jù)集等也構(gòu)成大模型數(shù)據(jù)來源的一部分。如何確保來源繁雜的AI訓練數(shù)據(jù)的合規(guī)?成為擺在企業(yè)面前的一道難題。

人工智能技術(shù)的應(yīng)用中存在的數(shù)據(jù)合規(guī)問題主要包括以下幾個方面:

一是數(shù)據(jù)隱私保護。個人或組織的敏感信息可能被用于訓練機器學習模型和數(shù)據(jù)分析。因此,需要采取措施保護數(shù)據(jù)隱私,例如數(shù)據(jù)加密、匿名化和訪問控制等。

二是數(shù)據(jù)的可信和準確性。模型訓練的準確性和性能取決于訓練數(shù)據(jù)的質(zhì)量。因此,需要采取刪除無用數(shù)據(jù)、數(shù)據(jù)質(zhì)量檢查、刪除敏感信息、數(shù)據(jù)標注等措施確保數(shù)據(jù)的可靠和準確。

三是數(shù)據(jù)的所有權(quán)問題。許多數(shù)據(jù)是由多個組織共享的,例如醫(yī)療記錄或交通流量數(shù)據(jù)。因此,需要明確數(shù)據(jù)的所有權(quán)和共享方式,以避免數(shù)據(jù)的非法使用和侵權(quán)行為。

頂尖科技的發(fā)展過程雖然可能摻雜一些“小插曲”,但AI大模型的發(fā)展之路也不應(yīng)被這些插曲淹沒,而是應(yīng)該從中得到一些反思。回到這次事件本身,無論是提供開源數(shù)據(jù)集的組織,還是使用公眾數(shù)據(jù)集的企業(yè),都應(yīng)該守好行業(yè)底線、遵守行業(yè)準則,讓AI應(yīng)用能夠穩(wěn)穩(wěn)落地。

參考鏈接:

https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/

https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford

https://zhuanlan.zhihu.com/p/621678747

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2013-03-19 10:17:59

云計算谷歌BigQuery

2025-04-07 13:24:52

2015-12-02 14:34:10

Taste?Analy大數(shù)據(jù)云計算

2023-12-01 14:50:57

AI破產(chǎn)

2021-04-12 17:47:25

Facebook開源AI

2018-12-20 10:26:44

Facebook信息泄露數(shù)據(jù)安全

2018-03-20 10:46:11

2020-07-27 10:23:10

開源技術(shù) 數(shù)據(jù)

2011-12-16 16:29:57

2015-10-10 17:47:25

實名認證安全漏洞支付寶

2023-12-01 16:23:52

大數(shù)據(jù)人工智能

2023-05-26 20:08:35

2021-11-30 18:44:17

漏洞Zoom網(wǎng)絡(luò)攻擊

2024-09-12 09:16:11

2010-07-26 09:47:14

2020-06-24 07:53:03

機器學習技術(shù)人工智能

2018-10-19 12:16:06

開源技術(shù) 數(shù)據(jù)

2023-05-31 09:48:01

開源AI

2009-11-11 09:56:54

北電電信公司

2020-11-01 16:53:31

pandas數(shù)據(jù)分析數(shù)據(jù)集
點贊
收藏

51CTO技術(shù)棧公眾號