自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大型開源數(shù)據(jù)集曝驚天丑聞，當紅AI公司牽涉其中

原創(chuàng) 精選

作者：清竹 2023-12-25 07:50:22

開源人工智能

LAION-5B 數(shù)據(jù)集于 2022 年 3 月發(fā)布，包含來自互聯(lián)網(wǎng)的超過 50 億張圖像和相關(guān)說明文字，還可能包括數(shù)千條疑似兒童性虐待材料（CSAM）。該報告警告說，數(shù)據(jù)集中的 CSAM 材料可以使基于這些數(shù)據(jù)構(gòu)建的人工智能產(chǎn)品輸出新的且可能真實的虐待兒童內(nèi)容。

撰稿 | 清竹

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

大模型的浪潮滾滾向前，總免不了鬧劇一幕幕上演。

前有字節(jié)跳動被 OpenAI封號的羅生門，接著谷歌Gemini自曝中文用百度文心一言訓練看呆網(wǎng)友，這次，大模型又在數(shù)據(jù)集上翻車了！

斯坦福大學近日針對開源模型訓練數(shù)據(jù)集 LAION-5B 展開研究，發(fā)現(xiàn)該數(shù)據(jù)集中包含數(shù)百張已知的兒童性虐待材料 (CSAM) 圖像，這些圖像用于訓練流行的 AI 文本到圖像生成模型，例如穩(wěn)定擴散模型。

這里提到的利用 LAION-5B 訓練自家模型的公司，正包括當紅的 Stability AI 和 Google 。

事情一出，Stability AI 迅速撇清關(guān)系：“Stable Diffusion 模型雖然使用 LAION-5B 進行訓練，但采用的是經(jīng)過篩選及微調(diào)過的訓練集版本，因此并不會影響模型輸出結(jié)果”。谷歌方面也表示，其 Imagen 模型的迭代并沒有使用 LAION 數(shù)據(jù)集。

1、大模型開源數(shù)據(jù)集“塌房”

近日斯坦福大學互聯(lián)網(wǎng)觀察站的一份報告顯示，大型開源人工智能數(shù)據(jù)集 LAION-5B 已用于訓練流行的人工智能文本到圖像生成器，例如 Stable Diffusion 和 Google 的 Imagen，該數(shù)據(jù)集包含至少 1,008 個兒童性虐待材料實例。

報告稱，LAION-5B 數(shù)據(jù)集于 2022 年 3 月發(fā)布，包含來自互聯(lián)網(wǎng)的超過 50 億張圖像和相關(guān)說明文字，還可能包括數(shù)千條疑似兒童性虐待材料（CSAM）。該報告警告說，數(shù)據(jù)集中的 CSAM 材料可以使基于這些數(shù)據(jù)構(gòu)建的人工智能產(chǎn)品輸出新的且可能真實的虐待兒童內(nèi)容。

早在3個月前，研究人員就著手梳理 LAION 數(shù)據(jù)集，通過查看哈希值或圖像的標識符，調(diào)查其中存在多少兒童性虐待材料 (CSAM)。調(diào)查表明，該數(shù)據(jù)集包括從各種來源抓取 CSAM，其中至少包含 1,679 張從社交媒體帖子和流行成人網(wǎng)站上抓取的非法圖像。

目前研究人員已將出現(xiàn)問題的圖像 URL 上報美國國家失蹤和受虐兒童中心(NCMEC) 和加拿大兒童保護中心(C3P)。這些機構(gòu)主要使用 PhotoDNA 等哈希工具進行檢測，將圖像的指紋與其數(shù)據(jù)庫進行匹配。

研究人員表示，他們不會查看被濫用的內(nèi)容，并且會向受虐兒童中心（NCMEC ）報告匹配結(jié)果，必要時由加拿大兒童保護中心進行驗證。

2、LAION：數(shù)據(jù)集沒問題，是你的搜索方法有問題

針對此次事件，LAION方面回應(yīng)媒體：出于“高度謹慎”，它暫時刪除了其數(shù)據(jù)集，“以確保在重新發(fā)布之前它們是安全的”。

據(jù)LAION 網(wǎng)站稱，其數(shù)據(jù)集不保存圖像存儲庫。數(shù)據(jù)集主要來自對互聯(lián)網(wǎng)進行索引，并包含其抓取的圖像和替代文本的鏈接。

翻看LAION官網(wǎng)的FAQ就能明顯感受到，LAION 對其數(shù)據(jù)集的安全性和合規(guī)性方面并不是很自信。

比如針對“LAION數(shù)據(jù)集是否包含可能令觀看者感到不安的圖像”這一疑問，LAION明確回答：不會！卻緊接著把“鍋”甩給了用戶：“但數(shù)據(jù)集中的鏈接可能會導(dǎo)致圖像令人不安或不適，具體取決于所使用的過濾器或搜索方法。”

圖片

此次“數(shù)據(jù)集翻車”事件的受害者之一Stability AI 明確表示，雖然確實使用了 LAION-5B 訓練其模型，但它們對數(shù)據(jù)集進行了微調(diào)，確保了數(shù)據(jù)安全性。

Google 方面也迅速劃清界限：Imagen 的初始版本僅用于研究，而且是在 LAION-5B 的舊版本（ LAION-400M）上進行訓練的，后續(xù)迭代并沒有使用 LAION 數(shù)據(jù)集。但這一回應(yīng)馬上被“打臉”：斯坦福大學的報告指出，Imagen 的開發(fā)人員發(fā)現(xiàn) 400M 包含“各種不當內(nèi)容，包括色情圖像、種族主義誹謗和有害的社會成見”。

其實對于LAION數(shù)據(jù)集是什么情況，Google心里也有數(shù)。早在Imagen發(fā)布時，也專門針對LAION-400M做出警示：因為依賴于這種未經(jīng)整理的網(wǎng)絡(luò)數(shù)據(jù)，集成了大模型的社會偏見和限制，因此不適合公開使用。

斯坦福大學的研究人員表示， CSAM 的存在并不一定會影響在數(shù)據(jù)集上訓練的模型的輸出，但模型總有可能從圖像中學到一些東西。同時研究人員也承認，要完全刪除有問題的內(nèi)容是很困難的，尤其是從人工智能模型中刪除。他們建議應(yīng)該棄用在 LAION-5B 上訓練的模型，并在可行的情況下停止分發(fā)。

3、有“前科”，還不止一次

誰能想到，這并不是 LAION 的圖像數(shù)據(jù)集第一次受到攻擊。

早在 2021 年 10 月，認知科學家 Abeba Birhane（現(xiàn)任 Mozilla 人工智能高級研究員）就發(fā)表了一篇研究早期圖像數(shù)據(jù)集 LAION-400M的論文。研究發(fā)現(xiàn)，該數(shù)據(jù)集包含“令人不安的露骨圖像和文本對”。

此外，LAION還被卷入兩場訴訟之中。

一起是2023 年年初，三名藝術(shù)家對 Stability AI 和另外兩家公司提起訴訟，稱這些公司使用了來自 LAION-5B 的數(shù)百萬張受版權(quán)保護的圖像來訓練他們的圖像生成模型。其中一位知名人士Karla Ortiz還在一次公開講話中抨擊了 LAION-5B 數(shù)據(jù)集：“LAION-5B包含令人深感擔憂的材料，例如私人醫(yī)療記錄、未經(jīng)同意的色情內(nèi)容、兒童圖像，甚至社交媒體上我們真實面孔的照片?！?/p>

另一起案件的訴訟原因如出一轍。Getty Images起訴Stability AI，指責后者公然侵犯了其知識產(chǎn)權(quán)，且規(guī)模驚人。Getty Images聲稱，Stability AI未經(jīng)許可將其1200萬張照片（通過 LAION）取走，并用來訓練Stable Diffusion，侵犯了Getty Images的版權(quán)和商標保護權(quán)。

4、AI訓練中的數(shù)據(jù)合規(guī)問題

大模型“大力出奇跡”的暴力美學，決定了擁有的數(shù)據(jù)越多、質(zhì)量越高，大模型的能力也就愈加強大。除企業(yè)本身積累的數(shù)據(jù)，開源數(shù)據(jù)集等也構(gòu)成大模型數(shù)據(jù)來源的一部分。如何確保來源繁雜的AI訓練數(shù)據(jù)的合規(guī)？成為擺在企業(yè)面前的一道難題。

人工智能技術(shù)的應(yīng)用中存在的數(shù)據(jù)合規(guī)問題主要包括以下幾個方面：

一是數(shù)據(jù)隱私保護。個人或組織的敏感信息可能被用于訓練機器學習模型和數(shù)據(jù)分析。因此，需要采取措施保護數(shù)據(jù)隱私，例如數(shù)據(jù)加密、匿名化和訪問控制等。

二是數(shù)據(jù)的可信和準確性。模型訓練的準確性和性能取決于訓練數(shù)據(jù)的質(zhì)量。因此，需要采取刪除無用數(shù)據(jù)、數(shù)據(jù)質(zhì)量檢查、刪除敏感信息、數(shù)據(jù)標注等措施確保數(shù)據(jù)的可靠和準確。

三是數(shù)據(jù)的所有權(quán)問題。許多數(shù)據(jù)是由多個組織共享的，例如醫(yī)療記錄或交通流量數(shù)據(jù)。因此，需要明確數(shù)據(jù)的所有權(quán)和共享方式，以避免數(shù)據(jù)的非法使用和侵權(quán)行為。

頂尖科技的發(fā)展過程雖然可能摻雜一些“小插曲”，但AI大模型的發(fā)展之路也不應(yīng)被這些插曲淹沒，而是應(yīng)該從中得到一些反思。回到這次事件本身，無論是提供開源數(shù)據(jù)集的組織，還是使用公眾數(shù)據(jù)集的企業(yè)，都應(yīng)該守好行業(yè)底線、遵守行業(yè)準則，讓AI應(yīng)用能夠穩(wěn)穩(wěn)落地。

參考鏈接：

https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/

https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford

https://zhuanlan.zhihu.com/p/621678747

責任編輯：武曉燕來源： 51CTO技術(shù)棧

開源數(shù)據(jù)AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="grg9m"><p id="grg9m"></p></sub>