自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「AI數(shù)據(jù)荒」雪上加霜!MIT:網(wǎng)頁(yè)數(shù)據(jù)的公開(kāi)共享正走向衰落

人工智能 新聞
人工智能系統(tǒng)依靠充足、高質(zhì)量的訓(xùn)練數(shù)據(jù)來(lái)獲得高性能,但MIT等機(jī)構(gòu)最近的一項(xiàng)研究發(fā)現(xiàn),曾經(jīng)免費(fèi)提供的數(shù)據(jù)在多個(gè)方面變得越來(lái)越難獲取。

隨著GenAI產(chǎn)品開(kāi)發(fā)和研究變得越來(lái)越廣泛,訓(xùn)練數(shù)據(jù)的抓取許可也越來(lái)越成為受關(guān)注的話題。

最近,吳恩達(dá)在網(wǎng)站The Batch上提及了一篇有關(guān)數(shù)據(jù)許可的研究,其結(jié)果似乎讓本就迫近的「AI數(shù)據(jù)荒」雪上加霜。

研究人員發(fā)現(xiàn),C4、RefineWeb、Dolma等開(kāi)源數(shù)據(jù)集所爬取的各種網(wǎng)站正在快速在收緊他們的許可協(xié)議,曾經(jīng)觸手可及的開(kāi)放數(shù)據(jù)越來(lái)越難以獲取。

這不僅會(huì)影響商用AI模型的訓(xùn)練,也會(huì)對(duì)學(xué)術(shù)界和非營(yíng)利機(jī)構(gòu)的研究造成阻礙。

該項(xiàng)目的4位團(tuán)隊(duì)主管分別來(lái)自MIT Media Lab、Wellesley學(xué)院、AI初創(chuàng)公司Raive等機(jī)構(gòu)。

圖片

論文地址:https://www.dataprovenance.org/consent-in-crisis-paper

主持該研究的是非營(yíng)利組織The Data Provenance Initiative,由來(lái)自世界各地的AI研究人員志愿加入組成。論文所涉及的數(shù)據(jù)標(biāo)注以及分析全過(guò)程已經(jīng)全部公開(kāi)在GitHub上,方便未來(lái)研究參考使用。

圖片

倉(cāng)庫(kù)地址:https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

具體來(lái)說(shuō),論文主要有以下幾個(gè)方面的結(jié)論:

  • 對(duì)AI數(shù)據(jù)共享空間的限制正在激增

2023.4~2024.4僅一年的時(shí)間,C4、RefineWeb、Dolma數(shù)據(jù)集中就有5%+的token總量、25%+的關(guān)鍵網(wǎng)頁(yè)在robots.txt做出了限制。

從服務(wù)條款的結(jié)果來(lái)看,C4數(shù)據(jù)集的45%已被限制。通過(guò)這種趨勢(shì)可以預(yù)測(cè),不受限制的開(kāi)放網(wǎng)絡(luò)數(shù)據(jù)將會(huì)逐年減少。

  • 許可的不對(duì)稱性與不一致性

相比其他的開(kāi)發(fā)者,OpenAI的爬蟲(chóng)更加不受歡迎。不一致性體現(xiàn)在,robots.txt和服務(wù)條款(Terms of Service, ToS)中經(jīng)常存在矛盾之處。這表明用于傳達(dá)數(shù)據(jù)使用意圖的工具存在效率低下的問(wèn)題。

  • 從網(wǎng)絡(luò)爬取的公開(kāi)訓(xùn)練語(yǔ)料中,頭尾內(nèi)容的特征存在差異

這些語(yǔ)料中有相當(dāng)高比例的用戶生成內(nèi)容、多模態(tài)內(nèi)容和商業(yè)變現(xiàn)內(nèi)容(俗稱帶貨廣告),敏感或露骨內(nèi)容的比例僅僅略少一些。

排名靠前的網(wǎng)站域名包括新聞、百科和社交媒體網(wǎng)站,其余的組織機(jī)構(gòu)官網(wǎng)、博客和電子商務(wù)網(wǎng)站構(gòu)成了長(zhǎng)尾部分。

  • 網(wǎng)絡(luò)數(shù)據(jù)與對(duì)話式AI的常見(jiàn)用例的不匹配

網(wǎng)絡(luò)上爬取的相當(dāng)一部分?jǐn)?shù)據(jù)與AI模型的訓(xùn)練用途并不一致,這對(duì)模型對(duì)齊、未來(lái)的數(shù)據(jù)收集實(shí)踐以及版權(quán)都會(huì)造成影響。

研究方法

通常來(lái)說(shuō),限制網(wǎng)頁(yè)爬蟲(chóng)的措施有以下兩種:

- 機(jī)器人排除協(xié)議(Robots Exclusion Protocol, REP)

- 網(wǎng)站的服務(wù)條款(Terms of Service, ToS)

REP的誕生還要追溯到AI時(shí)代之前的1995年,這個(gè)協(xié)議要求在網(wǎng)站源文件中包含robots.txt以管理網(wǎng)絡(luò)爬蟲(chóng)等機(jī)器人的活動(dòng),比如用戶代理(user agent)或具體文件的訪問(wèn)權(quán)限。

圖片

谷歌開(kāi)發(fā)者網(wǎng)站上的robots.txt文件示例

你可以將robots.txt的效力視為張貼在健身房、酒吧或社區(qū)中心墻上的「行為準(zhǔn)則」標(biāo)志。它本身沒(méi)有任何強(qiáng)制效力,好的機(jī)器人會(huì)遵循準(zhǔn)則,但壞的機(jī)器人可以直接無(wú)視。

論文共調(diào)查了3個(gè)數(shù)據(jù)集的網(wǎng)站來(lái)源,具體如表1所示。這些都是有廣泛影響力的開(kāi)源數(shù)據(jù)集,下載量在100k~1M+不等。

圖片

每個(gè)數(shù)據(jù)來(lái)源,token總量排名前2k的網(wǎng)站域名,取并集,共整理出3.95k個(gè)網(wǎng)站域名,記為HEADAll,其中僅來(lái)源于C4數(shù)據(jù)集的記為HEADC4,可以看作是體量最大、維護(hù)最頻繁、最關(guān)鍵領(lǐng)域的AI訓(xùn)練數(shù)據(jù)來(lái)源。

隨機(jī)采樣10k個(gè)域名(RANDOM10k),其中再隨機(jī)選取2k個(gè)進(jìn)行人工標(biāo)注(RANDOM2k)。RANDOM10k僅從三個(gè)數(shù)據(jù)集的域名交集中采樣,這意味著他們更可能是質(zhì)量較高的網(wǎng)頁(yè)。

如表2所示,對(duì)RANDOM2k進(jìn)行人工標(biāo)注時(shí)涵蓋了許多方面,包括內(nèi)容的各種屬性以及訪問(wèn)權(quán)限。為了進(jìn)行時(shí)間上的縱向比對(duì),作者參考了Wayback Machine收錄的網(wǎng)頁(yè)歷史數(shù)據(jù)。

研究所用的人工標(biāo)注內(nèi)容都已公開(kāi),方便未來(lái)研究進(jìn)行復(fù)現(xiàn)。

圖片

結(jié)果概述

數(shù)據(jù)限制增加

除了收集歷史數(shù)據(jù),論文還使用SARIMA方法(Seasonal Autoregressive Integrated Moving Average)對(duì)未來(lái)趨勢(shì)進(jìn)行了預(yù)測(cè)。

從robots.txt的限制來(lái)看,從GPTBot出現(xiàn)(2023年中期)后,進(jìn)行完全限制的網(wǎng)站數(shù)量激增,但服務(wù)條款的限制數(shù)量增長(zhǎng)較為穩(wěn)定且均衡,更多關(guān)注商業(yè)用途。

圖片

圖片

根據(jù)SARIMA模型的預(yù)測(cè),無(wú)論是robots.txt還是ToS,這種限制數(shù)增長(zhǎng)的趨勢(shì)都會(huì)持續(xù)下去。

下面這種圖計(jì)算了網(wǎng)站限制的特定組織或公司的agent比例,可以看到OpenAI的機(jī)器人遙遙領(lǐng)先,其次是Anthropic、谷歌以及開(kāi)源數(shù)據(jù)集Common Crawl的爬蟲(chóng)。

圖片

從token數(shù)量的角度,也能看到類(lèi)似的趨勢(shì)。

圖片

不一致且無(wú)效的AI許可

不同組織的AI agent的在各網(wǎng)站上的許可程度存在相當(dāng)大的差異。

OpenAI、Anthropic和Common Crawl的受限占比位列前三,都達(dá)到了80%以上,而網(wǎng)站所有者對(duì)Internet Archive或谷歌搜索這類(lèi)非AI領(lǐng)域的爬蟲(chóng)通常都比較寬容開(kāi)放。

圖片

robots.txt主要用于規(guī)范網(wǎng)頁(yè)爬蟲(chóng)的行為,而網(wǎng)站的服務(wù)條款是和使用者之間的法律協(xié)議,前者較為機(jī)械化、結(jié)構(gòu)化但可執(zhí)行度高,后者能表達(dá)更豐富、細(xì)微的策略。

二者本應(yīng)相互補(bǔ)足,但在實(shí)際中,robots.txt常常無(wú)法捕捉到服務(wù)條款的意圖,甚至常常有互相矛盾的含義(圖3)。

現(xiàn)實(shí)用例與網(wǎng)頁(yè)數(shù)據(jù)的不匹配

論文將網(wǎng)頁(yè)內(nèi)容與WildChat數(shù)據(jù)集中的問(wèn)題分布進(jìn)行對(duì)比,這是最近收集的ChatGPT的用戶數(shù)據(jù),包含約1M份對(duì)話。

圖片

圖片

從圖4中可以發(fā)現(xiàn),二者的差別十分顯著。網(wǎng)頁(yè)數(shù)據(jù)中占比最大的新聞和百科在用戶數(shù)據(jù)中幾乎微不足道,用戶經(jīng)常使用的虛構(gòu)寫(xiě)作功能在網(wǎng)頁(yè)中也很難找到。

討論與結(jié)論

近來(lái),很多AI公司都被指責(zé)繞過(guò)robots.txt來(lái)抓取網(wǎng)頁(yè)數(shù)據(jù)。盡管很難確認(rèn),但似乎AI系統(tǒng)很難將用于訓(xùn)練的數(shù)據(jù)和推理階段用于回答用戶提問(wèn)的數(shù)據(jù)分開(kāi)。

REP協(xié)議的復(fù)雜性給網(wǎng)頁(yè)創(chuàng)建者帶來(lái)了很大的壓力,因?yàn)樗麄兒茈y對(duì)所有可能的agent及其下游用例做出細(xì)致規(guī)定,這導(dǎo)致robots.txt的實(shí)際內(nèi)容很難反映真實(shí)意圖。

我們需要將用例相關(guān)的術(shù)語(yǔ)進(jìn)一步分類(lèi)并標(biāo)準(zhǔn)化,比如,用于搜索引擎,或非商用AI,或只在AI標(biāo)明數(shù)據(jù)出處時(shí)才可使用。

總之,這種新的協(xié)議需要更靈活地反映網(wǎng)站所有者的意愿,能將有許可和不被允許的用例分開(kāi),更好地與服務(wù)條款同步。

最為重要的是,從網(wǎng)站數(shù)據(jù)使用限制的激增中,我們不難看出數(shù)據(jù)創(chuàng)建者和AI科技公司之間的緊張關(guān)系,但背后無(wú)辜躺槍的是非營(yíng)利組織和學(xué)術(shù)研究人員。

The Batch在轉(zhuǎn)述這篇文章時(shí)表達(dá)了這樣的愿望:

「我們希望AI開(kāi)發(fā)人員能夠使用開(kāi)放網(wǎng)絡(luò)上提供的數(shù)據(jù)進(jìn)行訓(xùn)練。我們希望未來(lái)的法院判決和立法能夠確認(rèn)這一點(diǎn)?!?/span>

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2012-06-21 10:32:33

WP8

2013-01-17 09:07:22

2016-10-17 17:52:32

2020-11-13 11:44:16

黑客

2011-07-19 13:09:51

2021-09-14 15:45:36

加密貨幣韓國(guó)區(qū)塊鏈

2009-12-12 15:19:30

2013-08-07 10:45:04

微軟Windows 8

2009-07-13 18:07:18

2021-03-19 09:31:39

Windows10操作系統(tǒng)微軟

2015-08-05 14:15:48

2022-02-25 11:47:45

芯片半導(dǎo)體激光

2022-11-22 13:57:26

2022-04-19 11:38:56

數(shù)據(jù)中心能源

2020-09-28 14:29:41

航旅業(yè)網(wǎng)絡(luò)安全漏洞

2011-07-01 11:21:29

三重保護(hù)信息防泄漏數(shù)據(jù)防泄漏

2023-05-26 17:11:25

馬斯克Neuralink接口

2022-05-03 23:46:25

芯片存儲(chǔ)科技

2011-05-17 10:06:54

思科營(yíng)銷(xiāo)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)