自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="hcxko"><i id="hcxko"></i></sub>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

「AI數(shù)據(jù)荒」雪上加霜！MIT：網(wǎng)頁(yè)數(shù)據(jù)的公開(kāi)共享正走向衰落

作者：新智元 2024-08-13 13:01:23

人工智能新聞

人工智能系統(tǒng)依靠充足、高質(zhì)量的訓(xùn)練數(shù)據(jù)來(lái)獲得高性能，但MIT等機(jī)構(gòu)最近的一項(xiàng)研究發(fā)現(xiàn)，曾經(jīng)免費(fèi)提供的數(shù)據(jù)在多個(gè)方面變得越來(lái)越難獲取。

隨著GenAI產(chǎn)品開(kāi)發(fā)和研究變得越來(lái)越廣泛，訓(xùn)練數(shù)據(jù)的抓取許可也越來(lái)越成為受關(guān)注的話題。

最近，吳恩達(dá)在網(wǎng)站The Batch上提及了一篇有關(guān)數(shù)據(jù)許可的研究，其結(jié)果似乎讓本就迫近的「AI數(shù)據(jù)荒」雪上加霜。

研究人員發(fā)現(xiàn)，C4、RefineWeb、Dolma等開(kāi)源數(shù)據(jù)集所爬取的各種網(wǎng)站正在快速在收緊他們的許可協(xié)議，曾經(jīng)觸手可及的開(kāi)放數(shù)據(jù)越來(lái)越難以獲取。

這不僅會(huì)影響商用AI模型的訓(xùn)練，也會(huì)對(duì)學(xué)術(shù)界和非營(yíng)利機(jī)構(gòu)的研究造成阻礙。

該項(xiàng)目的4位團(tuán)隊(duì)主管分別來(lái)自MIT Media Lab、Wellesley學(xué)院、AI初創(chuàng)公司Raive等機(jī)構(gòu)。

論文地址：https://www.dataprovenance.org/consent-in-crisis-paper

主持該研究的是非營(yíng)利組織The Data Provenance Initiative，由來(lái)自世界各地的AI研究人員志愿加入組成。論文所涉及的數(shù)據(jù)標(biāo)注以及分析全過(guò)程已經(jīng)全部公開(kāi)在GitHub上，方便未來(lái)研究參考使用。

倉(cāng)庫(kù)地址：https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

具體來(lái)說(shuō)，論文主要有以下幾個(gè)方面的結(jié)論：

對(duì)AI數(shù)據(jù)共享空間的限制正在激增

2023.4～2024.4僅一年的時(shí)間，C4、RefineWeb、Dolma數(shù)據(jù)集中就有5%+的token總量、25%+的關(guān)鍵網(wǎng)頁(yè)在robots.txt做出了限制。

從服務(wù)條款的結(jié)果來(lái)看，C4數(shù)據(jù)集的45%已被限制。通過(guò)這種趨勢(shì)可以預(yù)測(cè)，不受限制的開(kāi)放網(wǎng)絡(luò)數(shù)據(jù)將會(huì)逐年減少。

許可的不對(duì)稱性與不一致性

相比其他的開(kāi)發(fā)者，OpenAI的爬蟲(chóng)更加不受歡迎。不一致性體現(xiàn)在，robots.txt和服務(wù)條款（Terms of Service, ToS）中經(jīng)常存在矛盾之處。這表明用于傳達(dá)數(shù)據(jù)使用意圖的工具存在效率低下的問(wèn)題。

從網(wǎng)絡(luò)爬取的公開(kāi)訓(xùn)練語(yǔ)料中，頭尾內(nèi)容的特征存在差異

這些語(yǔ)料中有相當(dāng)高比例的用戶生成內(nèi)容、多模態(tài)內(nèi)容和商業(yè)變現(xiàn)內(nèi)容（俗稱帶貨廣告），敏感或露骨內(nèi)容的比例僅僅略少一些。

排名靠前的網(wǎng)站域名包括新聞、百科和社交媒體網(wǎng)站，其余的組織機(jī)構(gòu)官網(wǎng)、博客和電子商務(wù)網(wǎng)站構(gòu)成了長(zhǎng)尾部分。

網(wǎng)絡(luò)數(shù)據(jù)與對(duì)話式AI的常見(jiàn)用例的不匹配

網(wǎng)絡(luò)上爬取的相當(dāng)一部分?jǐn)?shù)據(jù)與AI模型的訓(xùn)練用途并不一致，這對(duì)模型對(duì)齊、未來(lái)的數(shù)據(jù)收集實(shí)踐以及版權(quán)都會(huì)造成影響。

研究方法

通常來(lái)說(shuō)，限制網(wǎng)頁(yè)爬蟲(chóng)的措施有以下兩種：

- 機(jī)器人排除協(xié)議（Robots Exclusion Protocol, REP）

- 網(wǎng)站的服務(wù)條款（Terms of Service, ToS）

REP的誕生還要追溯到AI時(shí)代之前的1995年，這個(gè)協(xié)議要求在網(wǎng)站源文件中包含robots.txt以管理網(wǎng)絡(luò)爬蟲(chóng)等機(jī)器人的活動(dòng)，比如用戶代理（user agent）或具體文件的訪問(wèn)權(quán)限。

谷歌開(kāi)發(fā)者網(wǎng)站上的robots.txt文件示例

你可以將robots.txt的效力視為張貼在健身房、酒吧或社區(qū)中心墻上的「行為準(zhǔn)則」標(biāo)志。它本身沒(méi)有任何強(qiáng)制效力，好的機(jī)器人會(huì)遵循準(zhǔn)則，但壞的機(jī)器人可以直接無(wú)視。

論文共調(diào)查了3個(gè)數(shù)據(jù)集的網(wǎng)站來(lái)源，具體如表1所示。這些都是有廣泛影響力的開(kāi)源數(shù)據(jù)集，下載量在100k～1M+不等。

每個(gè)數(shù)據(jù)來(lái)源，token總量排名前2k的網(wǎng)站域名，取并集，共整理出3.95k個(gè)網(wǎng)站域名，記為HEAD_All，其中僅來(lái)源于C4數(shù)據(jù)集的記為HEAD_C4，可以看作是體量最大、維護(hù)最頻繁、最關(guān)鍵領(lǐng)域的AI訓(xùn)練數(shù)據(jù)來(lái)源。

隨機(jī)采樣10k個(gè)域名（RANDOM_10k），其中再隨機(jī)選取2k個(gè)進(jìn)行人工標(biāo)注（RANDOM_2k）。RANDOM_10k僅從三個(gè)數(shù)據(jù)集的域名交集中采樣，這意味著他們更可能是質(zhì)量較高的網(wǎng)頁(yè)。

如表2所示，對(duì)RANDOM_2k進(jìn)行人工標(biāo)注時(shí)涵蓋了許多方面，包括內(nèi)容的各種屬性以及訪問(wèn)權(quán)限。為了進(jìn)行時(shí)間上的縱向比對(duì)，作者參考了Wayback Machine收錄的網(wǎng)頁(yè)歷史數(shù)據(jù)。

研究所用的人工標(biāo)注內(nèi)容都已公開(kāi)，方便未來(lái)研究進(jìn)行復(fù)現(xiàn)。

結(jié)果概述

數(shù)據(jù)限制增加

除了收集歷史數(shù)據(jù)，論文還使用SARIMA方法（Seasonal Autoregressive Integrated Moving Average）對(duì)未來(lái)趨勢(shì)進(jìn)行了預(yù)測(cè)。

從robots.txt的限制來(lái)看，從GPTBot出現(xiàn)（2023年中期）后，進(jìn)行完全限制的網(wǎng)站數(shù)量激增，但服務(wù)條款的限制數(shù)量增長(zhǎng)較為穩(wěn)定且均衡，更多關(guān)注商業(yè)用途。

根據(jù)SARIMA模型的預(yù)測(cè)，無(wú)論是robots.txt還是ToS，這種限制數(shù)增長(zhǎng)的趨勢(shì)都會(huì)持續(xù)下去。

下面這種圖計(jì)算了網(wǎng)站限制的特定組織或公司的agent比例，可以看到OpenAI的機(jī)器人遙遙領(lǐng)先，其次是Anthropic、谷歌以及開(kāi)源數(shù)據(jù)集Common Crawl的爬蟲(chóng)。

從token數(shù)量的角度，也能看到類(lèi)似的趨勢(shì)。

不一致且無(wú)效的AI許可

不同組織的AI agent的在各網(wǎng)站上的許可程度存在相當(dāng)大的差異。

OpenAI、Anthropic和Common Crawl的受限占比位列前三，都達(dá)到了80%以上，而網(wǎng)站所有者對(duì)Internet Archive或谷歌搜索這類(lèi)非AI領(lǐng)域的爬蟲(chóng)通常都比較寬容開(kāi)放。

robots.txt主要用于規(guī)范網(wǎng)頁(yè)爬蟲(chóng)的行為，而網(wǎng)站的服務(wù)條款是和使用者之間的法律協(xié)議，前者較為機(jī)械化、結(jié)構(gòu)化但可執(zhí)行度高，后者能表達(dá)更豐富、細(xì)微的策略。

二者本應(yīng)相互補(bǔ)足，但在實(shí)際中，robots.txt常常無(wú)法捕捉到服務(wù)條款的意圖，甚至常常有互相矛盾的含義（圖3）。

現(xiàn)實(shí)用例與網(wǎng)頁(yè)數(shù)據(jù)的不匹配

論文將網(wǎng)頁(yè)內(nèi)容與WildChat數(shù)據(jù)集中的問(wèn)題分布進(jìn)行對(duì)比，這是最近收集的ChatGPT的用戶數(shù)據(jù)，包含約1M份對(duì)話。

從圖4中可以發(fā)現(xiàn)，二者的差別十分顯著。網(wǎng)頁(yè)數(shù)據(jù)中占比最大的新聞和百科在用戶數(shù)據(jù)中幾乎微不足道，用戶經(jīng)常使用的虛構(gòu)寫(xiě)作功能在網(wǎng)頁(yè)中也很難找到。

討論與結(jié)論

近來(lái)，很多AI公司都被指責(zé)繞過(guò)robots.txt來(lái)抓取網(wǎng)頁(yè)數(shù)據(jù)。盡管很難確認(rèn)，但似乎AI系統(tǒng)很難將用于訓(xùn)練的數(shù)據(jù)和推理階段用于回答用戶提問(wèn)的數(shù)據(jù)分開(kāi)。

REP協(xié)議的復(fù)雜性給網(wǎng)頁(yè)創(chuàng)建者帶來(lái)了很大的壓力，因?yàn)樗麄兒茈y對(duì)所有可能的agent及其下游用例做出細(xì)致規(guī)定，這導(dǎo)致robots.txt的實(shí)際內(nèi)容很難反映真實(shí)意圖。

我們需要將用例相關(guān)的術(shù)語(yǔ)進(jìn)一步分類(lèi)并標(biāo)準(zhǔn)化，比如，用于搜索引擎，或非商用AI，或只在AI標(biāo)明數(shù)據(jù)出處時(shí)才可使用。

總之，這種新的協(xié)議需要更靈活地反映網(wǎng)站所有者的意愿，能將有許可和不被允許的用例分開(kāi)，更好地與服務(wù)條款同步。

最為重要的是，從網(wǎng)站數(shù)據(jù)使用限制的激增中，我們不難看出數(shù)據(jù)創(chuàng)建者和AI科技公司之間的緊張關(guān)系，但背后無(wú)辜躺槍的是非營(yíng)利組織和學(xué)術(shù)研究人員。

The Batch在轉(zhuǎn)述這篇文章時(shí)表達(dá)了這樣的愿望：

「我們希望AI開(kāi)發(fā)人員能夠使用開(kāi)放網(wǎng)絡(luò)上提供的數(shù)據(jù)進(jìn)行訓(xùn)練。我們希望未來(lái)的法院判決和立法能夠確認(rèn)這一點(diǎn)?！?/span>

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="cjk0a"></p>

<em id="cjk0a"></em>

<sub id="cjk0a"><i id="cjk0a"></i></sub>

<tfoot id="cjk0a"></tfoot>

<samp id="cjk0a"><option id="cjk0a"></option></samp>

<ruby id="cjk0a"></ruby>

<cite id="cjk0a"></cite>