自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「數(shù)據(jù)墻」迫近?蘋果OpenAI等巨頭走投無路,被迫「偷師」YouTube視頻!

人工智能 新聞
近日,《連線》雜志聯(lián)合ProofNews聯(lián)合發(fā)表一篇調(diào)查文章,指責(zé)蘋果、Anthropic等科技巨頭未經(jīng)許可使用YouTube視頻訓(xùn)練AI模型。但訓(xùn)練數(shù)據(jù)的使用邊界究竟在哪里?創(chuàng)作者、大公司和開發(fā)者正在陷入知識產(chǎn)權(quán)的羅生門……

AI科技巨頭的「數(shù)據(jù)荒」到底該拿什么拯救?

為了訓(xùn)練生成式AI,尤其是在scalling law的支配之下,互聯(lián)網(wǎng)上現(xiàn)存的內(nèi)容早已不能滿足LLM越來越大的胃口,It's soooo hungry for data!

「數(shù)據(jù)荒」的直接結(jié)果,就是科技巨頭對GenAI的訓(xùn)練數(shù)據(jù)越來越「饑不擇食」。

不僅僅是書籍、文章,甚至Instagram、X、Fackbook等各種社交平臺上的內(nèi)容也是來者不拒。

前段時(shí)間和OpenAI簽合作協(xié)議,而且坑了谷歌搜索、導(dǎo)致Gemini教唆網(wǎng)友給披薩加膠水的Reddit也是其中之一。

為了規(guī)避潛在的法律糾紛,GPT、Gemini、Claude等商業(yè)模型在發(fā)布時(shí)往往選擇對訓(xùn)練數(shù)據(jù)「三緘其口」,絕口不提及其來源、構(gòu)成、使用許可等信息。

然而,這個(gè)問題早就引起了創(chuàng)作者和各種媒體平臺越來越強(qiáng)烈的不滿。

近日,Anthropic、英偉達(dá)、蘋果和Salesforce等公司再次身陷「數(shù)據(jù)門」,遭受到《連線》雜志和非營利新聞工作室ProofNews的猛烈攻擊。

兩家媒體聯(lián)合進(jìn)行了一項(xiàng)調(diào)查,發(fā)現(xiàn)這些科技巨頭們大量竊取了Youtube上的視頻字幕用于訓(xùn)練,使用了共計(jì)超過4.8萬個(gè)頻道的17.4萬個(gè)視頻。

ProofNews甚至制作了一個(gè)在線搜索工具,對這種行為進(jìn)行持續(xù)的「公開處刑」。哪些創(chuàng)作者和視頻被偷偷納入數(shù)據(jù)庫,一搜就知道。

圖片

網(wǎng)頁地址:https://www.proofnews.org/youtube-ai-search/

追根溯源,這些數(shù)據(jù)指向一個(gè)共同來源——Eleuther AI在2020年發(fā)布的數(shù)據(jù)集Pile。

作為非營利組織,Eleuther AI建立Pile項(xiàng)目的初衷本是為了幫助小型組織和研究人員,促進(jìn)AI研究的民主化,沒想到最后也成為了大公司的囊中之物。

這正是事情的吊詭之處——本來是為反巨頭而生的「Pile」反而讓巨頭用得不亦樂乎。

一邊是怨聲載道的創(chuàng)作者,不滿科技巨頭又用數(shù)據(jù)、又搶飯碗的粗暴行徑;另一邊是宣揚(yáng)著偉大AGI愿景的科技巨頭。

像EleutherAI這樣辛辛苦苦爬數(shù)據(jù)還開源的NPO,懷抱著促進(jìn)數(shù)據(jù)共享和技術(shù)公平的初衷,結(jié)果只落得被大公司利用、被創(chuàng)作者批判的境地。

Pile:有罪的開源?

ProofNews和《連線》雜志將主要矛頭對準(zhǔn)了Eleuther AI在2020年發(fā)布的大型開源文本數(shù)據(jù)集Pile。

文章憤怒地指出,Pile不僅包括YouTube字幕,還有來自歐洲議會、英語維基百科的語料,甚至還有安然(Enron)公司員工的大量電子郵件。

然而,Pile數(shù)據(jù)集的論文本身卻給我們呈現(xiàn)出完全不一樣的圖景。

圖片

論文地址:https://arxiv.org/abs/2101.00027

這篇將近40頁的論文不僅詳細(xì)披露了共825GB文本數(shù)據(jù)的全部22個(gè)來源,還詳細(xì)討論了數(shù)據(jù)收集應(yīng)當(dāng)遵循的原則和廣泛影響。

圖片

從上圖中可以看到,處于爭議焦點(diǎn)的兩個(gè)數(shù)據(jù)集——YoutubeSubtitles和Enron Emails被公開列了出來。

下面的樹狀圖中,也沒有避諱「字幕」類數(shù)據(jù)的使用,反而是在佐證數(shù)據(jù)集內(nèi)容的多樣性。

圖片

為什么Eleuther AI的研究團(tuán)隊(duì)能這么毫不心虛?

首先,Enron Emails是美國聯(lián)邦政府對該公司進(jìn)行調(diào)查期間發(fā)布到網(wǎng)上的,已經(jīng)作為公開數(shù)據(jù)集被使用多年,因此不存在我們想象中的隱私泄露問題。

圖片

https://www.cs.cmu.edu/~enron/

其次,作者團(tuán)隊(duì)對Youtube字幕數(shù)據(jù)的使用也做出了充分的說明和討論。

所有數(shù)據(jù)集的可用性被分為三類:

- 公開數(shù)據(jù):網(wǎng)絡(luò)上完全免費(fèi)、公開的數(shù)據(jù),沒有任何訪問障礙

- 符合服務(wù)條款(ToS)的數(shù)據(jù):數(shù)據(jù)的獲得和使用符合服務(wù)條款的相關(guān)要求

- 得到作者許可的數(shù)據(jù):原作者已經(jīng)同意對數(shù)據(jù)的使用

圖片

如表5所示,22個(gè)數(shù)據(jù)集中,僅有5個(gè)數(shù)據(jù)集沒有得到ToS許可,但在NLP社區(qū)中,除了YoutubeSubtitles外的其他4個(gè)都已經(jīng)被廣泛傳播并使用。

對于YoutubeSubtitles本身,作者在抓取數(shù)據(jù)時(shí)使用了一個(gè)非官方API,并進(jìn)行了大量數(shù)據(jù)處理工作。而且,這個(gè)AP工具在Pip、Conda、GitHub等平臺上都很流行且能極易取得。

「API流行且極易取得」,意味著相關(guān)數(shù)據(jù)的廣泛傳播和使用也許已經(jīng)是既成事實(shí)。

「大量處理工作」似乎是暗示,這個(gè)數(shù)據(jù)集并非只包含視頻創(chuàng)作者的心血,同時(shí)也凝結(jié)了論文作者的技術(shù)知識和勞動。

因此,論文中有這樣一句總結(jié)性陳述:

Given the processing applied and the difficulty of identifying particular files in the Pile, we feel that our use of these datasets does not constitute significantly increased harm beyond that which has already been done by the widespread publication of these datasets.

考慮到所采用的處理方法,以及在Pile中識別特定文件的難度,我們認(rèn)為,基于這些數(shù)據(jù)集目前的大范圍公布,我們的使用并不會顯著增加其危害。

除了可用性討論,作者也用了不少篇幅指出Pile中包含的有害內(nèi)容,比如性別、種族、宗教等方面的偏見,以及褻瀆或貶損類話語。

此外,研究團(tuán)隊(duì)還公開了數(shù)據(jù)集全部內(nèi)容,以及預(yù)訓(xùn)練所用的代碼。

圖片

https://pile.eleuther.ai/

圖片

https://github.com/EleutherAI/the-pile?tab=readme-ov-file

除了建立數(shù)據(jù)集,論文也提出了將Pile作為基準(zhǔn)測試的可能,并在對GPT-2和GPT-3的實(shí)驗(yàn)中,揭示了文本數(shù)據(jù)多樣性對模型性能的影響。

綜合上述內(nèi)容,站在AI技術(shù)人的角度,Eleuther AI的這篇論文不僅無過,而且可以稱得上是非常負(fù)責(zé)且有貢獻(xiàn)的研究。

然而,Pile自從發(fā)布后就惹上了一身麻煩,各種訴訟案件接踵而來。

目前,Eleuther的官方網(wǎng)站已經(jīng)將Pile數(shù)據(jù)集刪除,但它憑借自己強(qiáng)大的歷史影響,依舊在AI/ML社區(qū)廣泛流傳。

圖片

倒下了一個(gè)Pile,后來的開源數(shù)據(jù)集還會繼續(xù)站起來。

上圖中提到的BigCode項(xiàng)目如此,NLP社區(qū)廣為人知的Common Crawl也是如此。

這個(gè)非營利組織從2007年開始抓取網(wǎng)頁數(shù)據(jù),堅(jiān)持至今,收集網(wǎng)頁數(shù)量超過2500億。

據(jù)Hacker News網(wǎng)友估計(jì),總數(shù)據(jù)量大概以每月200~300TB的速度穩(wěn)定增長,可能已經(jīng)累積到數(shù)十甚至數(shù)百PB。

圖片

與Pile的命運(yùn)不同,CC數(shù)據(jù)集安然存活至今。這些數(shù)據(jù)都托管在亞馬遜云平臺上,可以通過命令行直接下載。

圖片

https://commoncrawl.org/get-started

創(chuàng)作者:請停止剝削

雖然在AI從業(yè)者的眼中,對Pile的指責(zé)有些過分苛責(zé),但對于Youtube創(chuàng)作者而言,他們的憤怒和無奈也是真實(shí)的。

ProofNews的調(diào)查發(fā)現(xiàn),被Pile搜刮的創(chuàng)作者中不乏粉絲千萬的YouTube網(wǎng)紅,甚至一些官方賬號也未能幸免。

YouTube Subtitles數(shù)據(jù)集中,不僅包含可汗學(xué)院、哈佛、MIT等在線教育頻道的視頻轉(zhuǎn)錄字幕,還有《華爾街日報(bào)》、NPR、BBC等媒體的新聞視頻,Stephen Colbert、Jimmy Kimmel等人主持的風(fēng)靡全美的脫口秀節(jié)目也赫然在列。

在創(chuàng)作者眼中,沒有經(jīng)過本人同意就抓取創(chuàng)作內(nèi)容用于訓(xùn)練AI,實(shí)質(zhì)上是一種剽竊,甚至剝削。

David Pakman是自己同名脫口秀節(jié)目的主持人,擁有200多萬訂閱者,瀏覽量超過20億次。

圖片

YouTube Subtitle數(shù)據(jù)集中,收錄了該節(jié)目的近160個(gè)視頻。但更讓Pakman感到憤怒的是,他發(fā)現(xiàn)自己在TikTok上被「克隆」了。

Pakman自己曾經(jīng)說過的臺詞被一字不差地挪用,甚至連語調(diào)都一樣,只不過換成了一個(gè)叫作Tucker Carlson的人。更讓他震驚的是,評論區(qū)居然只有一個(gè)人發(fā)現(xiàn)了這一點(diǎn)。

Pakman對此忿忿不平:「這是我的生計(jì),我投入了時(shí)間、資源、金錢和員工的時(shí)間來制作這些內(nèi)容」。

他認(rèn)為,如果人工智能公司從「克隆」中盈利,那么自己也應(yīng)該獲得報(bào)酬。

Nebula的首席執(zhí)行官Dave Wiskus則說得更加露骨:「這是盜竊行為」。

Nebula是一家流媒體公司,其內(nèi)容同樣也被大公司從YouTube上盜用,用于訓(xùn)練人工智能。

圖片

Wiskus表示,未經(jīng)創(chuàng)作者同意就使用他們的作品是「不尊重」他們的行為,尤其是「生成式人工智能會盡可能多地取代藝術(shù)家」。

「這絕對是對藝術(shù)家的嚴(yán)重傷害和剝削!」

孤立無援的創(chuàng)作者對未來的道路感到十分迷茫,心中充滿了不確定。

一些全職YouTube用戶會巡查他們的作品是否被未經(jīng)授權(quán)使用,定期提交刪除通知,不能心無旁騖地創(chuàng)作。

即便如此,他們還是被焦慮籠罩,擔(dān)心AI能夠生成與他們制作的內(nèi)容類似的內(nèi)容只是時(shí)間問題。

通過YouTube可以快速學(xué)習(xí)人類說話的方式和習(xí)慣,這件事好理解,可關(guān)鍵是AI它什么都學(xué)?。?/span>

ProofNews發(fā)現(xiàn),AI公司使用的視頻中有146個(gè)來自Einstein Parrot,這個(gè)賬號有15萬粉絲,但博主的身份是一只非洲灰鸚鵡。

圖片

鸚鵡模仿人類說話,然后AI再模仿鸚鵡模仿人類說話,然后人類每天跟AI聊天機(jī)器人說話,開始模仿AI……閉環(huán)了,朋友們。

大公司:用開源,我錯(cuò)了么

除了爬取的視頻數(shù)據(jù)翻個(gè)底朝天,ProofNews還搬出了大公司使用Pile來訓(xùn)練人工智能的「鐵證」——

蘋果4月份發(fā)布了一個(gè)備受矚目的模型OpenELM,在論文當(dāng)中就提及了Pile。

圖片

論文地址:https://machinelearning.apple.com/research/openelm

可是蘋果也很委屈,表示OpenELM模型的目的是為研究社區(qū)作貢獻(xiàn),推動開源LLM的發(fā)展。

Anthropic也是如此,其發(fā)言人Jennifer Martinez在一份聲明中證實(shí),Claude確實(shí)使用了Pile數(shù)據(jù)集,但是關(guān)于侵權(quán)問題,她表示「我們必須請教Pile的作者」。

Salesforce也確認(rèn),他們使用了Pile來構(gòu)建用于「學(xué)術(shù)和研究目的」的人工智能模型,但公司人工智能研究副總裁Caiming Xiong在聲明中強(qiáng)調(diào),Pile是「公開」數(shù)據(jù)集,因此他們的使用無可指摘。

實(shí)際上,盯上Youtube這個(gè)「數(shù)據(jù)金礦」的科技巨頭遠(yuǎn)不止這幾家。

今年4月,紐約時(shí)報(bào)就披露了OpenAI、谷歌、Meta等公司「收割」Youtube數(shù)據(jù)的情況。

圖片

https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

比如OpenAI創(chuàng)建了一款名為Whisper的語音識別工具,用于將Youtube視頻轉(zhuǎn)錄為文本,用作訓(xùn)練數(shù)據(jù)。

擁有Youtube平臺的谷歌則可以理直氣壯的表示,使用平臺上的視頻內(nèi)容進(jìn)行模型訓(xùn)練,這是是與創(chuàng)作者達(dá)成的條款中所允許的。

硅谷風(fēng)投公司Andreessen Horowitz的律師Sy Damle表示,「模型所需的數(shù)據(jù)如此龐大,即使是集體許可也確實(shí)行不通?!?/span>

在這個(gè)未形成共識的灰色地帶,似乎所有利益相關(guān)方都在困境中,但所有人都無解。

從小型組織、研究者,到Eleuther AI這樣的NPO,再到科技巨頭,「數(shù)據(jù)墻」的威脅近在眼前。要想跟上技術(shù)發(fā)展的節(jié)奏,就得竭盡所能利用一切數(shù)據(jù)來源。

內(nèi)容創(chuàng)作者們,則眼看著自己的心血創(chuàng)意變成反噬自己的強(qiáng)大力量,想要阻止卻收效甚微。

我們正在踏入一種未知,或許只有未來才能給出答案。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2011-12-28 21:54:22

專利

2015-11-04 14:08:34

公有云存儲EMC

2010-06-10 10:28:46

IT業(yè)污染超標(biāo)

2023-04-11 08:18:49

OpenAI人工智能

2010-01-21 13:34:31

HTML 5Youtube

2016-12-09 08:56:54

2016-11-22 08:50:23

2022-06-22 10:29:49

Meta元宇宙蘋果

2015-04-21 10:10:27

蘋果三巨頭

2024-04-07 07:36:30

OpenAIGPT-4大型語言模型

2009-05-22 18:51:23

2015-02-26 13:38:04

數(shù)據(jù)中心

2012-08-13 10:35:07

移動互聯(lián)網(wǎng)

2019-08-02 10:25:37

薪資服務(wù)器技術(shù)

2023-06-18 07:51:27

2009-11-12 08:40:11

Windows 7模仿蘋果

2011-09-27 10:19:43

諾基亞通信展

2023-03-13 14:09:33

機(jī)器學(xué)習(xí)OpenXLA

2013-07-15 10:42:59

蘋果收購芯片

2022-09-26 19:32:26

VRAR
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號