自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

美媒揭秘大模型訓(xùn)練數(shù)據(jù)集:部分內(nèi)容有些"臟"

人工智能
聊天機(jī)器人并不像人類那樣思考,它們甚至不知道自己在說什么。它們之所以能模仿人類的語言,是因?yàn)轵?qū)動它們的人工智能已經(jīng)吸收了大量的文本,其中大部分內(nèi)容是從互聯(lián)網(wǎng)上抓取的。

4月20日消息,過去四個月,人工智能聊天機(jī)器人變得越來越受歡迎,它們能夠完成各種任務(wù),比如寫復(fù)雜的學(xué)術(shù)論文和進(jìn)行緊張的對話,能力很令人驚嘆。

聊天機(jī)器人并不像人類那樣思考,它們甚至不知道自己在說什么。它們之所以能模仿人類的語言,是因?yàn)轵?qū)動它們的人工智能已經(jīng)吸收了大量的文本,其中大部分內(nèi)容是從互聯(lián)網(wǎng)上抓取的。

這些文本是人工智能在構(gòu)建過程中獲取世界信息的主要來源,它們會對人工智能的響應(yīng)方式產(chǎn)生深遠(yuǎn)影響。如果人工智能在司法考試中取得了優(yōu)異成績,那可能是因?yàn)樗挠?xùn)練數(shù)據(jù)中包含了數(shù)以千計(jì)的LSAT(Law School Admission Test,美國法學(xué)院入學(xué)申請考試)資料。

科技公司對他們向人工智能提供了哪些信息始終保密。因此,《華盛頓郵報(bào)》開始分析其中一個重要數(shù)據(jù)集,徹底揭示了用于訓(xùn)練AI的專有、個人和常常具有攻擊性的網(wǎng)站類型。

為了探究人工智能訓(xùn)練數(shù)據(jù)的內(nèi)部構(gòu)成,《華盛頓郵報(bào)》與艾倫人工智能研究所的研究人員合作,對谷歌的C4數(shù)據(jù)集進(jìn)行了分析。這個數(shù)據(jù)集是一個包含1500多萬個網(wǎng)站的海量快照,這些網(wǎng)站內(nèi)容被用來訓(xùn)練許多備受關(guān)注的英語人工智能,例如谷歌的T5和Facebook的LLaMA。而OpenAI沒有透露他們使用了什么樣的數(shù)據(jù)集來訓(xùn)練支持聊天機(jī)器人ChatGPT的模型。

在這項(xiàng)調(diào)查中,研究人員使用網(wǎng)絡(luò)分析公司Similarweb的數(shù)據(jù)對網(wǎng)站進(jìn)行了分類。其中大約三分之一的網(wǎng)站無法進(jìn)行分類而被排除,主要是因?yàn)樗鼈円呀?jīng)不再存在于互聯(lián)網(wǎng)上。接著,研究人員根據(jù)數(shù)據(jù)集中每個網(wǎng)站出現(xiàn)的“token”數(shù)量,對剩下的1000萬個網(wǎng)站進(jìn)行了排名。token是處理信息的小段文本,通常是一個單詞或短語,用于訓(xùn)練AI模型。

從維基百科到WoWhead

C4數(shù)據(jù)集的網(wǎng)站主要來自新聞、娛樂、軟件開發(fā)、醫(yī)療和內(nèi)容創(chuàng)作等行業(yè)。這可以解釋為什么這些領(lǐng)域可能受到新一波人工智能的威脅。排名前三的網(wǎng)站分別是:第一名是谷歌專利搜索,它包含世界各地發(fā)布的專利文本;第二名是維基百科;第三名是只接受付費(fèi)訂閱的數(shù)字圖書館Scribd。此外,排名靠前的其他網(wǎng)站還有盜版電子書市場Library(第190位),這個網(wǎng)站因非法行為被美國司法部查封。此外,數(shù)據(jù)集中還存在至少27個被美國政府認(rèn)定為盜版和假冒產(chǎn)品市場的網(wǎng)站。

還有一些頂級網(wǎng)站也出現(xiàn)在其中,例如《魔獸世界》玩家論壇wowhead(第181位),以及阿里安娜·赫芬頓(Arianna Huffington)創(chuàng)立的用于幫助緩解職業(yè)倦怠的網(wǎng)站thriveglobal(第175位)。此外,還有至少10個出售垃圾箱的網(wǎng)站,包括dumpsteroid(第183位),但它似乎已經(jīng)無法訪問。

雖然大部分網(wǎng)站都是安全的,但有些網(wǎng)站存在嚴(yán)重的隱私問題。例如,有兩個排名進(jìn)入前100位的網(wǎng)站,都私下承載了州選民登記數(shù)據(jù)庫的副本。雖然選民數(shù)據(jù)是公開的,但這些模型可能會以未知的方式使用這些個人信息。

工商業(yè)網(wǎng)站占據(jù)了最大的類別(占分類token的16%)。排名第一的是提供投資建議的The Motley Fool(第13位)。其次是允許用戶為創(chuàng)意項(xiàng)目進(jìn)行眾籌的Kickstarter網(wǎng)站(第25位)。而排名較后的Patreon位列第2398,該網(wǎng)站幫助創(chuàng)作者從訂閱者那里收取每月費(fèi)用以獲得獨(dú)家內(nèi)容。

然而,Kickstarter和Patreon可能會讓人工智能獲取藝術(shù)家的想法和營銷文案,人們擔(dān)憂AI可能會在向用戶提供建議時復(fù)制這些作品。目前,藝術(shù)家的作品被包括在人工智能培訓(xùn)數(shù)據(jù)中時,他們不會得到任何補(bǔ)償,他們已經(jīng)向文本轉(zhuǎn)圖像生成器Stable Diffusion、MidJourney和DeviantArt提出了侵權(quán)索賠。

根據(jù)這次《華盛頓郵報(bào)》的分析,更多的法律挑戰(zhàn)可能即將到來:C4數(shù)據(jù)集中有超過2億次出現(xiàn)版權(quán)符號(表示注冊為知識產(chǎn)權(quán)的作品)。

技術(shù)網(wǎng)站是第二大類別,占分類token的15%。這包括許多平臺,它們幫助人們建立網(wǎng)站,比如谷歌協(xié)作平臺(第85位),它的頁面涵蓋了從英格蘭雷丁柔道俱樂部到新澤西州幼兒園的各種內(nèi)容。

C4數(shù)據(jù)集還包含了50多萬個個人博客,占分類內(nèi)容的3.8%。發(fā)布平臺Medium排名第46位,是第五大科技網(wǎng)站,在其域名下?lián)碛袛?shù)萬個博客。此外,還有在WordPress、Tumblr、Blogpot和Live Journal等平臺上撰寫的博客。

這些博客形式多樣,從職業(yè)到個人都有,比如一篇名為“Grumpy Rumblings”的博客,由兩位匿名的學(xué)者共同撰寫,其中一位最近寫到了他們的伴侶失業(yè)是如何影響了夫妻的稅收。此外,C4數(shù)據(jù)集中還有一些專注于真人角色扮演游戲的頂級博客。

社交網(wǎng)絡(luò)如Facebook和Twitter等(它們被視為現(xiàn)代網(wǎng)絡(luò)的核心)的內(nèi)容被禁止抓取,這意味著用于訓(xùn)練人工智能的大多數(shù)數(shù)據(jù)集都無法訪問它們。Facebook和谷歌等科技巨頭坐擁海量對話數(shù)據(jù),但他們還不清楚如何使用個人用戶信息來訓(xùn)練內(nèi)部使用或作為產(chǎn)品銷售的人工智能模型。

新聞和媒體網(wǎng)站是所有類別中排名第三,而前十位網(wǎng)站中有半數(shù)是新聞媒體:《紐約時報(bào)》網(wǎng)站排名第四,《洛杉磯時報(bào)》網(wǎng)站排名第六,《衛(wèi)報(bào)》網(wǎng)站排名第七,《福布斯》網(wǎng)站排在第八位,《赫芬頓郵報(bào)》網(wǎng)站排名第九,《華盛頓郵報(bào)》網(wǎng)站排名第11位。與藝術(shù)家和創(chuàng)作者一樣,多家新聞機(jī)構(gòu)也批評科技公司在未經(jīng)授權(quán)或提供補(bǔ)償?shù)那闆r下使用他們的內(nèi)容。

與此同時,《華盛頓郵報(bào)》還發(fā)現(xiàn)有幾家媒體在NewsGuard的獨(dú)立可信度評級中排位較低:比如俄羅斯RT(第65位)、極右翼新聞網(wǎng)站breitbart(第159位)以及與白人至上主義有關(guān)的反移民網(wǎng)站vdare(第993位)。

聊天機(jī)器人已經(jīng)被證明可以分享錯誤信息。不可信的訓(xùn)練數(shù)據(jù)可能導(dǎo)致它們傳播偏見、宣傳錯誤信息,而用戶卻無法追蹤到它們的原始來源。

社區(qū)網(wǎng)站約占分類內(nèi)容的5%,主要是宗教網(wǎng)站。

過濾器漏網(wǎng)之魚有哪些?

像大多數(shù)公司一樣,谷歌在將數(shù)據(jù)提供給人工智能之前,會對數(shù)據(jù)進(jìn)行過濾和篩查。除了去除無意義和重復(fù)的文字外,該公司還使用了開源的“不良詞匯列表”,其中包括402個英文術(shù)語和一個表情符號。公司通常使用高質(zhì)量的數(shù)據(jù)集來微調(diào)模型,從而屏蔽用戶不想看到的內(nèi)容。

雖然這類列表旨在限制模型在接受培訓(xùn)時受到種族誹謗和不良內(nèi)容的影響,但很多東西都通過了過濾器的篩查?!度A盛頓郵報(bào)》發(fā)現(xiàn)了數(shù)百個色情網(wǎng)站和超過7.2萬個“納粹”例子,它們都在禁用詞匯列表中。

與此同時,《華盛頓郵報(bào)》發(fā)現(xiàn),這些過濾器未能刪除某些令人不安的內(nèi)容,包括白人至上主義網(wǎng)站、反跨性別網(wǎng)站以及以組織針對個人騷擾活動而聞名的匿名留言板4chan。研究中還發(fā)現(xiàn)了宣傳陰謀論的網(wǎng)站。

你的網(wǎng)站有沒有用于訓(xùn)練AI?

網(wǎng)絡(luò)抓取聽上去可能像是對整個互聯(lián)網(wǎng)進(jìn)行復(fù)制,但實(shí)際上它只是收集快照,即對特定時刻的網(wǎng)頁樣本抓取內(nèi)容。C4數(shù)據(jù)集最初是由非營利組織CommonCrawl創(chuàng)建的,于2019年4月進(jìn)行網(wǎng)絡(luò)內(nèi)容抓取,是人工智能模型訓(xùn)練的熱門資源。CommonCrawl表示,該組織試圖優(yōu)先考慮最重要和聲譽(yù)最好的網(wǎng)站,但沒有試圖避免授權(quán)或版權(quán)保護(hù)的內(nèi)容。

《華盛頓郵報(bào)》認(rèn)為,將數(shù)據(jù)的完整內(nèi)容呈現(xiàn)在人工智能模型中至關(guān)重要,這些模型有望管理人們現(xiàn)代生活的許多方面。然而,這個數(shù)據(jù)集中的許多網(wǎng)站包含高度攻擊性語言,即使模型訓(xùn)練時盡量掩蓋這些詞語,令人反感的內(nèi)容仍然可能會存在。

專家表示,盡管C4數(shù)據(jù)集很龐大,但大型語言模型可能會使用更大的數(shù)據(jù)集。例如,OpenAI在2020年發(fā)布了GPT-3訓(xùn)練數(shù)據(jù),其數(shù)據(jù)量是C4中網(wǎng)絡(luò)抓取數(shù)據(jù)量的40倍。GPT-3的培訓(xùn)數(shù)據(jù)包括所有英文維基百科、大型科技公司經(jīng)常使用的、未出版作家的免費(fèi)小說集以及Reddit用戶高度評價(jià)的鏈接文本匯編。

專家表示,許多公司甚至沒有記錄培訓(xùn)數(shù)據(jù)的內(nèi)容(甚至是內(nèi)部數(shù)據(jù)),因?yàn)閾?dān)心發(fā)現(xiàn)有關(guān)可識別身份的個人信息、受版權(quán)保護(hù)的材料和其他未經(jīng)同意被竊取的數(shù)據(jù)。隨著公司強(qiáng)調(diào)解釋聊天機(jī)器人如何做出決策面臨的挑戰(zhàn),這是高管們需要給出透明答案的領(lǐng)域。

責(zé)任編輯:姜華 來源: 網(wǎng)易科技
相關(guān)推薦

2009-07-19 09:05:03

魔獸世界審批

2015-10-09 13:54:14

切面編程錯誤處理機(jī)制

2012-04-13 09:32:19

微軟路線圖

2025-04-25 00:20:00

大模型tokenizer

2024-01-03 18:53:13

語言模型LLM

2023-12-05 08:22:17

2023-03-10 15:23:11

2025-02-24 08:40:00

神經(jīng)網(wǎng)絡(luò)模型矩陣變換

2022-02-10 10:28:34

數(shù)據(jù)庫方案實(shí)踐

2023-07-11 15:30:08

GPT-4架構(gòu)

2023-06-09 16:51:34

Tigerbo

2020-07-13 09:40:11

PyTorch框架機(jī)器學(xué)習(xí)

2024-04-25 09:25:33

2024-02-04 09:31:44

大語言模型

2024-06-11 08:40:00

2021-02-16 23:19:05

人工智能數(shù)據(jù)美國

2023-01-05 09:33:37

視覺模型訓(xùn)練

2023-12-04 12:02:05

2010-06-29 13:35:39

HTTP協(xié)議

2021-03-22 13:00:38

人工智能AI神經(jīng)網(wǎng)絡(luò)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號