自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究:近一半熱門新聞網(wǎng)站屏蔽了 OpenAI 爬蟲

人工智能
一項(xiàng)由路透社研究所進(jìn)行的研究表明,截至 2023 年底,全球 10 個(gè)國家的熱門新聞網(wǎng)站中,近一半 (48%) 屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一 (24%) 屏蔽了谷歌的 AI 爬蟲。

2 月 27 日消息,一項(xiàng)由路透社研究所進(jìn)行的研究表明,截至 2023 年底,全球 10 個(gè)國家的熱門新聞網(wǎng)站中,近一半 (48%) 屏蔽了 OpenAI 的爬蟲(Crawler),而近四分之一 (24%) 屏蔽了谷歌的 AI 爬蟲。

據(jù)IT之家了解,該研究所分析了包括紐約時(shí)報(bào)、BuzzFeed 新聞、華爾街日?qǐng)?bào)、華盛頓郵報(bào)、CNN 和 NPR 在內(nèi)的 15 家覆蓋面最廣的網(wǎng)絡(luò)新聞來源的 robots.txt 文件。這些新聞機(jī)構(gòu)來自德國、印度、西班牙、英國和美國等國家,涵蓋傳統(tǒng)印刷媒體、電視廣播公司和數(shù)字原生媒體等三種類型。

研究發(fā)現(xiàn),截至 2023 年底,超過一半 (57%) 的傳統(tǒng)印刷媒體網(wǎng)站,例如《紐約時(shí)報(bào)》,屏蔽了 OpenAI 的爬蟲,相比之下,電視和廣播公司為 48%,數(shù)字原生媒體為 31%。同樣,32% 的印刷媒體網(wǎng)站屏蔽了谷歌的爬蟲,而廣播公司和數(shù)字原生媒體的比例分別為 19% 和 17%。

與此同時(shí),康奈爾大學(xué)最近的一項(xiàng)研究發(fā)現(xiàn),當(dāng)新型人工智能模型僅使用先前模型而非人類輸入的數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),它們往往會(huì)陷入“模型崩潰”或退化,導(dǎo)致生成內(nèi)容出現(xiàn)更多錯(cuò)誤和誤導(dǎo)信息。

網(wǎng)站爬蟲被用于多種目的。例如,谷歌的 Googlebot 會(huì)抓取發(fā)布商網(wǎng)站,將其收錄到搜索結(jié)果中。而 OpenAI 的爬蟲 GPTBot 則會(huì)在互聯(lián)網(wǎng)上收集數(shù)據(jù),用于訓(xùn)練其大型語言模型,例如 ChatGPT。這使人工智能工具能夠生成準(zhǔn)確、實(shí)時(shí)的內(nèi)容,而新聞發(fā)布商尤其擅長提供此類內(nèi)容:大型語言模型對(duì)優(yōu)質(zhì)出版商內(nèi)容的重視程度是其他來源內(nèi)容的 5 到 100 倍。

該研究還指出,全球北方(Global North,指大多位于北美、歐洲和其他地區(qū)的更富裕國家)國家的新聞機(jī)構(gòu)比全球南方(Global South,一般是指包括非洲、拉丁美洲和加勒比地區(qū)、太平洋島嶼以及亞洲的發(fā)展中國家)國家更傾向于屏蔽人工智能爬蟲。例如,在美國,79% 的熱門在線新聞網(wǎng)站屏蔽了 OpenAI,而在墨西哥和波蘭,這一比例僅為 20%。與此同時(shí),德國 60% 的新聞網(wǎng)站屏蔽了谷歌的爬蟲,而在波蘭和西班牙,這一比例僅為 7%。

研究發(fā)現(xiàn),幾乎所有屏蔽谷歌爬蟲的網(wǎng)站也屏蔽了 OpenAI (97%)。雖然該研究沒有提供確切解釋,但這可能表明 OpenAI 比谷歌更早發(fā)布爬蟲有關(guān)。

值得注意的是,在大多數(shù)國家,一些發(fā)布商在爬蟲剛發(fā)布時(shí)就立即屏蔽了它們。OpenAI 于去年 8 月初啟動(dòng)了其人工智能爬蟲,谷歌隨后于 9 月份效仿。研究還表明,一旦做出屏蔽決定后,沒有一家網(wǎng)站撤銷對(duì) OpenAI 或谷歌人工智能爬蟲的屏蔽。

責(zé)任編輯:龐桂玉 來源: IT之家
相關(guān)推薦

2024-02-28 17:54:00

OpenAI爬蟲

2012-11-19 10:44:02

移動(dòng)設(shè)備社交網(wǎng)絡(luò)網(wǎng)絡(luò)接入

2023-07-20 12:32:42

Linux桌面

2014-11-18 10:02:28

2010-07-12 09:28:59

Windows 764位

2012-04-09 10:06:05

英國密碼工作密碼

2020-08-07 06:54:50

網(wǎng)絡(luò)安全黑客技術(shù)

2024-04-17 15:58:02

2018-03-23 10:28:27

京東圖片技術(shù)

2023-10-21 12:42:19

模型訓(xùn)練

2011-10-31 10:31:06

2015-07-27 10:24:01

蘋果中國

2013-02-25 10:11:35

4GLTE商用網(wǎng)絡(luò)

2020-12-04 10:11:26

Unsafejava并發(fā)包

2017-02-07 16:18:58

2023-04-10 09:22:51

2021-11-17 22:48:33

黑客網(wǎng)絡(luò)安全網(wǎng)絡(luò)攻擊

2015-05-19 14:03:07

Hadoop大事件盤點(diǎn)

2013-11-27 15:48:56

移動(dòng)中間件廠商

2018-06-03 08:49:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)