自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="1rvjg"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-5不遠(yuǎn)了！OpenAI推出網(wǎng)絡(luò)爬蟲GPTBot，自動抓取數(shù)據(jù)，可選擇性關(guān)閉

作者：新智元 2023-08-08 14:17:58

人工智能新聞

就在剛剛，OpenAI推出了GPTBot——一個可以自動從整個互聯(lián)網(wǎng)抓取數(shù)據(jù)的網(wǎng)絡(luò)爬蟲。得到的這些數(shù)據(jù)則會被用來訓(xùn)練像GPT-4和GPT-5這樣的AI模型！

前段時間，抓取平臺用戶數(shù)據(jù)風(fēng)波，Reddit網(wǎng)友吵翻了天。

今天，OpenAI推出了一個網(wǎng)絡(luò)爬蟲工具GPTBot，能夠自動抓取網(wǎng)站的數(shù)據(jù)。

如何使用？

OpenAI在發(fā)布的文檔中表示，網(wǎng)絡(luò)爬蟲將過濾刪除需要付費強訪問的來源，同時也會刪除個人身份信息（PII）或違反其政策的文本。

GPTBot抓取的數(shù)據(jù)，被用來訓(xùn)練GPT-4或GPT-5，能夠提升未來人工智能系統(tǒng)的準(zhǔn)確性和能力。

可通過以下代碼識別該工具：

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止GPTBot訪問

另一方面，你也可以通過將GPTBot添加到站點robots. txt，來禁止其訪問網(wǎng)站。

這意味著，網(wǎng)站所有者必須自愿采取措施，禁止OpenAI對自己的網(wǎng)站訪問，不將自己的數(shù)據(jù)用來訓(xùn)練。

User-agent: GPTBot
Disallow: /

自定義GPTBot訪問

你還可以通過以下代碼，來控制GPTBot對網(wǎng)站部分內(nèi)容的訪問。

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP出口

對于OpenAI的爬蟲，將從OpenAI網(wǎng)站上記錄的IP地址塊調(diào)用網(wǎng)站。

網(wǎng)友熱議

OpenAI此舉引發(fā)了網(wǎng)友對用于訓(xùn)練AI模型的網(wǎng)絡(luò)爬蟲的道德問題的討論。

「OpenAI甚至沒有適度引用。它是在制作衍生作品，卻沒有引用，從而掩蓋了它的事實?！?/span>

網(wǎng)友表示，終于有機會阻止OpenAI抓取你的網(wǎng)絡(luò)數(shù)據(jù)，來訓(xùn)練模型。

還有人表示，ChatGPT瀏覽器插件已被移除一段時間，部分原因是它可以訪問付費墻后面的內(nèi)容。

前段時間，OpenAI于7月18日向美國專利局提交了GPT-5的商標(biāo)申請，暗示著公司正在訓(xùn)練更高級的AI系統(tǒng)。

GPTBot顯然將幫助該OpenAI從互聯(lián)網(wǎng)上收集更多數(shù)據(jù)來訓(xùn)練這個模型。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營