自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

OpenAI公布「官方爬蟲」：GPT-5靠它訓練，有需要可以屏蔽

作者：機器之心 2023-08-08 12:51:55

人工智能新聞

GPTBot 引發(fā)了關于所有權、合理使用和網(wǎng)絡內容創(chuàng)建者激勵機制的復雜爭論。雖然遵循 robots.txt 是一個很好的步驟，但仍然缺乏透明度。

眾所周知，OpenAI 從 GPT-4 開始就已經(jīng)對技術細節(jié)完全保密了，最初只用一份 Tech Report 來展示基準測試結果，而閉口不談訓練數(shù)據(jù)和模型參數(shù)。盡管后來有網(wǎng)友各種爆料，OpenAI 也從未回應。

不難想象，訓練 GPT-4 需要海量的數(shù)據(jù)，這可不是付費購買能解決的問題。大概率，OpenAI 用了網(wǎng)絡爬蟲。很多用戶指控 OpenAI，理由就是這種手段會侵犯用戶的版權和隱私權。

剛剛，OpenAI 攤牌了：直接公布從整個互聯(lián)網(wǎng)爬取數(shù)據(jù)的網(wǎng)絡爬蟲 ——GPTBot。

這些數(shù)據(jù)將被用來訓練 GPT-4、GPT-5 等 AI 模型。不過 GPTBot 保證了，爬取內容絕對不包括違反隱私來源和需要付費的內容。

OpenAI 表示：「使用 GPTBot 爬取網(wǎng)絡數(shù)據(jù)是為了改進 AI 模型的準確性、功能性和安全性。」

網(wǎng)站所有者可以根據(jù)需要允許和限制 GPTBot 爬取網(wǎng)站數(shù)據(jù)。接下來，我們來看下 GPTBot 究竟是如何工作的，順便了解一下屏蔽方法。

首先，GPTBot 的用戶代理字符串（User-Agent String）如下：

User agent token: GPTBot

Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

使用如下方法可以將 GPTBot 添加到網(wǎng)站的 robots.txt，禁止 GPTBot 訪問網(wǎng)站：

User-agent: GPTBot

Disallow: /

還可以允許 GPTBot 訪問網(wǎng)站特定部分的內容：

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

近期，OpenAI 因為未經(jīng)明確批準而在網(wǎng)站數(shù)據(jù)上訓練 GPT-4 等大型語言模型而遭到強烈反對。批評者們表示，即使內容可以公開訪問，像 OpenAI 這樣的公司也應該遵循訓練協(xié)議。人們還擔心，內容在輸入 AI 系統(tǒng)時會被斷章取義。

但即使遵循了 robots 協(xié)議，鑒于其并不是規(guī)范，而只是約定俗成的，所以并不能保證網(wǎng)站的隱私。

GPTBot 發(fā)布之后，這條動態(tài)已經(jīng)在 Hacker News 上引發(fā)了一場爭論，焦點是使用抓取的網(wǎng)絡數(shù)據(jù)來訓練人工智能系統(tǒng)的道德和合法性。

一部分人認為，GPTBot 的推出展示了使用公開數(shù)據(jù)研發(fā) AI 模型的「灰色地帶」：

「在訓練完模型后還爬取數(shù)據(jù)，這真是太好了。根據(jù)推測，這些 header 不會影響他們已經(jīng)抓取來訓練 GPT 的任何頁面?！?/span>

「現(xiàn)在，他們可以游說反抓取的監(jiān)管并阻礙其他任何的追趕了。」

鑒于 GPTBot 會識別自己的身份，因此網(wǎng)站管理員可以通過 robots.txt 阻止它，但有些人認為允許它這樣做沒有任何好處，不像搜索引擎爬蟲會帶來流量。

一個值得關注的問題是，受版權保護的內容會在未注明出處的情況下被使用。ChatGPT 目前沒有注明出處。

還有人質疑 GPTBot 如何處理網(wǎng)站上的授權圖片、視頻、音樂和其他媒體。如果這些媒體在模型訓練中用到，則可能構成版權侵權。

另外一些專家認為，如果 AI 編寫的內容被反饋到訓練中，爬蟲生成的數(shù)據(jù)可能會降低模型的性能。

相反，一些人認為 OpenAI 有權自由使用公共網(wǎng)絡數(shù)據(jù)，并將其比作一個人從在線內容中學習。但也有人認為，如果 OpenAI 將網(wǎng)絡數(shù)據(jù)貨幣化以獲取商業(yè)利益，那么就應該分享利潤。

總之，GPTBot 引發(fā)了關于所有權、合理使用和網(wǎng)絡內容創(chuàng)建者激勵機制的復雜爭論。雖然遵循 robots.txt 是一個很好的步驟，但仍然缺乏透明度。

這或許是科技界下一個輿論焦點：隨著 AI 產品的快速發(fā)展，「數(shù)據(jù)」到底該怎么用？

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營