OpenAI:ChatGPT將遵守爬蟲協(xié)議,網(wǎng)站可拒絕白嫖
不希望網(wǎng)站數(shù)據(jù)被ChatGPT白嫖?現(xiàn)在終于有辦法了!
兩行代碼就能搞定,而且是OpenAI官方公布的那種。
剛剛,OpenAI在用戶文檔中更新了GPTBot的說明。
根據(jù)這一說明,內(nèi)容擁有者將可以拒絕網(wǎng)站數(shù)據(jù)被ChatGPT的爬蟲抓取。
這是繼暫停網(wǎng)頁訪問功能之后,OpenAI在版權(quán)和隱私保護方面的又一重大舉措。
圖片
不過,OpenAI還是希望能內(nèi)容擁有者將訪問權(quán)限開放給GPTBot。
在這份關(guān)于GPTBot的說明中,OpenAI表示:
允許我們的爬蟲訪問你的數(shù)據(jù)有利于使AI模型更精確、更安全。
但至少,站主們擁有了選擇的權(quán)利。
不過,也有網(wǎng)友指出了問題:
模型早就已經(jīng)訓(xùn)練好了,現(xiàn)在提這個還有什么用?
圖片
對此OpenAI尚未作出解釋,我們還是先來看看這次的措施。
三種方式阻止GPT爬蟲
那么,OpenAI都公布了哪些內(nèi)容呢?
首先是GPTBot的U(ser)A(gent)信息。
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
UA是瀏覽器的身份標識,包含了訪問者的系統(tǒng)環(huán)境、瀏覽器內(nèi)核版本、語言等諸多信息。
通過HTML的標簽,可以阻止特定的瀏覽器對網(wǎng)頁內(nèi)容進行訪問。
在這份說明文檔中,OpenAI還提供了更簡單的爬蟲阻止方式,即修改robots.txt。
只要在網(wǎng)站的robots.txt中加入如下內(nèi)容:
User-agent: GPTBot
Disallow: /
這樣,GPTBot將不會訪問你的網(wǎng)站進行內(nèi)容抓取。
如果只想禁止GPT抓取部分內(nèi)容,也可以利用robots.txt進行設(shè)置。
和上面的內(nèi)容相似,分別寫明允許和不允許訪問的目錄即可。
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
其中Allow的優(yōu)先級更高,也就是說當Allow的目錄是Disallow目錄的子目錄時,會被允許訪問。
此外,OpenAI還公布了爬蟲機器人的ip地址。
如果實在是對爬蟲不放心,可以設(shè)置禁止有關(guān)ip對網(wǎng)站的訪問。
圖片
什么是robots.txt
上面提到的robots.txt是什么,為什么它能阻止GPT的爬蟲?
這其實是一種用戶協(xié)議,站主可以在其中設(shè)置禁止訪問網(wǎng)站的爬蟲或禁止爬蟲抓取的內(nèi)容。
根據(jù)這一協(xié)議,即使在有能力訪問的情況下,爬蟲遇到相關(guān)內(nèi)容都會主動選擇避開。
ChatGPT自身也在使用robots.txt,阻止爬蟲抓取除了用戶分享之外的其他內(nèi)容。
圖片
其實,在AI盛行之前,這項協(xié)議就已經(jīng)存在,當時主要是用于限制搜索引擎。
這也正是我們無法在搜索引擎中搜到微信公眾號文章的原因。
圖片
這是一項君子協(xié)定,不過大多數(shù)廠商都會選擇遵守,因為這體現(xiàn)了對行業(yè)規(guī)則和用戶隱私的尊重。
如今,OpenAI也加入了這一行列。
One More Thing
與此同時,Google的爬蟲正在全網(wǎng)抓取內(nèi)容。
不過,網(wǎng)友對此似乎有更高的容忍度:
至少Google是鏈接到你的網(wǎng)站,但ChatGPT用了你的內(nèi)容之后根本不會進行說明。
圖片
你認為在提高模型質(zhì)量和保護創(chuàng)作者之間該如何找到平衡點呢?
參考鏈接:
[1]https://platform.openai.com/docs/gptbot
[2]https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3]https://news.ycombinator.com/item?id=37030568