專治AI爬蟲,Cloudflare推出“下一代蜜罐”
網(wǎng)絡(luò)基礎(chǔ)設(shè)施服務(wù)商Cloudflare近日推出一項全新功能“AI Labyrinth”(AI迷宮),專門針對那些未經(jīng)授權(quán)、肆意抓取網(wǎng)站數(shù)據(jù)的AI爬蟲。這項工具不走尋常路,不直接攔截,而是用AI生成的“假內(nèi)容”迷惑爬蟲,讓試圖為ChatGPT這類大語言模型收集訓(xùn)練數(shù)據(jù)的AI公司空忙一場。
“下一代蜜罐”登場
成立于2009年的Cloudflare提供網(wǎng)站基礎(chǔ)設(shè)施和安全服務(wù),尤其擅長抵御分布式拒絕服務(wù)(DDoS)攻擊和惡意流量。這次推出的“AI迷宮”一改傳統(tǒng)“攔截為主”的防御策略,轉(zhuǎn)而將爬蟲引入一個由逼真但無用頁面組成的“迷宮”,消耗其計算資源。Cloudflare坦言,直接屏蔽爬蟲有時會適得其反,反而提醒爬蟲操控者自己已被發(fā)現(xiàn)。
“一旦檢測到未經(jīng)許可的爬取行為,我們不會直接拒絕,而是引導(dǎo)爬蟲進入一系列AI生成的頁面。這些頁面看似真實,足以吸引爬蟲深入探索,”Cloudflare在官方博客中寫道,“但實際上,這些內(nèi)容與我們保護的網(wǎng)站毫無關(guān)聯(lián),爬蟲只能白費力氣?!?/p>
為避免制造謠言,這些喂給爬蟲的內(nèi)容并非隨意捏造,而是基于生物學(xué)、物理學(xué)或數(shù)學(xué)等領(lǐng)域的真實科學(xué)事實,由Cloudflare自家的Workers AI服務(wù)平臺生成。普通用戶無需擔(dān)心誤入歧途,這些陷阱頁面對人類訪客完全不可見。
Cloudflare將“AI迷宮”稱為“下一代蜜罐”。傳統(tǒng)蜜罐通常是隱藏鏈接,人類看不到,但爬蟲會循跡而去。然而,現(xiàn)代爬蟲已變得更加狡猾,能輕松識破簡單陷阱。為此,Cloudflare設(shè)計了更復(fù)雜的假鏈接,加入元指令避免被搜索引擎收錄,同時保持對數(shù)據(jù)抓取爬蟲的吸引力。
“正常人不會連點四層鏈接,鉆進AI生成的無意義內(nèi)容里,”Cloudflare解釋,“能這么做的,多半是爬蟲。這為我們提供了一個全新手段,識別并標(biāo)記惡意爬蟲?!?/p>
通過這一過程收集的數(shù)據(jù)將進入機器學(xué)習(xí)系統(tǒng),形成反饋循環(huán),不斷提升Cloudflare網(wǎng)絡(luò)的爬蟲檢測能力,增強客戶保護。值得一提的是,無論用戶使用免費版還是付費版,只需在控制面板輕點開關(guān),即可啟用這一功能。
AI爬蟲泛濫,網(wǎng)站主頭痛
近年來,AI爬蟲的激增已成為網(wǎng)絡(luò)世界的一大難題。Cloudflare數(shù)據(jù)顯示,其網(wǎng)絡(luò)每天處理超500億次AI爬蟲請求,占總流量的近1%,這與業(yè)內(nèi)傳聞相符。許多爬蟲未經(jīng)網(wǎng)站主同意就抓取數(shù)據(jù),用于訓(xùn)練大語言模型,引發(fā)了內(nèi)容創(chuàng)作者和出版商的廣泛不滿,甚至訴諸法律。
今年1月,類似工具“Nepenthes”曾亮相,同樣通過假內(nèi)容迷惑爬蟲,但其匿名開發(fā)者將其定位為“攻擊性惡意軟件”,意在困住爬蟲數(shù)月。而Cloudflare則強調(diào)“AI迷宮”是合法安全功能,旨在為商用客戶提供便捷保護。
這種AI防御性應(yīng)用頗具創(chuàng)意,旨在保護網(wǎng)站主和創(chuàng)作者的權(quán)益,而非威脅其知識產(chǎn)權(quán)。然而,AI爬蟲是否會迅速適應(yīng)、繞過這些陷阱,仍是未知數(shù),Cloudflare或需持續(xù)升級策略。此外,消耗AI公司資源可能引發(fā)爭議,尤其在AI模型能耗與環(huán)境成本備受關(guān)注之際。
Cloudflare表示,目前發(fā)布的只是AI防御爬蟲的“初代版本”。未來,他們計劃讓假內(nèi)容更難識別,并與網(wǎng)站結(jié)構(gòu)更緊密融合。