惡意爬蟲這樣窺探、爬取、威脅你的網站
整個互聯網的流量中,真人占比有多少?
80% ? 60% ? 50% ?
根據 Aberdeen Group 在近期發(fā)布的以北美幾百家公司數據為樣本的爬蟲調查報告顯示,2015 年網站流量中的真人訪問僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲和 18.6% 的惡意爬蟲構成。
爬與反爬的斗爭從未間斷
惡意爬蟲占比數據與 2013 年和 2014 年相比有所下降,同時真人訪問的占比也有所提升,但這并不意味著惡意爬蟲日漸式微。一個原因是印度、印度尼西亞等高人口總數國家的互聯網新增人口有大幅提升,另一方面,惡意爬蟲制造者更專注于爬蟲的質量而不是數量,如今的惡意爬蟲具有高持續(xù)性和可變性。
爬與反爬的斗爭從未間斷。過去的初級爬蟲能很明顯從異常的 Headers 信息甄別,但爬蟲制造者從一次次爬與反爬中總結出可能被封的原因,通過不斷的測試和改善爬蟲程序,更新換代后的高持續(xù)性惡意爬蟲通常具有以下特點中的某幾個:
- 模仿真人行為
- 加載 Javascript 和外部資源
- 模擬 cookie 和 useragent
- 瀏覽器自動化操作
- 變化的 IP 地址池
可能很多人認為,惡意爬蟲只會威脅到少數以文本為核心價值的網站,其實這些能改變自己請求路徑和請求方式的偽裝者可能潛伏在任何一個網站的每一個角落,文本、圖片、價格、評論、接口、架構等方方面面均有可能成為爬蟲的囊中物。
縱容爬蟲的危害你必須知道
從網站業(yè)務安全的角度,縱容這些偽裝者的危害有以下幾點:
1. 核心文本被爬
網站的核心文本可能在幾小時甚至幾分鐘內就被惡意爬蟲抓取并悄無聲息的復制到別的網站。核心內容被復制會極大影響網站和網頁本身在搜索引擎上的排名,低排名會導致訪問量降低和銷量、廣告收益降低的惡性循環(huán)。
在內容為王、用戶粘性不高的今天,核心內容很大程度上會影響網站在用戶心目中的價值。若網站以文本為商品作為盈利點,那惡意爬蟲更是影響 KPI 的罪魁禍首。
2. 商品價格被爬
價格爬蟲的成因有兩種,一是網站競爭對手刻意爬取商品詳情和價格后進行同類產品線和價格的研究。
比如某 APP 上線新的租車服務前,會爬取所有競品 APP 中的車型詳情及定價策略,為新服務上線打下價格優(yōu)勢。
另一個案例來自某酒店網站,我們在數據分析平臺 Warden 實踐中發(fā)現,網站的客房詳情被爬蟲攻擊,機器訪問的特點非常明顯:
- 頁面被某幾個 IP 超高頻訪問,單個 IP每小時訪問量達 5000 以上
- 部分 IP 的訪問路徑極為單一,僅請求房價詳情頁面,無真人訪問的“首頁→搜索→詳情頁→搜索”軌跡
- 訪問間隔極短,且每次均請求不同時間段不同地域不同編號的酒店客房信息
以上特點能完全排除真人訪問的可能,在 數據分析平臺中也觸發(fā)多個實時策略,讓我們可以協(xié)助用戶及時處理。
* IP 點擊詳情
**某一條點擊詳情的 request 和 response 信息
**點擊數及報警數統(tǒng)計,紅點部分為觸發(fā)報警
這類爬蟲就是典型的價格爬蟲,如不進行實時判斷和攔截,網站的定價信息可能在幾小時內就被競爭對手完全掌握。
第二個成因是羊毛黨們試圖搜尋低價商品信息或在營銷大促前提前獲取情報尋找套利的可能。
比如某 P2P 行業(yè)客戶發(fā)現近幾個月理財轉讓專區(qū)的產品幾乎在放出 2 秒內就被轉讓成功,而網站的活躍用戶并沒有大幅的增長,轉讓專區(qū)疑似被爬。
通過數據分析平臺能在流量中能看到該轉讓頁面正在遭受爬蟲的攻擊,攻擊者能在極短時間內獲取轉讓產品的收益率并自動篩選高收益率的產品,甚至能實現腳本自動下單購買。
另一個案例來自某電商平臺,某次聲勢浩大的營銷活動規(guī)定新注冊用戶綁卡后能獲得一次抽獎機會,由于抽獎接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎的可趁之機,造成活動幾乎全部的獎品被羊毛黨薅去。
**網站營銷頁面點擊量突增
**風險情報系統(tǒng)提示該 IP 具有高風險分值
在事后復盤時,我們在數據分析平臺中發(fā)現羊毛黨活動前疑似派出爬蟲探路,活動匯總頁面被超高頻訪問,雖然訪問量并不集中于某幾個 IP ,但有訪問地域集中于某兩個城市、訪問路徑單一且訪問間隔有規(guī)律等特點。另外,通過風險情報系統(tǒng) Red.Q 的數據,同樣提示這些訪問 IP 的高風險分值,活動開始后羊毛黨的訪問也有類似的訪問規(guī)律。
羊毛黨的活動特性是個大話題,在此先不展開,但從案例中能看到,價格爬蟲是羊毛黨們的先鋒探路工具,攻擊者們可以通過爬蟲獲得營銷活動的具體信息,同時能測試網站對高頻訪問或最大訪問量的限制,為之后的薅羊毛做鋪墊。
3. 注冊用戶被掃描
如果在網站的注冊頁面輸入一個已注冊過的號碼,通常會看到“該用戶已注冊”的提示,這一信息也會在請求的 response 中顯示,一些網站的短信接口也有類似邏輯,注冊用戶和非注冊用戶返回的字段和枚舉值會有不同。利用這一業(yè)務邏輯,惡意爬蟲通過各類社工庫拿到一批手機號后可以在短時內驗證這批號碼是否為某一網站的注冊用戶。
這個數據有什么利用價值?除了很明顯的違法欺詐外,攻擊者可以將數據打包出售給競爭對手或感興趣的數據營銷公司,完善他們的精準營銷數據。
4. 其他危害
- 點擊欺詐:點擊欺詐會給網站造成實實在在的利益損失。投放廣告通常是為了觸達符合網站定位的潛在消費者,爬蟲造成的點擊欺詐使得廣告的點擊率虛高,使得網站承擔了本不應承擔的點擊費用。從運營角度出發(fā),訪問量無原因的忽高忽高也不利于分析廣告投放效果。
- 網站帶寬負擔:對于帶寬有限的中小型網站,爬蟲可能會降低網頁加載速度,影響真實用戶的訪問體驗。
事前的甄別預防才是關鍵
惡意爬蟲在給網站帶來可觀訪問量的同時,也帶來了難以估量的威脅和損失。
從實際案例中我們可以看到,惡意爬蟲已經承擔了整個攻擊環(huán)節(jié)先鋒者的重任,所以在分析網站的業(yè)務安全風險時,我們可以更多的關注流量和用戶行為的異常點,盡可能的在惡意行為剛發(fā)生時就及時甄別并做出合理的判斷和攔截,必要時,宜采用專業(yè)的風險情報系統(tǒng)和數據分析平臺進行系統(tǒng)的部署。對于企業(yè)來說,事前預防遠比事后補救重要。
【本文是51CTO專欄機構“豈安科技”的原創(chuàng)文章,轉載請通過微信公眾號(bigsec)聯系原作者】