一文告訴你爬蟲技術到底違不違法,怎么用才合法?
2015年,某公司授意五名程序員,利用網(wǎng)絡爬蟲獲取一公司服務器的公交車行駛信息、到站信息等數(shù)據(jù)。這五名程序員需承擔連帶責任。
2019年,某公司主管人員張某、宋某、侯某和郭某,利用爬蟲技術,非法爬取北京字節(jié)跳動服務器存儲中的視頻數(shù)據(jù),被告人依法被判處有期徒刑9-10個月,并處罰金。
越來越多的案件,讓開發(fā)者越發(fā)不安,爬蟲也違法?公司要讓我爬取數(shù)據(jù),爬是不爬?爬吧?違法,不爬吧,也不好。
不僅僅是開發(fā)者,公司使用爬蟲技術,也存在很多風險。
2012年,360搜索爬取百度旗下等多個網(wǎng)站內(nèi)容,最終被裁定賠償百度70萬元;
2017年,秀淘非法抓取今日頭條內(nèi)容,被告被判九個月至一年不等的有期徒刑,并處罰金。
公司使用爬蟲技術,怎么規(guī)避風險?也成了一個大難題。
仔細研究爬蟲相關案例,我們不難總結出,如何合法的使用爬蟲技術,規(guī)避風險。
遵守Robots協(xié)議
Robots是網(wǎng)站和爬蟲之間的君子協(xié)議,當網(wǎng)站拒絕爬蟲訪問,爬取數(shù)據(jù)時,可以在根目錄下存放robots.txt文件,告訴爬蟲不能爬取網(wǎng)站全部或部分指定內(nèi)容。
只要Robots中的內(nèi)容,爬蟲都不允許訪問。360搜索爬取百度內(nèi)容一案中,就是因為360違反Robots協(xié)議,最終才判賠70萬元。
但是,網(wǎng)站沒有該協(xié)議,不意味著能隨意爬取數(shù)據(jù),也有可能違法。
爬蟲行為
開發(fā)者使用爬蟲技術,如果請求頻率過高,接近DDoS攻擊的頻率,一旦造成目標服務器癱瘓,這個就不是爬蟲行為,而是黑客行為,必定要承擔相應的責任。
反爬措施
如果目標網(wǎng)站已使用BotGuard爬蟲管理等云產(chǎn)品,來控制和管理爬蟲,或者使用了一些措施反爬,或者正常用戶不能到達的頁面。如果開發(fā)者強行突破以上這些措施,同樣會被界定為黑客行為。
爬取內(nèi)容
爬取的內(nèi)容是一條高壓線,絕對不能觸碰。包括但不限于:
1.爬取用戶信息謀利
2018年,新三板掛牌公司北京瑞智華勝科技股份有限公司,使用爬蟲非法竊取用戶個人信息30億條,該公司及其關聯(lián)公司6名犯罪嫌疑人被控制。
用戶個人信息屬于敏感信息,近幾年打擊力度越來越大,嚴禁使用爬蟲爬取這些信息。
2.爬取商業(yè)數(shù)據(jù)
2018年,武漢元光科技有限公司法定代表人授意四名員工,非法爬取競爭對手數(shù)據(jù),被判賠50萬元。
很多公司為了獲得競爭優(yōu)勢,會使用爬蟲技術,爬取競爭對手的內(nèi)容,但這一手段會構成不正當競爭。
3.爬取知識產(chǎn)權數(shù)據(jù)
爬取大量帶有知識產(chǎn)權的數(shù)據(jù),并且用于商業(yè)目的,屬于違法行為。
不難看出,爬蟲技術本身并不違法,關鍵在于使用的方式和目的。最后總結一下,爬蟲爬數(shù)據(jù)有幾個雷區(qū),一是只能爬取公開數(shù)據(jù),二是不能對目標業(yè)務和網(wǎng)站造成影響,三是目標網(wǎng)站的全部或部分內(nèi)容沒有使用反爬措施。