爬蟲玩得好,牢飯吃到飽?這3條底線千萬不能碰!
?數(shù)據(jù)爬取技術(shù)一向是數(shù)據(jù)公司獲取數(shù)據(jù)的高效途徑之一,但嚴(yán)格意義上爬取行為本身并不是完全合法合規(guī)的,按我國目前的法律法規(guī)及司法判例,爬蟲技術(shù)可能會觸犯以下幾個維度的法律要求(僅列出相對重點的法律維度)。
1.反不正當(dāng)競爭法維度
在未征得被爬取方授權(quán)的情況下,爬取數(shù)據(jù)的行為可能會違反Robots協(xié)議。Robots協(xié)議是技術(shù)界為了解決爬取方和被爬取方之間通過計算機程序完成關(guān)于爬取的意愿溝通而產(chǎn)生的一種機制。2012年11月1日,十二家企業(yè)共同發(fā)起了《互聯(lián)網(wǎng)搜索引擎服務(wù)自律公約》,公約要求各簽約方遵守Robots協(xié)議。
在司法實踐中,即使爬取方不屬于上述12家公司的范圍內(nèi),Robots協(xié)議也已經(jīng)被認(rèn)定為互聯(lián)網(wǎng)行業(yè)搜索領(lǐng)域內(nèi)公認(rèn)的商業(yè)道德:北京市第一中級人民法院在某互聯(lián)網(wǎng)安全公司不正當(dāng)競爭案件中,將行業(yè)內(nèi)公認(rèn)的Robots協(xié)議認(rèn)定為互聯(lián)網(wǎng)行業(yè)搜索領(lǐng)域公認(rèn)的商業(yè)道德。
法院在判決中指出:
在被告推出搜索引擎伊始,其網(wǎng)站亦刊載了Robots協(xié)議的內(nèi)容和設(shè)置方法,說明包括被告在內(nèi)的整個互聯(lián)網(wǎng)行業(yè)對于Robots協(xié)議都是認(rèn)可和遵守的。其應(yīng)當(dāng)被認(rèn)定為行業(yè)內(nèi)的通行規(guī)則,應(yīng)當(dāng)被認(rèn)定為搜索引擎行業(yè)內(nèi)公認(rèn)的、應(yīng)當(dāng)被遵守的商業(yè)道德。
因此,爬取方違反Robots協(xié)議的行為可能會被認(rèn)定為違反《反不正當(dāng)競爭法》第2條,即違反誠實信用原則以及商業(yè)道德。
雖然網(wǎng)絡(luò)上公開的信息較難構(gòu)成商業(yè)秘密,但由于網(wǎng)絡(luò)上的某些信息可以通過采取技術(shù)措施使得僅有特定的用戶可以接觸,因此網(wǎng)絡(luò)上的信息仍有可能具備商業(yè)秘密要求的秘密性和保密性,構(gòu)成商業(yè)秘密的可能。
如果爬蟲控制者在抓取信息的過程中有意地規(guī)避了網(wǎng)站經(jīng)營者設(shè)置的保護(hù)措施,接觸、保存甚至披露了一般用戶原本無法訪問的信息,而該等信息又構(gòu)成商業(yè)秘密,則爬蟲控制者的該等行為存在侵犯他人商業(yè)秘密的可能,進(jìn)而可能會違反《反不正當(dāng)競爭法》第9條。
同時,因為爬蟲會對被爬取方的網(wǎng)絡(luò)系統(tǒng)等造成妨礙,所以此類行為可能會違反《反不正當(dāng)競爭法》第12條。
2.著作權(quán)維度
無論是網(wǎng)絡(luò)上的文章、圖片、用戶評論,還是網(wǎng)站自身的數(shù)據(jù)庫,都有可能在具備獨創(chuàng)性的情況下構(gòu)成著作權(quán)法保護(hù)的作品。對于該等信息的抓取和使用有可能會構(gòu)成對著作權(quán)的侵犯,特別是復(fù)制權(quán)和網(wǎng)絡(luò)信息傳播權(quán)。因為抓取數(shù)據(jù)的行為本質(zhì)上是對數(shù)據(jù)的復(fù)制,因此該等行為有可能侵犯著作權(quán)人的復(fù)制權(quán)。
同時就數(shù)據(jù)提取和使用行為而言,如果爬蟲控制者抓取信息后,在自己的網(wǎng)站上公開傳播抓取到的信息,則還有可能進(jìn)一步侵犯信息網(wǎng)絡(luò)傳播權(quán)。
例如,馬某某等訴某網(wǎng)絡(luò)科技公司著作權(quán)侵權(quán)糾紛案。
案情事實
被告某網(wǎng)絡(luò)科技公司利用類似搜索引擎的計算機爬蟲技術(shù)進(jìn)行法語詞條的收集與翻譯釋文的搜索,未支付相應(yīng)報酬而大量使用原告享有著作權(quán)的《當(dāng)代法漢科技詞典》中的內(nèi)容,馬某某將該網(wǎng)絡(luò)科技公司以侵犯著作權(quán)為由訴至法院。
判決結(jié)果
根據(jù)法律規(guī)定,除合理使用外,使用他人作品應(yīng)當(dāng)經(jīng)著作權(quán)人同意,并支付相應(yīng)報酬。被告稱其通過爬蟲技術(shù)收集了詞匯詞條及中文釋義,該技術(shù)是被告收集并形成其網(wǎng)絡(luò)詞典詞庫的一種手段,而非在使用《法語助手》時,通過搜索鏈接直接指向其他目標(biāo)網(wǎng)站,被告應(yīng)該對其收集并使用的詞匯及中文釋義合法性負(fù)有較高的審核注意義務(wù)。
因此,被告制作的法語翻譯軟件內(nèi)容,部分抄襲原告《當(dāng)代法漢科技詞典》的釋義內(nèi)容,侵犯了原告等人的著作權(quán),應(yīng)依法承擔(dān)停止侵害、賠禮道歉、賠償損失的民事責(zé)任。
3.《刑法》及《網(wǎng)絡(luò)安全法》維度
從技術(shù)角度分析,爬蟲可能會導(dǎo)致目標(biāo)網(wǎng)站負(fù)荷過大,進(jìn)而引起網(wǎng)站無法訪問甚至癱瘓等不良后果,爬取方可能會違反《網(wǎng)絡(luò)安全法》中關(guān)于網(wǎng)絡(luò)運行安全方面的規(guī)定。但如果你還涉及侵入的情況,就可能會觸犯《刑法》第285、286條的規(guī)定。
例如在某案例中,王某利用遠(yuǎn)程登錄的方法,通過一個攻擊指令侵入目標(biāo)公司的計算機信息系統(tǒng),將系統(tǒng)中公司員工的郵箱、通訊錄導(dǎo)出來,再修改相應(yīng)的密碼,從而可以隨意進(jìn)入員工的郵箱,最后被判處非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪。
從爬取的內(nèi)容角度分析,如果爬取的內(nèi)容是個人信息,那么可能違反《網(wǎng)絡(luò)安全法》關(guān)于收集個人信息合規(guī)性的要求,甚至可能觸犯《刑法》中的侵犯公民個人信息罪。
小結(jié)
綜上,數(shù)據(jù)爬取行為不但容易引起監(jiān)管部門的重點關(guān)注,也易受到來自競爭對手的訴訟,建議企業(yè)在進(jìn)行數(shù)據(jù)爬取行為時注意以下要點內(nèi)容。
- 盡量避免爬取構(gòu)成直接競爭關(guān)系的企業(yè)的平臺數(shù)據(jù),避免競爭對手依據(jù)《反不正當(dāng)競爭法》提起訴訟的風(fēng)險。
- 盡量爬取明確公開的數(shù)據(jù),遵守Robots協(xié)議等網(wǎng)站明確公開的協(xié)議,避免爬取平臺禁止爬取的數(shù)據(jù)。
- 根據(jù)《數(shù)據(jù)安全管理辦法(征求意見稿)》第16條的要求,數(shù)據(jù)爬取收集流量不得超過網(wǎng)站日均流量的三分之一,避免造成目標(biāo)網(wǎng)站崩潰、無法正常運營等情況。
- 對于目標(biāo)網(wǎng)站已經(jīng)明確采取技術(shù)手段阻止爬蟲訪問的,公司不應(yīng)侵入、破壞其防護(hù)措施。
- 如目標(biāo)網(wǎng)站明確發(fā)出停止數(shù)據(jù)爬取的相關(guān)通知說明,則應(yīng)暫停數(shù)據(jù)爬取行為,及時采取對策。
本文摘編自《數(shù)據(jù)合規(guī):入門、實戰(zhàn)與進(jìn)階》(ISBN:978-7-111-70536-9),經(jīng)出版方授權(quán)發(fā)布。