爬蟲爬的好,牢飯吃到飽?
前幾天分享的一篇《只因?qū)懥艘欢闻老x,公司200多人被抓!》相信大家看了后都會發(fā)問,我只是個寫爬蟲的,跟我有什么關(guān)系?到底什么樣的爬蟲才不犯法?今天這篇會解答你所有的疑問。
圖片來自 Pexels
“你交代一下,總共抓了多少數(shù)據(jù),在哪些網(wǎng)站抓的,數(shù)據(jù)干什么用了?看看夠在里面呆幾年。。。”警察語氣凝重地對張強說。
程序員張強(化名),回憶起這兩天來的經(jīng)歷,仍心有余悸。
張強,在一家大數(shù)據(jù)風(fēng)控公司擔(dān)任爬蟲工程師,每當(dāng)看到網(wǎng)上的段子,爬蟲學(xué)得好,監(jiān)獄進(jìn)得早,他總是莞爾一笑,心想:關(guān)我毛事啊,我只是個程序員,要坐牢也是老板去坐吧,我又沒拿數(shù)據(jù)去賣錢。
時間回到 9 月,某一天的上午,張強和同事們像往常一樣上班,突然公司里來了一群警察,要求所有人雙手離開電腦、手機等設(shè)備,全部靠墻站立,工程師小哥哥、小姐姐們哪里見過這個架勢,都懵了,只得照辦。
警察查封了公司,帶走了公司所有人,于是有了前面的問話。
01.我只是個寫爬蟲的,跟我有什么關(guān)系?
許多程序員都有這樣的想法,技術(shù)是無罪的,我只是個打工的程序員,公司干違法的業(yè)務(wù),跟我沒關(guān)系。。。只能說,程序猿們真是圖羊圖森破了。
我們先來看幾個真實的法院判決案例:
案例一:數(shù)據(jù)擁有者有證據(jù)能夠舉證你的數(shù)據(jù)是抓取來的。如下,今日頭條起訴上海晟品的法院宣判結(jié)果。
圖片文字來自中國判決文書網(wǎng)
從文書描述來看,修改 UA、修改 device id、繞開網(wǎng)站訪問頻率控制這是寫爬蟲的基本,這些技術(shù)手法反而成了獲罪的依據(jù)。
案例二:抓取用戶社交數(shù)據(jù),尤其是用戶隱私相關(guān)。
圖片文字來自新浪網(wǎng)
案例三:用爬蟲技術(shù)擾亂對方網(wǎng)站經(jīng)營規(guī)則,且牟利。比如這個:
圖片文字來自中國永嘉公號
圖上描述做搜索引擎排名的技術(shù),其實就是利用爬蟲技術(shù)規(guī)?;脑L問網(wǎng)頁。
在我們通常的認(rèn)知里,因為互聯(lián)網(wǎng)推崇分享精神,所以認(rèn)為只要是網(wǎng)絡(luò)公開數(shù)據(jù)就可以抓取。
但是通過上面的案例來看,有幾個禁忌,抓取的數(shù)據(jù)最好不要直接商用,涉及社交信息/用戶信息要謹(jǐn)慎。
老板交代你抓取敏感任務(wù)時,讓老板先看下刑法第 285 條。公司從事違法業(yè)務(wù),不代表個人行為就沒事,只是還沒入有關(guān)部門的法眼。
02.9 月成為大數(shù)據(jù)風(fēng)控行業(yè)的“黑暗月”
同盾科技爬蟲部門已解散。據(jù)報道,同盾科技爬蟲部門已解散,員工集體待崗,并被建議不要離開杭州,否則有被抓風(fēng)險;由于局面失控,蔣韜已出國避風(fēng)頭。
知情人士透露,魔蝎科技與新顏科技近期被查系同盾科技舉報。之所以舉報魔蝎科技,意在打擊其背后的邦盛科技,后者是同盾科技的競爭對手。
緊接著,同盾科技發(fā)布“辟謠聲明”,稱蔣韜一直在國內(nèi)照常處理公司事務(wù);信川科技于 2018 年開始逐步調(diào)整業(yè)務(wù),目前已停止全部相關(guān)業(yè)務(wù),員工調(diào)至其他崗位;舉報傳言是無中生有,惡意中傷。
巧達(dá)科技被查封,全體員工被警方帶走。有消息稱招聘數(shù)據(jù)公司巧達(dá)科技被查封,全體員工被警方帶走。
一位巧達(dá)科技前員工告訴筆者,“(最近)陸續(xù)有 HR 等非核心員工回家,但核心高管依然失聯(lián)中。”
多位業(yè)內(nèi)人士和律師認(rèn)為,巧達(dá)科技出事可能與其未經(jīng)授權(quán)獲取和使用簡歷、“販賣”簡歷信息等涉嫌侵犯用戶隱私權(quán)、侵犯公民個人信息的行為有關(guān)。
公開資料顯示,巧達(dá)科技成立于 2014 年 7 月,號稱擁有中國最大的簡歷數(shù)據(jù)庫,巧達(dá)科技數(shù)據(jù)庫有 2.2 億自然人的簡歷、簡歷累計總數(shù) 37 億份。
此外,巧達(dá)科技還有超過 10 億份通訊錄,也就是說,它掌握了超過 57% 的中國人的信息。
這些獲取渠道并不正規(guī)的數(shù)據(jù)為巧達(dá)科技帶來了過億的收入。2016 年,巧達(dá)科技全年收入 1.2 億元,凈利潤 4800 萬元;2017 年,巧達(dá)科技全年收入 4.11 億元,凈利潤 1.86 億元,凈利潤率超過 45%。
魔蝎科技負(fù)責(zé)人及員工被抓捕,涉案人員 120 余名。9 月 6 日,網(wǎng)友 TonyStark 爆料稱,杭州西湖分局集結(jié) 200 余名警力,對涉嫌侵犯公民個人信息的魔蝎科技進(jìn)行統(tǒng)一抓捕。
截止目前抓獲涉案人員 120 余名,凍結(jié)資金 2300 余萬元,勘驗固定服務(wù)器 1000 余臺,扣押電腦 100 多臺,手機 200 余部。案件正在進(jìn)一步偵辦中。
隨后,杭州市公安局西湖區(qū)分局向媒體證實,魔蝎科技的相關(guān)人員已經(jīng)被經(jīng)偵大隊帶走調(diào)查。
03.信號明顯:“灰色”地帶的監(jiān)管力度在加強!
有業(yè)內(nèi)人士分析表示,爬蟲并不犯法,而是爬出后的信息如何使用,存在隱私侵權(quán)、數(shù)據(jù)濫用等風(fēng)險,特別是在數(shù)據(jù)的授權(quán)、來源、用途十分不透明的情況下。
西南財經(jīng)大學(xué)普惠金融與智能金融研究中心副主任陳文表示:“風(fēng)控數(shù)據(jù)公司因為擁有用戶的信息、關(guān)系圖,在獲客、營銷、催收階段都能助力現(xiàn)金貸機構(gòu)。但數(shù)據(jù)來源大多處于灰色地域,對于個人隱私缺乏保護(hù),存在廣泛的數(shù)據(jù)濫用問題。”
針對這些問題,監(jiān)管也在路上。今年 5 月 28 日,國家互聯(lián)網(wǎng)信息辦公室就《數(shù)據(jù)安全管理辦法(征求意見稿)》(以下簡稱《辦法》)公開征求意見。
對于網(wǎng)絡(luò)運營者超出運營需要收集個人信息的行為,《辦法》作出了限制性規(guī)定,對“網(wǎng)絡(luò)產(chǎn)品核心業(yè)務(wù)功能運行的個人信息”以外的信息,網(wǎng)絡(luò)運營者不得因個人信息主體未同意收集而拒絕提供核心業(yè)務(wù)功能服務(wù)。
針對網(wǎng)絡(luò)爬蟲等抓取網(wǎng)頁的自動化手段,《辦法》明確應(yīng)不妨礙網(wǎng)站正常運行,并列明具體的訪問收集流量不得超過網(wǎng)站日均流量的 1/3。
對數(shù)據(jù)泄露才確定網(wǎng)絡(luò)安全負(fù)責(zé)人的問題,其明確數(shù)據(jù)安全責(zé)任人的任職要求,突出網(wǎng)絡(luò)運營者主要負(fù)責(zé)人、數(shù)據(jù)安全責(zé)任人的姓名及聯(lián)系方式等。
04.使用爬蟲技術(shù)的公司,觸犯了什么法律?
對爬蟲技術(shù)應(yīng)用不當(dāng)?shù)钠髽I(yè),可能涉及的罪名有三個:
侵犯公民個人信息罪
①爬取的數(shù)據(jù)信息屬于公民個人信息范疇
公民個人信息,是指以電子或者其他方式記錄的,能夠單獨或者與其他信息結(jié)合識別特定自然人身份,或者反映特定自然人活動情況的各種信息,包括姓名、身份證件號碼、通信通訊聯(lián)系方式、住址、賬號密碼、財產(chǎn)狀況、行蹤軌跡等。
②利用爬蟲技術(shù)獲取的公民個人信息為非法獲取的
利用爬蟲技術(shù)收集公民個人信息數(shù)據(jù),應(yīng)當(dāng)獲得被收集人的同意,尤其是在數(shù)據(jù)中包含身份證號、信用信息等敏感數(shù)據(jù)的情況下,還需要獲得明示同意。
同時,利用網(wǎng)絡(luò)漏洞非法下載、非法購買等行為,都屬于“非法獲取”公民個人信息。
③相關(guān)法律依據(jù):《刑法》第 253 條
【侵犯公民個人信息罪】違反國家有關(guān)規(guī)定,向他人出售或者提供公民個人信息,情節(jié)嚴(yán)重的,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)特別嚴(yán)重的,處三年以上七年以下有期徒刑,并處罰金。
單位犯前三款罪的,對單位判處罰金,并對其直接負(fù)責(zé)的主管人員和其他直接責(zé)任人員,依照該款的規(guī)定處罰。
敲黑板劃重點,上面就是寫爬蟲程序員也在坐牢的法律依據(jù)。
構(gòu)成非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪
①利用爬蟲技術(shù)侵入計算機信息系統(tǒng)獲取數(shù)據(jù),或采用其他技術(shù)手段獲取計算機信息系統(tǒng)數(shù)據(jù)。
任何組織或個人不得危害計算機信息系統(tǒng)安全;不得破壞計算機及其相關(guān)的配套的設(shè)備、設(shè)施(含網(wǎng)絡(luò))安全,破壞其運行環(huán)境安全、信息安全,影響其功能正常發(fā)揮。
因此企業(yè)若在爬取數(shù)據(jù)時,存在危害計算機信息系統(tǒng)安全的行為,包括破解被爬企業(yè)的防抓取措施、加密算法、技術(shù)保護(hù)措施等,則很有可能被認(rèn)定為“侵入或以其他技術(shù)手段獲取計算機信息系統(tǒng)數(shù)據(jù)”。
②相關(guān)法律依據(jù):《刑法》第 285 條
【非法侵入計算機信息系統(tǒng)罪】違反國家規(guī)定,侵入國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機信息系統(tǒng)的,處三年以下有期徒刑或者拘役。
【提供侵入、非法控制計算機信息系統(tǒng)程序、工具罪】提供專門用于侵入、非法控制計算機信息系統(tǒng)的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統(tǒng)的違法犯罪行為,而為其提供程序、工具,情節(jié)嚴(yán)重的,依照前款的規(guī)定處罰。
單位犯前三款罪的,對單位判處罰金,并對其直接負(fù)責(zé)的主管人員和其他直接責(zé)任人員,依照該款的規(guī)定處罰。
看到了吧!別以為寫了個 NB 的爬蟲破解程序丟到 GitHub 上,就沒事。如果被人用來從事非法勾當(dāng),你也是要坐牢滴。
非法侵入計算機信息系統(tǒng)罪
①提供數(shù)據(jù)信息的網(wǎng)站為國家事務(wù)、國防建設(shè)、尖端科學(xué)技術(shù)領(lǐng)域的計算機信息系統(tǒng)。
高頻使用的網(wǎng)站,如“國家企業(yè)信用信息公示系統(tǒng)”“中國裁判文書網(wǎng)”“中國執(zhí)行信息公開網(wǎng)”以及各地政府網(wǎng)站等,都屬于“國家事務(wù)”網(wǎng)站的法律范疇內(nèi)。
②對計算機信息系統(tǒng)具有侵入行為
(1)只要有侵入行為,而不論侵入行為的結(jié)果。
(2)一般法院在認(rèn)定上主要有兩種方式:
- 以非法手段登錄網(wǎng)站,獲取原本不該有權(quán)限獲取的數(shù)據(jù)信息。
- 將惡意程序、非法文件等發(fā)送至網(wǎng)站,對網(wǎng)站的正常運行產(chǎn)生影響。
(3)在爬取此類網(wǎng)站的公開數(shù)據(jù)時,不存在“侵入”計算機信息系統(tǒng)的情形。但當(dāng)批量爬取數(shù)據(jù)信息時,需特別關(guān)注是否會對網(wǎng)站的正常運行產(chǎn)生影響,切不可逾越紅線。
各位程序員兄弟姐妹們,仔細(xì)讀完以上內(nèi)容,判斷下所在公司的合法性,該做準(zhǔn)備的要趁早準(zhǔn)備,不要抱有僥幸之心,更不要覺得老板“后臺”硬沒事,真要出事了你可能就是主犯,老板卻逍遙自在。
05.爬蟲程序員如何避免牢獄之災(zāi)?
①侵犯公民個人信息罪,合規(guī)建議:
利用爬蟲技術(shù)獲取公民個人信息的,應(yīng)該嚴(yán)格遵守相關(guān)法律、行政法規(guī)、部門規(guī)章的規(guī)定,否則極易落入“非法獲取”公民個人信息的法律風(fēng)險范疇。
此外,關(guān)于在公民個人信息已合法公開的情況下,利用爬蟲技術(shù)對其進(jìn)行抓取是否構(gòu)成非法獲取這一問題,暫時沒有明確答案,但《民法典人格權(quán)編》第 816 條寫到:行為人收集、處理自然人自行公開的或者其他已經(jīng)合法公開的信息不承擔(dān)民事責(zé)任,但是該自然人明確拒絕或者處理該信息侵害其重大利益的除外。
可以明確的是,收集已合法公開的個人信息應(yīng)不屬于違法,但在立法尚不完善的階段,仍建議謹(jǐn)慎使用爬蟲技術(shù)抓取公開的個人信息。
②非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪,合規(guī)建議:
嚴(yán)格禁止通過技術(shù)手段繞過服務(wù)器的訪問限制,或破解被爬網(wǎng)站為保護(hù)數(shù)據(jù)而采取的加密算法及技術(shù)保護(hù)措施,從而對被爬網(wǎng)站受保護(hù)的計算機信息系統(tǒng)中的數(shù)據(jù)進(jìn)行爬取。
若被爬網(wǎng)站設(shè)定了獲取數(shù)據(jù)信息的措施,爬蟲企業(yè)應(yīng)避免通過偽造實名認(rèn)證或竊取賬號密碼、內(nèi)部權(quán)限的形式獲取數(shù)據(jù)。
如前文的判決案例,通過技術(shù)手段,修改 UA、修改 device id、繞開網(wǎng)站訪問頻率控制等,進(jìn)行數(shù)據(jù)抓取,如果被定罪,這些技術(shù)手段都是違法行為的佐證。
③非法侵入計算機信息系統(tǒng)罪,合規(guī)建議:
對大數(shù)據(jù)公司,特別是大數(shù)據(jù)風(fēng)控企業(yè)來說,獲取“裁判文書網(wǎng)”“執(zhí)行信息公開網(wǎng)”的數(shù)據(jù)非常普遍且重要,但爬取這類國家事務(wù)網(wǎng)站的信息時應(yīng)當(dāng)尤為審慎,特別是在網(wǎng)站已采取相關(guān)“反爬措施”的情況下,仍強行惡意突破防護(hù)措施爬取數(shù)據(jù),對網(wǎng)站運行造成影響的,均可能構(gòu)成本罪。
除上述法律風(fēng)險以外,利用爬蟲技術(shù)手段還可能產(chǎn)生構(gòu)成不正當(dāng)競爭、侵犯信息網(wǎng)絡(luò)傳播權(quán)等法律風(fēng)險。
06.寫在末尾的話
不論你所在公司屬于哪個行業(yè),請謹(jǐn)記以下三點:
了解規(guī)則,敬畏法律。中國程序員對于法律的集體不敬畏,已經(jīng)到了令人咋舌的程度。
某涉事程序員,堅持認(rèn)為技術(shù)無罪,拒絕配合警方調(diào)查,錯過了取保侯審的機會,導(dǎo)致被拘留數(shù)月,等待判決。
弄清楚公司業(yè)務(wù)的合法性。之前有 P2P 業(yè)務(wù)的集體爆雷,再到被全面禁止 ICO 業(yè)務(wù),還有在線博彩等等,許多程序員醉心專研技術(shù),缺乏法律常識,更缺乏自我保護(hù)意識,糊里糊涂成為某些黑心老板的替罪羊。
積極配合警方調(diào)查。實事求是地說自己的問題,把客觀證據(jù)準(zhǔn)備好,積極提供給辦案機關(guān);切忌滿口“我認(rèn)為”“我感覺”“我猜測”,對于自己主觀判斷的東西,盡量思考清楚。
最后,愿每個程序員都能用技術(shù)去改變世界,讓我們的生活變得更加美好!