CTO訓練營耿志峰:大數據驅動網絡反欺詐
原創(chuàng)百度商業(yè)安全部資深架構師耿志峰在由51CTO高招主辦的“CTO訓練營第四課百度技術專場”做了主題為“大數據驅動網絡反欺詐”的分享。其內容主要圍繞大數據如何作用于欺詐網頁展開,分為什么是欺詐網頁、大數據分析挖掘和欺詐網頁檢測三部分。
【演講人簡介】
耿志峰·百度商業(yè)安全部資深架構師
耿志峰,百度商業(yè)安全部資深架構師。2013年進入百度,從事大數據安全方面的工作,在將大數據技術應用在網址安全掃描、網絡反欺詐等方面,具有豐富的經驗。
透過經典案例深入了解欺詐網頁真面目
案例一: iCloud密碼泄漏。在這起案件里,很多美國好萊塢巨星被騙。犯罪分子被擒獲后,發(fā)現其作案手法非常簡單。過程是給受害者發(fā)電子郵件,告知其郵件里有很多騷擾郵件,iCloud密碼已泄漏,需要馬上重置。具體第一步就是要受害者輸入原始密碼。結果可想而知,很多明星輸入導致大規(guī)模泄露事件。
案例二:假機票。出行時,需買火車票、飛機票等。當買不到時很多人會去百度搜索,看看有沒有其他購票途徑。這樣就很容易受到賣假票網站的欺騙。
案例三:熱門節(jié)日中獎詐騙。一個典型案例,我要上春晚節(jié)目通知某人中獎,但需要交一定的保護費費就可以領取,之后上當受騙的人不在少數。
耿志峰表示,百度針對欺詐網頁做了相對應的應用。當用戶搜索網頁時,疑似欺詐網頁大部分會屏蔽,少部分顯現出來的會被標注“風險”字樣。有些網站是用戶真實想要的,如說博彩,百度把它顯示出來,但會告訴用戶這是一個風險網站。風險含義包括有詐騙、欺詐、釣魚,被黑、網頁亂碼和違法等。
什么是釣魚網站?就是未經授權,通過模仿第三方網站從而誘導用戶采取只有正規(guī)網站才能進行的操作,屬于社會工程學的范疇。簡單來講,利用用戶對某些其他網站的一個信任,然后再盜取用戶個人信息,如銀行卡、銀行卡密碼,用戶名密碼等。
欺詐網站有哪些特點?有模板化、多宿主、時效性和游擊戰(zhàn)四大特點。
- 模板化??焖俜敝?。
- 多宿主??赡艽嬖谟诓煌膰液偷貐^(qū)、不同的機房、不同的服務器、不同的網站。
- 時效性。數據顯示,釣魚網頁的平均存活時間為三天,絕大多數的有效時間少于1天。
- 游擊戰(zhàn)。不同地域不同時間段看到的內容不同,不同時段出現的欺詐內容不同。
耿志峰表示,做黑產的人會對人性加以研究,對技術研究較少。其發(fā)布的欺詐網站多為模板化,買一個模板,填一些內容馬上生成或用機器去填寫生成從而達到快速繁殖的目的。還有很多人來百度做廣告,執(zhí)行開始之前,百度會有非常嚴格的審查環(huán)節(jié)。這審查環(huán)節(jié)也會投入巨大精力。在審核時沒有任何問題,就是普通的一個公司官網、ICP備案等都正常。但在特定的時段或者特定的地區(qū),如四川地區(qū)在晚上十二點時,內容就會發(fā)生這樣那樣的變化,看到的完全不是之前審核內容,是一個動態(tài)的內容。
欺詐網站有哪些分類?虛假信息和知名站點模仿兩大類。虛假信息,不去模仿或是投入技術手段做內容,只發(fā)布虛假信息。如購物信息(藥品、商城)、中獎信息(節(jié)日中獎、游戲中獎)、 金融詐騙(小額貸款、信用卡)。知名站點模仿,如模仿京東官網,賣一些東西,用戶付款后收錢不發(fā)東西。如火車票、飛機票,10086這些都非常典型。其他違法檢測(賭博、色情)
大數據特點有哪些?大數據如何分析挖掘?
什么是大數據?指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力來適應海量、高增長和多樣化的信息資產。
大數據時代三V
大數據的特點。如上圖三V:數據量大、數據產生和傳輸的高速性、多樣性。
大數據信息挖掘
大數據分析挖掘。大數據主要應用場景有哪些?可以用大數據做什么?耿志峰在演講中,主要提到如上圖三點。
- 了解現狀、把握規(guī)律,預測未來。百度旅游熱點預測是典型的案例。在剛剛過去的五一非常紅,請求量特別大。大家五一想要該去哪兒,去頤和園還是去天安門,百度旅游就會告訴用戶根據以往經驗或者最近趨勢,某個地區(qū)熱度會達到每立方米一千個人,最好不要去。還有谷歌預測和醫(yī)療類疾病診斷等也是經典應用場景。
- 個性化的需求。如在買東西時,逛淘寶會推薦很多店。如買過某件東西的人還買了什么。根據所買產品做從各個維度做對應的推薦。
- 信息識別和過濾準則。垃圾郵件的過濾、虛假評論、刷單屬于這一范疇。如百度錢包拉新活動是給用戶一個鏈接,用戶拿鏈接去邀請新同學注冊百度錢包。百度錢包就會返現50元。面對利益,就會有人刻意刷單,最高記錄顯示,某人一天有幾十萬拉新記錄,這就可以利用大數據去建立挖掘。當他在請求時,就可知道其使用環(huán)境,如是不是代理、是不是通過IP代理、手機號在運營商是否真實存在、陶寶上是否有號碼注冊機,有無專門收驗證碼,都可以把他找出來。
在欺詐網頁上如何應用大數據的技術?
欺詐網頁檢測
欺詐網頁檢測模型需要四個流程。收集:網址安全信息查詢服務、系統(tǒng):大規(guī)模數據處理架構、引擎:大數據+機器學習/深度學習算法、運營:數據分析和可視化。
收集,網址安全信息查詢服務。收集就是獲取任務,數據來源主要有百度索引(不良或不好數據過濾掉)和API查詢(新浪微博、普通瀏覽器I國際國內涉及反饋網頁信息的服務廠商)。百度有大容量KV數據庫(幾十億URL Link,近10萬的domain) ,每天會有百億級的有效查詢。還有來自搜索/設備/運營商/社交等復雜的場景以及高并發(fā)、低延時。
網頁數據處理框架理架構
系統(tǒng):大規(guī)模數據處理架構。怎么樣來做快速處理的十幾億網頁架構呢? 針對大量數據源會先做合并、信息傳輸和存儲。生成任務后,輸入模型來提取,轉化成模型需要的方式,最終用模型來盡快來檢測,達到可視化呈現。
模型工作流程
模型是工作一個典型的storm,在實時計算方面會非常的有優(yōu)勢。存儲是HDFS。
引擎:大數據+機器學習/深度學習算法。怎么樣去鑒定一個網頁到底是不是一個欺詐網頁呢?
大數據+機器學習算法神經網絡設計示意圖
如上圖,是一個內神經網絡設計示意圖。 耿志峰表示,就是把眾多的原子拆分成非常細的緯度,把各個緯度進行組合,這就是深度學習的精髓。通過反復組合,組合成一個有意義的組織,輸入到模型中訓練。架構引擎在設計時就是把原子緯度提出來,進行合并,和基于訓練數據基礎上的某個模型進行合作,最后再輸入模型。
大數據+機器學習/深度學習算法的歷程
Rule Based(基于規(guī)則),是最早也是最有效的一個方法?;谝?guī)則的優(yōu)勢是上線快,準確高,容易理解。缺點是依賴于人,工作量比較大、容易受到干擾和召回低。侯選規(guī)則自動推導,線性模型/樹模型進行文本特征選擇、Word Embedding進行特征詞擴展和聚類、關聯規(guī)則和共現頻率進行類目內的規(guī)則發(fā)現。
Nearest Neighbor Based(基于相近),是從歷史挖掘高質量具有代表性的樣本,提取框架和文本特征,進行相似度特征匹配。優(yōu)點是上線速度快,準確率高高。仿冒類效果較好,但關鍵詞規(guī)則不能較好的表達仿冒特征、結構和內容相似。
Model Based(基于模型),對大量數據進行挖掘,提供和清洗訓練樣本,針對億級別的訓練樣本,提取擴展千萬的特征。之后利用大規(guī)模機器學習和深度學習平臺進行模型訓練,深度神經網絡優(yōu)化的多分類模型,這中間用到Paddle/Caffe框架來處理一些問題。優(yōu)點是有準召率高、預測效率高、善于發(fā)現新模型、從海量數據中總結規(guī)律、模型非常穩(wěn)定、還有能力同時應對多個分類。
Topological Based(基于拓撲),針對圖論進行檢測,利用URL間跳轉關系構造有向圖,獲得千萬節(jié)點,億級邊。這樣就可更抽象和高層的視角把握黑產規(guī)律。優(yōu)點是掌握黑產品質的規(guī)律,讓受攻擊的影響降到最小??梢苑治銎墼p的源頭,對惡意URL傳播源頭進行定位,對惡意種子節(jié)點標注,對惡意的網站進行排名。
運營:數據分析和可視化。運營意義在于把信息鑒定出來,對某個網址對全局進行了解。如某個地域網站更容易是一個欺詐網頁。數據分析是對存有100M黑樣本的樣本庫進行建設和完善,對離線數據挖掘發(fā)現樣本,做特征歸類。建立Ad-hoc查詢接口,完成友好交互界面。對欺詐進行分布,如地域分布、用戶人群、時間序列分析(預警)等。數據可視化呈現是科學與藝術的完美結合,是建立在數據分析基礎上的。在大數據環(huán)境下輔助探索和理解問題,使得統(tǒng)計結果如趨勢、分布等得到很好的展示。樣本可以聚類呈現,如惡意網頁地域分布、域名所在地、受害用戶所在地等。
演講接近尾聲時,耿志峰表示,我們的生活方式越來越多,導致欺詐的手段層出不窮。大數據能夠有助于我們把握規(guī)律,進行合理預測,做到安全智能化。當然副作用也很明顯那就是隱私問題。其實最有效的方法還是網民自己提高安全意識。