自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CTO訓練營耿志峰:大數據驅動網絡反欺詐

原創(chuàng)
大數據
由51CTO高招主辦的“CTO訓練營”活動圓滿結束,來自百度商業(yè)安全部資深架構師耿志峰在活動現場做了主題為“大數據驅動網絡反欺詐”的分享,本文章是針對演講干貨整理,呈獻給大家。

百度商業(yè)安全部資深架構師耿志峰在由51CTO高招主辦的“CTO訓練營第四課百度技術專場”做了主題為“大數據驅動網絡反欺詐”的分享。其內容主要圍繞大數據如何作用于欺詐網頁展開,分為什么是欺詐網頁、大數據分析挖掘和欺詐網頁檢測三部分。

【演講人簡介】

[[166721]]

耿志峰·百度商業(yè)安全部資深架構師

耿志峰,百度商業(yè)安全部資深架構師。2013年進入百度,從事大數據安全方面的工作,在將大數據技術應用在網址安全掃描、網絡反欺詐等方面,具有豐富的經驗。

透過經典案例深入了解欺詐網頁真面目

案例一: iCloud密碼泄漏。在這起案件里,很多美國好萊塢巨星被騙。犯罪分子被擒獲后,發(fā)現其作案手法非常簡單。過程是給受害者發(fā)電子郵件,告知其郵件里有很多騷擾郵件,iCloud密碼已泄漏,需要馬上重置。具體第一步就是要受害者輸入原始密碼。結果可想而知,很多明星輸入導致大規(guī)模泄露事件。

案例二:假機票。出行時,需買火車票、飛機票等。當買不到時很多人會去百度搜索,看看有沒有其他購票途徑。這樣就很容易受到賣假票網站的欺騙。

案例三:熱門節(jié)日中獎詐騙。一個典型案例,我要上春晚節(jié)目通知某人中獎,但需要交一定的保護費費就可以領取,之后上當受騙的人不在少數。

耿志峰表示,百度針對欺詐網頁做了相對應的應用。當用戶搜索網頁時,疑似欺詐網頁大部分會屏蔽,少部分顯現出來的會被標注“風險”字樣。有些網站是用戶真實想要的,如說博彩,百度把它顯示出來,但會告訴用戶這是一個風險網站。風險含義包括有詐騙、欺詐、釣魚,被黑、網頁亂碼和違法等。

什么是釣魚網站?就是未經授權,通過模仿第三方網站從而誘導用戶采取只有正規(guī)網站才能進行的操作,屬于社會工程學的范疇。簡單來講,利用用戶對某些其他網站的一個信任,然后再盜取用戶個人信息,如銀行卡、銀行卡密碼,用戶名密碼等。

欺詐網站有哪些特點?模板化、多宿主、時效性和游擊戰(zhàn)四大特點。

  • 模板化??焖俜敝?。
  • 多宿主??赡艽嬖谟诓煌膰液偷貐^(qū)、不同的機房、不同的服務器、不同的網站。
  • 時效性。數據顯示,釣魚網頁的平均存活時間為三天,絕大多數的有效時間少于1天。
  • 游擊戰(zhàn)。不同地域不同時間段看到的內容不同,不同時段出現的欺詐內容不同。

耿志峰表示,做黑產的人會對人性加以研究,對技術研究較少。其發(fā)布的欺詐網站多為模板化,買一個模板,填一些內容馬上生成或用機器去填寫生成從而達到快速繁殖的目的。還有很多人來百度做廣告,執(zhí)行開始之前,百度會有非常嚴格的審查環(huán)節(jié)。這審查環(huán)節(jié)也會投入巨大精力。在審核時沒有任何問題,就是普通的一個公司官網、ICP備案等都正常。但在特定的時段或者特定的地區(qū),如四川地區(qū)在晚上十二點時,內容就會發(fā)生這樣那樣的變化,看到的完全不是之前審核內容,是一個動態(tài)的內容。

欺詐網站有哪些分類?虛假信息和知名站點模仿兩大類。虛假信息,不去模仿或是投入技術手段做內容,只發(fā)布虛假信息。如購物信息(藥品、商城)、中獎信息(節(jié)日中獎、游戲中獎)、 金融詐騙(小額貸款、信用卡)。知名站點模仿,如模仿京東官網,賣一些東西,用戶付款后收錢不發(fā)東西。如火車票、飛機票,10086這些都非常典型。其他違法檢測(賭博、色情)

大數據特點有哪些?大數據如何分析挖掘?

什么是大數據?指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力來適應海量、高增長和多樣化的信息資產。

大數據時代三V

大數據的特點。如上圖三V:數據量大、數據產生和傳輸的高速性、多樣性。

大數據信息挖掘

大數據分析挖掘。大數據主要應用場景有哪些?可以用大數據做什么?耿志峰在演講中,主要提到如上圖三點。

  • 了解現狀、把握規(guī)律,預測未來。百度旅游熱點預測是典型的案例。在剛剛過去的五一非常紅,請求量特別大。大家五一想要該去哪兒,去頤和園還是去天安門,百度旅游就會告訴用戶根據以往經驗或者最近趨勢,某個地區(qū)熱度會達到每立方米一千個人,最好不要去。還有谷歌預測和醫(yī)療類疾病診斷等也是經典應用場景。
  • 個性化的需求。如在買東西時,逛淘寶會推薦很多店。如買過某件東西的人還買了什么。根據所買產品做從各個維度做對應的推薦。
  • 信息識別和過濾準則。垃圾郵件的過濾、虛假評論、刷單屬于這一范疇。如百度錢包拉新活動是給用戶一個鏈接,用戶拿鏈接去邀請新同學注冊百度錢包。百度錢包就會返現50元。面對利益,就會有人刻意刷單,最高記錄顯示,某人一天有幾十萬拉新記錄,這就可以利用大數據去建立挖掘。當他在請求時,就可知道其使用環(huán)境,如是不是代理、是不是通過IP代理、手機號在運營商是否真實存在、陶寶上是否有號碼注冊機,有無專門收驗證碼,都可以把他找出來。

在欺詐網頁上如何應用大數據的技術? 

欺詐網頁檢測

欺詐網頁檢測模型需要四個流程。收集:網址安全信息查詢服務、系統(tǒng):大規(guī)模數據處理架構、引擎:大數據+機器學習/深度學習算法、運營:數據分析和可視化。

收集,網址安全信息查詢服務。收集就是獲取任務,數據來源主要有百度索引(不良或不好數據過濾掉)和API查詢(新浪微博、普通瀏覽器I國際國內涉及反饋網頁信息的服務廠商)。百度有大容量KV數據庫(幾十億URL Link,近10萬的domain) ,每天會有百億級的有效查詢。還有來自搜索/設備/運營商/社交等復雜的場景以及高并發(fā)、低延時。

網頁數據處理框架理架構

系統(tǒng):大規(guī)模數據處理架構。怎么樣來做快速處理的十幾億網頁架構呢?  針對大量數據源會先做合并、信息傳輸和存儲。生成任務后,輸入模型來提取,轉化成模型需要的方式,最終用模型來盡快來檢測,達到可視化呈現。

模型工作流程

模型是工作一個典型的storm,在實時計算方面會非常的有優(yōu)勢。存儲是HDFS。

引擎:大數據+機器學習/深度學習算法。怎么樣去鑒定一個網頁到底是不是一個欺詐網頁呢?

大數據+機器學習算法神經網絡設計示意圖

如上圖,是一個內神經網絡設計示意圖。 耿志峰表示,就是把眾多的原子拆分成非常細的緯度,把各個緯度進行組合,這就是深度學習的精髓。通過反復組合,組合成一個有意義的組織,輸入到模型中訓練。架構引擎在設計時就是把原子緯度提出來,進行合并,和基于訓練數據基礎上的某個模型進行合作,最后再輸入模型。

大數據+機器學習/深度學習算法的歷程

Rule Based(基于規(guī)則),是最早也是最有效的一個方法?;谝?guī)則的優(yōu)勢是上線快,準確高,容易理解。缺點是依賴于人,工作量比較大、容易受到干擾和召回低。侯選規(guī)則自動推導,線性模型/樹模型進行文本特征選擇、Word Embedding進行特征詞擴展和聚類、關聯規(guī)則和共現頻率進行類目內的規(guī)則發(fā)現。

Nearest Neighbor Based(基于相近),是從歷史挖掘高質量具有代表性的樣本,提取框架和文本特征,進行相似度特征匹配。優(yōu)點是上線速度快,準確率高高。仿冒類效果較好,但關鍵詞規(guī)則不能較好的表達仿冒特征、結構和內容相似。

Model Based(基于模型),對大量數據進行挖掘,提供和清洗訓練樣本,針對億級別的訓練樣本,提取擴展千萬的特征。之后利用大規(guī)模機器學習和深度學習平臺進行模型訓練,深度神經網絡優(yōu)化的多分類模型,這中間用到Paddle/Caffe框架來處理一些問題。優(yōu)點是有準召率高、預測效率高、善于發(fā)現新模型、從海量數據中總結規(guī)律、模型非常穩(wěn)定、還有能力同時應對多個分類。

 Topological Based(基于拓撲),針對圖論進行檢測,利用URL間跳轉關系構造有向圖,獲得千萬節(jié)點,億級邊。這樣就可更抽象和高層的視角把握黑產規(guī)律。優(yōu)點是掌握黑產品質的規(guī)律,讓受攻擊的影響降到最小??梢苑治銎墼p的源頭,對惡意URL傳播源頭進行定位,對惡意種子節(jié)點標注,對惡意的網站進行排名。

運營:數據分析和可視化。運營意義在于把信息鑒定出來,對某個網址對全局進行了解。如某個地域網站更容易是一個欺詐網頁。數據分析是對存有100M黑樣本的樣本庫進行建設和完善,對離線數據挖掘發(fā)現樣本,做特征歸類。建立Ad-hoc查詢接口,完成友好交互界面。對欺詐進行分布,如地域分布、用戶人群、時間序列分析(預警)等。數據可視化呈現是科學與藝術的完美結合,是建立在數據分析基礎上的。在大數據環(huán)境下輔助探索和理解問題,使得統(tǒng)計結果如趨勢、分布等得到很好的展示。樣本可以聚類呈現,如惡意網頁地域分布、域名所在地、受害用戶所在地等。

演講接近尾聲時,耿志峰表示,我們的生活方式越來越多,導致欺詐的手段層出不窮。大數據能夠有助于我們把握規(guī)律,進行合理預測,做到安全智能化。當然副作用也很明顯那就是隱私問題。其實最有效的方法還是網民自己提高安全意識。

 

責任編輯:王雪燕 來源: CTO訓練營
相關推薦

2016-08-05 18:53:25

CTO導師技術

2016-08-05 20:21:51

CTO導師技術

2016-08-30 18:14:43

管理51CTO技術

2016-01-05 13:44:39

2016-05-14 20:54:34

CTO訓練營大數據百度開放云

2016-05-25 16:57:23

百度大數據

2016-10-17 13:50:31

2016-05-25 15:45:01

百度CTO大數據

2016-09-13 19:21:07

CTO管理技術

2016-04-27 10:42:44

宜人貸CTO段念

2016-07-05 18:15:37

池建強ctocto訓練營

2016-09-26 11:17:30

CTO創(chuàng)業(yè)技術

2016-12-05 20:20:15

CTO訓練營公開課

2016-06-02 14:29:27

CTO訓練營創(chuàng)業(yè)公司

2015-09-17 10:30:45

2015-09-25 10:46:48

2016-08-04 13:41:27

CTO訓練營,技術管理

2016-02-29 14:48:38

51CTO高招

2016-07-15 16:58:12

cto訓練營團隊激勵

2016-07-02 22:41:35

互聯網云計算亞馬遜
點贊
收藏

51CTO技術棧公眾號