自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="burqx"></sub>

<cite id="burqx"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

CTO訓練營耿志峰：大數據驅動網絡反欺詐

原創(chuàng)

作者：王雪燕 2016-05-24 10:50:49

由51CTO高招主辦的“CTO訓練營”活動圓滿結束，來自百度商業(yè)安全部資深架構師耿志峰在活動現場做了主題為“大數據驅動網絡反欺詐”的分享，本文章是針對演講干貨整理，呈獻給大家。

百度商業(yè)安全部資深架構師耿志峰在由51CTO高招主辦的“CTO訓練營第四課百度技術專場”做了主題為“大數據驅動網絡反欺詐”的分享。其內容主要圍繞大數據如何作用于欺詐網頁展開，分為什么是欺詐網頁、大數據分析挖掘和欺詐網頁檢測三部分。

【演講人簡介】

耿志峰·百度商業(yè)安全部資深架構師

耿志峰，百度商業(yè)安全部資深架構師。2013年進入百度，從事大數據安全方面的工作，在將大數據技術應用在網址安全掃描、網絡反欺詐等方面，具有豐富的經驗。

透過經典案例深入了解欺詐網頁真面目

案例一： iCloud密碼泄漏。在這起案件里，很多美國好萊塢巨星被騙。犯罪分子被擒獲后，發(fā)現其作案手法非常簡單。過程是給受害者發(fā)電子郵件，告知其郵件里有很多騷擾郵件，iCloud密碼已泄漏，需要馬上重置。具體第一步就是要受害者輸入原始密碼。結果可想而知，很多明星輸入導致大規(guī)模泄露事件。

案例二：假機票。出行時，需買火車票、飛機票等。當買不到時很多人會去百度搜索，看看有沒有其他購票途徑。這樣就很容易受到賣假票網站的欺騙。

案例三：熱門節(jié)日中獎詐騙。一個典型案例，我要上春晚節(jié)目通知某人中獎，但需要交一定的保護費費就可以領取，之后上當受騙的人不在少數。

耿志峰表示，百度針對欺詐網頁做了相對應的應用。當用戶搜索網頁時，疑似欺詐網頁大部分會屏蔽，少部分顯現出來的會被標注“風險”字樣。有些網站是用戶真實想要的，如說博彩，百度把它顯示出來，但會告訴用戶這是一個風險網站。風險含義包括有詐騙、欺詐、釣魚，被黑、網頁亂碼和違法等。

什么是釣魚網站？就是未經授權，通過模仿第三方網站從而誘導用戶采取只有正規(guī)網站才能進行的操作，屬于社會工程學的范疇。簡單來講，利用用戶對某些其他網站的一個信任，然后再盜取用戶個人信息，如銀行卡、銀行卡密碼，用戶名密碼等。

欺詐網站有哪些特點？有模板化、多宿主、時效性和游擊戰(zhàn)四大特點。

模板化?？焖俜敝?。
多宿主?？赡艽嬖谟诓煌膰液偷貐^(qū)、不同的機房、不同的服務器、不同的網站。
時效性。數據顯示，釣魚網頁的平均存活時間為三天，絕大多數的有效時間少于1天。
游擊戰(zhàn)。不同地域不同時間段看到的內容不同，不同時段出現的欺詐內容不同。

耿志峰表示，做黑產的人會對人性加以研究，對技術研究較少。其發(fā)布的欺詐網站多為模板化，買一個模板，填一些內容馬上生成或用機器去填寫生成從而達到快速繁殖的目的。還有很多人來百度做廣告，執(zhí)行開始之前，百度會有非常嚴格的審查環(huán)節(jié)。這審查環(huán)節(jié)也會投入巨大精力。在審核時沒有任何問題，就是普通的一個公司官網、ICP備案等都正常。但在特定的時段或者特定的地區(qū)，如四川地區(qū)在晚上十二點時，內容就會發(fā)生這樣那樣的變化，看到的完全不是之前審核內容，是一個動態(tài)的內容。

欺詐網站有哪些分類？虛假信息和知名站點模仿兩大類。虛假信息，不去模仿或是投入技術手段做內容，只發(fā)布虛假信息。如購物信息（藥品、商城）、中獎信息（節(jié)日中獎、游戲中獎）、金融詐騙（小額貸款、信用卡）。知名站點模仿，如模仿京東官網，賣一些東西，用戶付款后收錢不發(fā)東西。如火車票、飛機票，10086這些都非常典型。其他違法檢測（賭博、色情）

大數據特點有哪些？大數據如何分析挖掘？

什么是大數據？指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力來適應海量、高增長和多樣化的信息資產。

大數據時代三V

大數據的特點。如上圖三V：數據量大、數據產生和傳輸的高速性、多樣性。

大數據信息挖掘

大數據分析挖掘。大數據主要應用場景有哪些？可以用大數據做什么？耿志峰在演講中，主要提到如上圖三點。

了解現狀、把握規(guī)律，預測未來。百度旅游熱點預測是典型的案例。在剛剛過去的五一非常紅，請求量特別大。大家五一想要該去哪兒，去頤和園還是去天安門，百度旅游就會告訴用戶根據以往經驗或者最近趨勢，某個地區(qū)熱度會達到每立方米一千個人，最好不要去。還有谷歌預測和醫(yī)療類疾病診斷等也是經典應用場景。
個性化的需求。如在買東西時，逛淘寶會推薦很多店。如買過某件東西的人還買了什么。根據所買產品做從各個維度做對應的推薦。
信息識別和過濾準則。垃圾郵件的過濾、虛假評論、刷單屬于這一范疇。如百度錢包拉新活動是給用戶一個鏈接，用戶拿鏈接去邀請新同學注冊百度錢包。百度錢包就會返現50元。面對利益，就會有人刻意刷單，最高記錄顯示，某人一天有幾十萬拉新記錄，這就可以利用大數據去建立挖掘。當他在請求時，就可知道其使用環(huán)境，如是不是代理、是不是通過IP代理、手機號在運營商是否真實存在、陶寶上是否有號碼注冊機，有無專門收驗證碼，都可以把他找出來。

在欺詐網頁上如何應用大數據的技術？

欺詐網頁檢測

欺詐網頁檢測模型需要四個流程。收集：網址安全信息查詢服務、系統(tǒng)：大規(guī)模數據處理架構、引擎：大數據+機器學習/深度學習算法、運營：數據分析和可視化。

收集，網址安全信息查詢服務。收集就是獲取任務，數據來源主要有百度索引（不良或不好數據過濾掉）和API查詢（新浪微博、普通瀏覽器I國際國內涉及反饋網頁信息的服務廠商）。百度有大容量KV數據庫(幾十億URL Link,近10萬的domain) ，每天會有百億級的有效查詢。還有來自搜索/設備/運營商/社交等復雜的場景以及高并發(fā)、低延時。

網頁數據處理框架理架構

系統(tǒng)：大規(guī)模數據處理架構。怎么樣來做快速處理的十幾億網頁架構呢？針對大量數據源會先做合并、信息傳輸和存儲。生成任務后，輸入模型來提取，轉化成模型需要的方式，最終用模型來盡快來檢測，達到可視化呈現。

模型工作流程

模型是工作一個典型的storm，在實時計算方面會非常的有優(yōu)勢。存儲是HDFS。

引擎：大數據+機器學習/深度學習算法。怎么樣去鑒定一個網頁到底是不是一個欺詐網頁呢？

大數據+機器學習算法神經網絡設計示意圖

如上圖，是一個內神經網絡設計示意圖。耿志峰表示，就是把眾多的原子拆分成非常細的緯度，把各個緯度進行組合，這就是深度學習的精髓。通過反復組合，組合成一個有意義的組織，輸入到模型中訓練。架構引擎在設計時就是把原子緯度提出來，進行合并，和基于訓練數據基礎上的某個模型進行合作，最后再輸入模型。

大數據+機器學習/深度學習算法的歷程

Rule Based（基于規(guī)則），是最早也是最有效的一個方法?；谝?guī)則的優(yōu)勢是上線快，準確高，容易理解。缺點是依賴于人，工作量比較大、容易受到干擾和召回低。侯選規(guī)則自動推導，線性模型/樹模型進行文本特征選擇、Word Embedding進行特征詞擴展和聚類、關聯規(guī)則和共現頻率進行類目內的規(guī)則發(fā)現。

Nearest Neighbor Based（基于相近），是從歷史挖掘高質量具有代表性的樣本，提取框架和文本特征，進行相似度特征匹配。優(yōu)點是上線速度快，準確率高高。仿冒類效果較好，但關鍵詞規(guī)則不能較好的表達仿冒特征、結構和內容相似。

Model Based（基于模型），對大量數據進行挖掘，提供和清洗訓練樣本，針對億級別的訓練樣本，提取擴展千萬的特征。之后利用大規(guī)模機器學習和深度學習平臺進行模型訓練，深度神經網絡優(yōu)化的多分類模型，這中間用到Paddle/Caffe框架來處理一些問題。優(yōu)點是有準召率高、預測效率高、善于發(fā)現新模型、從海量數據中總結規(guī)律、模型非常穩(wěn)定、還有能力同時應對多個分類。

Topological Based（基于拓撲），針對圖論進行檢測，利用URL間跳轉關系構造有向圖，獲得千萬節(jié)點，億級邊。這樣就可更抽象和高層的視角把握黑產規(guī)律。優(yōu)點是掌握黑產品質的規(guī)律，讓受攻擊的影響降到最小?？梢苑治銎墼p的源頭，對惡意URL傳播源頭進行定位，對惡意種子節(jié)點標注，對惡意的網站進行排名。

運營：數據分析和可視化。運營意義在于把信息鑒定出來，對某個網址對全局進行了解。如某個地域網站更容易是一個欺詐網頁。數據分析是對存有100M黑樣本的樣本庫進行建設和完善，對離線數據挖掘發(fā)現樣本，做特征歸類。建立Ad-hoc查詢接口，完成友好交互界面。對欺詐進行分布，如地域分布、用戶人群、時間序列分析(預警)等。數據可視化呈現是科學與藝術的完美結合，是建立在數據分析基礎上的。在大數據環(huán)境下輔助探索和理解問題，使得統(tǒng)計結果如趨勢、分布等得到很好的展示。樣本可以聚類呈現，如惡意網頁地域分布、域名所在地、受害用戶所在地等。

演講接近尾聲時，耿志峰表示，我們的生活方式越來越多，導致欺詐的手段層出不窮。大數據能夠有助于我們把握規(guī)律，進行合理預測，做到安全智能化。當然副作用也很明顯那就是隱私問題。其實最有效的方法還是網民自己提高安全意識。

責任編輯：王雪燕來源： CTO訓練營

大數據網絡反欺詐

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="be5ts"><track id="be5ts"></track></legend>

<sub id="be5ts"></sub>