數(shù)據(jù)科學(xué)如何應(yīng)用到安全 六步創(chuàng)建內(nèi)部DNS查詢分析模型
安全實踐者總被教育說要更智慧地使用數(shù)據(jù)。但問題是,很多數(shù)據(jù)科學(xué)家都迷失在自己的數(shù)學(xué)和算法世界中,而疏于從業(yè)務(wù)角度闡述自己的研究價值。
大數(shù)據(jù)平臺Dataiku分析架構(gòu)師兼銷售工程負責(zé)人肯尼斯·桑福德( Kenneth Sanford )博士稱,安全專家需與數(shù)據(jù)科學(xué)家更緊密合作,理解公司企業(yè)想要達成的目標,比如是想要合規(guī),還是想要確定如果遭遇勒索軟件攻擊會造成什么損失。
桑福德表示,“定義業(yè)務(wù)問題非常重要,像是宕機時間的業(yè)務(wù)損失和不合規(guī)的經(jīng)濟處罰之類的。”
Rapid7首席數(shù)據(jù)科學(xué)家羅博·路迪斯( Bob Rudis )補充道,公司企業(yè)需后退一步,觀察他們的過程,確定哪些可以通過數(shù)據(jù)科學(xué)做得更好。
公司企業(yè)需問問自己安全問題與業(yè)務(wù)問題之間的聯(lián)系。
桑福德和路迪斯構(gòu)建了一套六步創(chuàng)建內(nèi)部DNS查詢分析模型的方法,可以有效減少甚至清除掉查詢中的惡意代碼。
1. 定義業(yè)務(wù)問題
安全實踐者經(jīng)常迷失在技術(shù)細節(jié)中而沒有仔細考慮手頭的業(yè)務(wù)問題。舉個例子,如果目標是分析DNS查詢請求,確定要分析的是成千上萬的內(nèi)部DNS請求還是某網(wǎng)站或電子商務(wù)站點的外部DNS請求就很重要。只要確定出哪些才是更重要的,數(shù)據(jù)科學(xué)家就能建立模型分析這些活動。
2. 確定哪些數(shù)據(jù)源最適合解決問題
這一步?jīng)Q定模型解決業(yè)務(wù)問題的樣式。如果公司確定要解決的是內(nèi)部用戶點擊網(wǎng)絡(luò)釣魚鏈接的問題,就需要建立針對所有內(nèi)部DNS請求的模型。從所需數(shù)據(jù)類型的角度看,你將需要合法電子郵件集、被黑電子郵件集和電子郵件源IP及源域名的集合。數(shù)據(jù)科學(xué)家需能創(chuàng)造性地想象出一個所有數(shù)據(jù)都可用的世界。
3. 列出數(shù)據(jù)清單
這一步你需要盤點可用數(shù)據(jù),列出數(shù)據(jù)清單。雖然應(yīng)該盡善盡美,認識到局限所在也是必要的。說回DNS主題,大多數(shù)DNS數(shù)據(jù)來自于路由器、手機、服務(wù)器和工作站。你需要盤點所有查詢類型,確定是否符合自己能處理的格式,確定自己是否具備恰當存儲并訪問這些數(shù)據(jù)的IT基礎(chǔ)設(shè)施。如果你存儲空間不夠,那就需要搞清楚自己到底需要什么,配置這些基礎(chǔ)設(shè)施需要花費多少預(yù)算。
4. 實驗多種數(shù)據(jù)科學(xué)技術(shù)
現(xiàn)在可以坐下來打開電腦實驗?zāi)姆N數(shù)據(jù)科學(xué)技術(shù)最適合自己了。是高度可解釋的線性模型,還是高深莫測的深度學(xué)習(xí)算法?無論哪種,切記不要為了追求高深的數(shù)學(xué)而部署算法。目標應(yīng)該始終指向選出最佳方式,讓機器給出人力所不及的分析,讓公司能夠做出明智的決策。DNS案例中,就是構(gòu)建能持續(xù)以高置信度判定DNS請求是否惡意的模型。
5. 從現(xiàn)實世界視角測試
測試時,團隊會希望確定模型是否產(chǎn)生過多誤報或漏報,以及分析是否夠快,是否能支撐業(yè)務(wù)所需。從現(xiàn)實世界角度測評模型很重要。DNS樣例中,你應(yīng)測試模型能否減少公司內(nèi)部產(chǎn)生的惡意DNS查詢請求的數(shù)量。
6. 監(jiān)測與持續(xù)改進
測試過程可能持續(xù)數(shù)周,一旦測試完成,就是時候?qū)⒛P蛻?yīng)用到生產(chǎn)中了。但是,必須認識到,這些模型需要持續(xù)的監(jiān)測和改進。這與部署殺毒軟件不同,殺毒軟件你每隔幾周就會收到可用于更新的病毒特征碼。模型則需要持續(xù)監(jiān)測以確保能符合公司抵御惡意DNS請求的目標。
【本文是51CTO專欄作者“”李少鵬“”的原創(chuàng)文章,轉(zhuǎn)載請通過安全牛(微信公眾號id:gooann-sectv)獲取授權(quán)】