自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Verizon如何利用R語言分析數(shù)據(jù)泄露事故

譯文
安全
對20萬條記錄進(jìn)行分析似乎還不算是什么了不得的大工程,但如果記錄所包含的是安全事件,那么每一條都可能包含有數(shù)以百計的屬性,而每條屬性——包括不良行為者、資產(chǎn)影響以及組織類型等等——都會讓工作變得更加復(fù)雜,特別是對于單純的Excel電子表格而言。因此,在本次的Verizon年度安全報告當(dāng)中,電信巨頭首先決定采取由R語言生成的“全面”統(tǒng)計圖表來取代原本的Excel表格。

【51CTO.com 快譯】下圖為攻擊者侵入系統(tǒng)到企業(yè)實際發(fā)現(xiàn)數(shù)據(jù)泄露狀況之間的間隔時長,數(shù)據(jù)圖形由R軟件包ggplot2生成。

Verizon如何利用R語言分析數(shù)據(jù)泄露事故

資深科學(xué)家Bob Rudis將《Verizon數(shù)據(jù)泄露報告》稱為“寫給R語言的情書”。

對20萬條記錄進(jìn)行分析似乎還不算是什么了不得的大工程,但如果記錄所包含的是安全事件,那么每一條都可能包含有數(shù)以百計的屬性,而每條屬性——包括不良行為者、資產(chǎn)影響以及組織類型等等——都會讓工作變得更加復(fù)雜,特別是對于單純的Excel電子表格而言。因此,在本次的Verizon年度安全報告當(dāng)中,電信巨頭首先決定采取由R語言生成的“全面”統(tǒng)計圖表來取代原本的Excel表格。

事實上,《Verizon數(shù)據(jù)泄露報告》在一定程度上可以算是“寫給R語言的情書”,Verizon公司企業(yè)解決方案資深數(shù)據(jù)科學(xué)家兼常務(wù)主管Bob Rudis在日前于波士頓召開的EARL(即R語言有效應(yīng)用)大會上指出。

R語言“在使用過程中確實樂趣滿滿,”他指出。

作為轉(zhuǎn)換過程中的重要問題之一,由電子表格向R的變更將帶來相當(dāng)復(fù)雜的數(shù)據(jù)格式轉(zhuǎn)變。Verizon公司的研究人員利用嵌套JSON的方式從各組織機(jī)構(gòu)獲取安全事件數(shù)據(jù),這意味著各匿名數(shù)據(jù)類別之內(nèi)還存在大量子類。很明顯,以Excel方式對其進(jìn)行導(dǎo)入以及分析幾乎是件不可能完成的任務(wù)。

而使用R語言還將帶來其它一些助益,Rudis表示。由于R語言的ggplot2軟件包能夠生成極為精細(xì)且可達(dá)出版質(zhì)量水平的圖像,Verizon公司得以擺脫對外部圖形設(shè)計企業(yè)的依賴,從而節(jié)約下15000美元到20000美元支出。與此前方式相比,利用R語言創(chuàng)建而成的圖像只會帶來惟一一種區(qū)別——即對字體進(jìn)行重新整理。“R語言在處理字體方面確實比較捉急,”Rudis坦言。

不過R語言在建模、聚類以及其它統(tǒng)計分析工作當(dāng)中擁有著大量出色的工具,能夠幫助Verizon公司在單純的計數(shù)之外實現(xiàn)更多復(fù)雜的功能——例如根據(jù)不同組織機(jī)構(gòu)類型檢測攻擊者的可能活動。即使是在金融服務(wù)范疇之內(nèi),他指出安全威脅的類型也會有所區(qū)別,例如銀行業(yè)與金融業(yè)之間也存在明顯差異。

該報告小組還利用R語言創(chuàng)建出各類具備交互性的可視化成果,例如查看哪些其它行業(yè)中存在類似的威脅狀況。

Verizon公司使用的安全數(shù)據(jù)格式為開源的VERIS,即事件記錄與事故共享詞表(Vocabulary for Event Recording and Incident Sharing)。對于那些希望對已公開安全泄露數(shù)據(jù)進(jìn)行分析的用戶,VERIS Community Database能夠幫大家滿足需求,而名為verisr的R軟件包能夠輕松處理這類數(shù)據(jù)。Rudis與Jay Jacobs還聯(lián)名撰寫了一部論著,《數(shù)據(jù)驅(qū)動型安全》,其中詳盡描述了如何使用VERIS模式及R語言記錄并分析安全事故。

Verizon公司在報告當(dāng)中分析的數(shù)據(jù)總量遠(yuǎn)多于目前公開數(shù)據(jù)庫當(dāng)中的可用數(shù)量,其中甚至包括一部分來自美國特勤局以及FBI等機(jī)構(gòu)的數(shù)據(jù),Rudis指出。

而在利用R語言進(jìn)行數(shù)據(jù)分析的過程當(dāng)中,Rudis總結(jié)出了以下經(jīng)驗:

·使用R Markdown將解釋文本與分析及圖像關(guān)聯(lián)起來。R Markdown“能夠讓文件記錄、迭代、修改以及共享分析結(jié)果等工作變得超乎想象的簡單,”Rudis強調(diào)稱。

·“將一切整理進(jìn)軟件包當(dāng)中,”甚至包括不打算與外部人士共享的內(nèi)部分析代碼。這能夠顯著降低文件記錄功能的實現(xiàn)難度,允許他人更輕松地檢查我們的分析結(jié)果。

·Version公司利用git等機(jī)制進(jìn)行版本控制,將其作為“一切的實現(xiàn)基礎(chǔ)。”

該項目當(dāng)中還提供其它一系列開源工具,包括利用GitLab進(jìn)行內(nèi)部協(xié)作開發(fā)、利用Slack進(jìn)行協(xié)作; Rudis還特地編寫了一款名為slackr的R軟件包,旨在降低由R直接向Slack發(fā)送分析結(jié)果的難度。

其它相關(guān)工具:SurveyGizmo與Room.co實現(xiàn)安全視頻聊天; 之所以沒有選擇谷歌Hangouts,是因為谷歌方面會記錄這些會話內(nèi)容,他解釋道。而GPG Suite則負(fù)責(zé)進(jìn)行通信內(nèi)容加密,RStudio用于同R語言環(huán)境對接。

Rudis在EARL波士頓大會上的演示材料已經(jīng)公開,感興趣的朋友可以點擊此處查看。

原文標(biāo)題:How Verizon analyzes security-breach data with R

【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯:藍(lán)雨淚 來源: 51CTO.com
相關(guān)推薦

2016-10-08 11:28:40

2015-04-20 10:39:27

2016-06-03 10:32:53

2013-11-14 09:22:50

2024-06-12 11:19:10

2018-02-07 09:00:09

2014-03-12 10:17:22

R語言Hadoop

2015-07-29 11:14:20

r語言數(shù)據(jù)科學(xué)

2023-06-26 11:37:40

2013-05-22 08:55:14

R語言

2016-03-07 13:24:29

2020-12-04 07:11:40

數(shù)據(jù)泄露漏洞網(wǎng)絡(luò)安全

2019-01-03 16:28:22

2015-08-18 13:33:16

r語言

2013-05-02 16:18:43

2010-08-02 10:30:30

2015-05-29 11:45:35

2020-07-09 15:21:58

大數(shù)據(jù)RStudioR語言

2015-08-11 13:24:15

2015-06-11 10:00:06

CISO數(shù)據(jù)泄露企業(yè)安全管理
點贊
收藏

51CTO技術(shù)棧公眾號