數(shù)據(jù)科學與機器學習方法對網(wǎng)絡安全的影響
一、背景
由于對數(shù)字化和物聯(lián)網(wǎng)的日益依賴,各種安全事件,例如未授權訪問、惡意軟件攻擊、數(shù)據(jù)泄露、拒絕服務攻擊(DOS)、分布式拒絕服務攻擊(DDOS)、網(wǎng)絡釣魚等等,此類安全事件近年來以指數(shù)級的速度增長。在2010年,據(jù)統(tǒng)計安全社區(qū)已知的惡意軟件可執(zhí)行文件不到5000萬個。根據(jù)相關研究機構的統(tǒng)計數(shù)據(jù),到2012年,它們增加了1億,而在2019年,安全社區(qū)已知的惡意可執(zhí)行文件已經(jīng)超過了9億,而且這個數(shù)字可能還會增長。此類的網(wǎng)絡攻擊事件會給社會國家和每個人帶來巨大的安全隱患,因此,如何準確地識別各種已有的或者未曾見過的網(wǎng)絡攻擊事件,并智能地保護相關系統(tǒng)免受此類網(wǎng)絡攻擊,是迫切需要解決的關鍵問題[1]。
網(wǎng)絡安全本質上是一套技術和過程,是為了保護計算機、網(wǎng)絡、程序和數(shù)據(jù)免受攻擊、損壞,或未經(jīng)授權的訪問。近年來,網(wǎng)絡安全在計算領域的技術正在發(fā)生著巨大的變化,而數(shù)據(jù)科學正在推動這一變化,機器學習,作為人工智能的核心部分,可以在從數(shù)據(jù)科學領域發(fā)揮至關重要的作用,利用機器學習可以顯著地改變網(wǎng)絡安全的格局,而數(shù)據(jù)科學正在引領一種新的科學方法,此類技術的流行程度日益增加,如圖1.1所示,2014年流行程度指數(shù)小于40,而在2019年已經(jīng)超過了70。分析網(wǎng)絡安全數(shù)據(jù),構建正確的工具和流程來成功地防止網(wǎng)絡安全事件,這不僅僅是一套簡單的功能需求和關于風險、威脅或漏洞的知識。為了簡單地提取安全事件的見解或模式,可以使用一些機器學習技術,如特征工程、數(shù)據(jù)聚類、分類和關聯(lián)分析,或基于神經(jīng)網(wǎng)絡的深度學習方法,從而做出合理的決策。
圖1.1 數(shù)據(jù)科學網(wǎng)絡安全流行趨勢
二、研究挑戰(zhàn)
國內外的研究人員已經(jīng)考慮了從數(shù)據(jù)中提取信息的基本概念與原則,這些基本方法和基本原理是從大量的數(shù)據(jù)分析研究中得出的。從數(shù)據(jù)中提取有用的信息應該通過已有的規(guī)范的步驟來處理整個流程。數(shù)據(jù)科學需要在使用它的上下文中進行詳細的考慮和結果評估,因為提取的信息對于幫助給定程序中的決定過程是非常重要的。相關性發(fā)現(xiàn)是網(wǎng)絡安全領域應考慮的數(shù)據(jù)科學基本概念之一,它通常提供相關數(shù)據(jù)項的詳細信息,特別是我們已經(jīng)了解的數(shù)據(jù)項的數(shù)量,從而大大減少了未知的不確定性。微軟引入了TDSP,它為數(shù)據(jù)科學項目創(chuàng)建了一個生命周期。隨后通過對KDD過程、CRISP-DM、TDSP和FMDS進行比較,其中FMDS、CRISP-DM和TDSP被使用范圍最廣,因為它們被認為是最受歡迎的,同時它們也是為機器學習與數(shù)據(jù)科學領域提出的,這些技術與網(wǎng)絡安全領域有非常大的關聯(lián)[2]。分析網(wǎng)絡安全數(shù)據(jù),構建正確的工具和流程來成功地防止網(wǎng)絡安全事件,這不僅僅是一套簡單的功能需求和關于風險、威脅或漏洞的知識。為了簡單地提取安全事件的見解或模式,可以使用一些機器學習技術,如特征工程、數(shù)據(jù)聚類、分類和關聯(lián)分析,或基于神經(jīng)網(wǎng)絡的深度學習方法,從而做出合理的決策。
三、網(wǎng)絡攻擊安全挑戰(zhàn)
這種風險通常與許多攻擊相關,通常我們考慮三個安全因素,首先是威脅,即誰在攻擊;其次是漏洞,即正在攻擊什么;最后是影響,即攻擊做了什么。安全事件是一種威脅到信息和系統(tǒng)的機密性、完整性或可用性的行為,可能導致大量或單個的系統(tǒng)和網(wǎng)絡受到攻擊的幾種類型的網(wǎng)絡安全事件有:
未經(jīng)授權訪問網(wǎng)絡、系統(tǒng)或數(shù)據(jù)信息都是不安全的行為,存在很大的隱患;
惡意軟件被故意設計成對計算機、客戶端、服務器或計算機網(wǎng)絡造成損害的程序或軟件,對系統(tǒng)會產生巨大的影響;
拒絕服務(DOS)是一種攻擊,旨在關閉機器或網(wǎng)絡,使目標用戶無法訪問它;
釣魚是惡意入侵行為,用于廣泛的惡意活動,通過人與人之間互動完成,攻擊者企圖通過電子郵件、文本或即時消息,將自己偽裝成受信任的個人或團體,參與獲取敏感信息[3]。
四、數(shù)據(jù)科學與網(wǎng)絡安全數(shù)據(jù)科學
我們生活在一個充滿著數(shù)據(jù)的時代,數(shù)據(jù)驅動了許多的產業(yè)。從數(shù)據(jù)中發(fā)現(xiàn)隱藏有趣的知信息的過程被人們稱為數(shù)據(jù)挖掘,為了用現(xiàn)實數(shù)據(jù)來理解和分析生活中的現(xiàn)象,我們使用了各種科學的方法、機器學習等,這些通常都被稱為數(shù)據(jù)科學。數(shù)據(jù)科學的一般定義是通過使用科學的方法從數(shù)據(jù)中提取信息以及發(fā)現(xiàn)新事物。數(shù)據(jù)科學可以利用存儲、計算和行為分析等等的技術優(yōu)勢來建立新的網(wǎng)絡安全方法。一般來說,由分布式系統(tǒng)建立的集群存儲使得收集和存儲大量數(shù)據(jù)變得更加容易
數(shù)據(jù)科學的應用使得訪問大量的數(shù)據(jù)使解決具有復雜性的安全問題成為可能。利用海量的大數(shù)據(jù)進行數(shù)據(jù)挖掘,往往數(shù)據(jù)越多,越能創(chuàng)建更準確和精確的分析。在網(wǎng)絡安全領域中,數(shù)據(jù)科學通過利用海量數(shù)據(jù)、高性能計算以及數(shù)據(jù)挖掘的方法來保護用戶免受網(wǎng)絡攻擊,在信息安全領域發(fā)揮了重要的作用。
數(shù)據(jù)科學在很大程度上是由數(shù)據(jù)的可用性驅動的,數(shù)據(jù)集通常代表由幾個屬性或特征和相關事實組成的信息記錄的集合,而網(wǎng)絡安全數(shù)據(jù)科學就是基于這些集合的,因此,了解包含各種類型的網(wǎng)絡攻擊和相關特征的網(wǎng)絡安全數(shù)據(jù)的性質是很重要的。因為從相關數(shù)據(jù)來源收集的原始安全數(shù)據(jù)可以用來分析安全事件或惡意行為的所屬模式,基于此可以建立一個數(shù)據(jù)驅動的安全模型,以實現(xiàn)我們的目標。在網(wǎng)絡安全領域存在一些數(shù)據(jù)集,包括入侵分析、惡意軟件分析、異常、欺詐或垃圾郵件分析,因此在圖2.1中,總結了幾個這樣的數(shù)據(jù)集,包括它們的各種特征以及在互聯(lián)網(wǎng)上可訪問的攻擊,同時羅列了在基于機器學習下不同的網(wǎng)絡應用程序中的使用[4]。
圖2.1數(shù)據(jù)科學中的分析階段
通過對這些安全特性進行分析和處理,根據(jù)需求構建基于目標機器學習的安全模型,并最終實現(xiàn)數(shù)據(jù)驅動,才是要達到的目的。因此,網(wǎng)絡安全數(shù)據(jù)科學的概念結合了數(shù)據(jù)科學和機器學習,以及各種安全事件的行為來進行分析。將這些技術結合產生了網(wǎng)絡安全數(shù)據(jù)科學這種方法,指的就是從不同的來源收集大量的安全事件數(shù)據(jù)以及使用機器學習的方法檢測安全風險或攻擊,最終發(fā)現(xiàn)高效的或者最新的數(shù)據(jù)驅動模式。
五、總結與展望
數(shù)據(jù)科學正在逐漸改變世界上的產業(yè),它對智能網(wǎng)絡安全系統(tǒng)和服務業(yè)的未來至關重要,因為網(wǎng)絡安全的一切都是關于數(shù)據(jù)的。當我們檢測網(wǎng)絡威脅時,通常是在以日志、網(wǎng)絡數(shù)據(jù)包或其他相關來源的形式對安全數(shù)據(jù)進行分析,而在傳統(tǒng)意義上,安全專業(yè)人員并不會使用數(shù)據(jù)科學相關知識來對這些數(shù)據(jù)源進行檢測,相反,他們使用比如簽名、手動防御等等方法,盡管這些技術在特定情況下都有它們自己的優(yōu)點,但同時也需要太多的人為操作才能跟上不斷變化的網(wǎng)絡威脅環(huán)境,而數(shù)據(jù)科學則可以應用在該領域并產生重要影響,借助數(shù)據(jù)科學結合機器學習算法可以從訓練數(shù)據(jù)中學習和提取安全事件,增強洞察力,用用來對安全事件進行檢測和預防,相信在未來,數(shù)據(jù)科學會被更加廣泛地應用到網(wǎng)絡安全領域。
參考文獻
[1]Kotenko, Igor, Igor Saenko, and Alexander Branitskiy. "Machine learning and big data processing for cybersecurity data analysis." Data science in cybersecurity and cyberthreat intelligence. Springer, Cham, 2020. 61-85.
[2]Thanh, Cao Tien. "A Study of Machine Learning Techniques for Cybersecurity." 2021 15th International Conference on Advanced Computing and Applications (ACOMP). IEEE, 2021.
[3]Alhayani, Bilal, et al. "Effectiveness of artificial intelligence techniques against cybersecurity risks apply of IT industry." Materials Today: Proceedings (2021).
[4]Shaukat, Kamran, et al. "A survey on machine learning techniques for cyber security in the last decade." IEEE Access 8 (2020): 222310-222354.