自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

主動學習在網絡攻擊識別中的應用簡介

安全 應用安全
網絡攻擊是指通過網絡或其他技術,利用系統(tǒng)存在的缺陷或采用暴力攻擊手段,導致信息系統(tǒng)異常或危害其正常運行。隨著網絡技術和應用的發(fā)展,網絡攻擊的數量和嚴重程度都在不斷增加。網絡攻擊識別在保障網絡安全方面發(fā)揮著重要作用。

 [[414092]]

網絡攻擊是指通過網絡或其他技術,利用系統(tǒng)存在的缺陷或采用暴力攻擊手段,導致信息系統(tǒng)異?;蛭:ζ湔_\行。隨著網絡技術和應用的發(fā)展,網絡攻擊的數量和嚴重程度都在不斷增加。網絡攻擊識別在保障網絡安全方面發(fā)揮著重要作用。通過訓練深度學習模型,可以實現(xiàn)對攻擊活動的檢測,達到發(fā)現(xiàn)已知攻擊類型的目的?;谏疃葘W習模型的攻擊識別研究目前已成為熱點,有監(jiān)督的深度學習模型通過海量的標注數據,可以對攻擊行為更好的識別,但基于監(jiān)督的學習模型需要有標簽樣本,尤其是深度學習模型,建立標注數據集也需要大量安全專家輔助,費時費力。雖有公開的安全數據集,但攻擊的演變性很容易過時,此外,若將所有采集到的數據提交專家打標簽,由于攻擊數據占所有數據的比例很低,會浪費大量的資金和時間投入。

1、網絡攻擊分類

想對攻擊進行準確識別,有必要了解網絡攻擊分類,中國國家標準化管理委員會發(fā)布的《GB/Z 20986——2007信息安全技術信息安全事件分類分級指南》是為信息安全事件分類提供指導的技術文件。根據其對網絡攻擊事件的分類,本文將網絡攻擊種類總結為拒絕服務攻擊、后門攻擊、漏洞利用、掃描竊聽、網絡釣魚、干擾攻擊和其它網絡攻擊等。以下將對這些攻擊方式進行詳細介紹。

1.1. 拒絕服務攻擊

拒絕服務(Denial of Service,DoS)攻擊是一種通過發(fā)送惡意數據包降低服務器和網絡性能,阻止合法用戶正常使用網絡資源的攻擊手段。其一種常見的變體為分布式拒絕服務(Distributed Denial of Service,DDoS)攻擊,該攻擊利用分布在不同位置的海量計算機同時向目標發(fā)送攻擊,以期耗盡目標資源。相對于DoS攻擊,由于其攻擊者分布不同且規(guī)模巨大,網絡管理者很難及時區(qū)分哪些是惡意攻擊者以采取防護手段,因此具有更高的成功概率。隨著計算資源的日益廉價,DDoS攻擊規(guī)模也在持續(xù)增大。據Google公司報道,其在2017年9月受到2.5Tbps的超大規(guī)模DDoS攻擊,是2016年破紀錄的Mirai僵尸網絡623Gbps規(guī)模的四倍。根據攻擊路徑不同,常見DDoS攻擊可分為直接型攻擊、反射型攻擊。

1.2. 后門攻擊

后門(程序)令身份驗證系統(tǒng)失效,授予特定用戶遠程訪問權限。后門攻擊是利用系統(tǒng)中存有的后門對信息系統(tǒng)發(fā)送遠程命令,進而控制系統(tǒng)。被利用的后門可以是軟件系統(tǒng)或硬件系統(tǒng)設計過程中留有的,也可以是攻擊者先前攻擊成功后留下的。

1.3. 漏洞利用

信息安全漏洞是硬件或軟件在配置以及實現(xiàn)等過程中存在的安全弱點。漏洞利用是利用在本地或遠程計算機上硬件或軟件內的一個或多個漏洞,進行非法活動如安裝惡意軟件、運行惡意代碼、獲取隱私數據、控制系統(tǒng)。

國家信息安全漏洞庫使用的漏洞分類指南將信息安全漏洞劃分為26種類型,圖1給出了它們間的層次關系。

圖1 CNNDV漏洞分類層次樹

1.4. 掃描竊聽

掃描竊聽是借助網絡安全掃描技術通過網絡獲取目標網絡或主機信息的行為。網絡安全掃描一直是安全專業(yè)人員在網絡中進行服務發(fā)現(xiàn)的關鍵技術,但同時也被攻擊者用于發(fā)現(xiàn)被攻擊系統(tǒng)開放的端口、脆弱性等構建攻擊工具需要的信息?,F(xiàn)已有很多成熟的掃描工具如Nmap、Nessus、Acunetix等可以使用。常見的掃描竊聽攻擊分為端口掃描攻擊、漏洞掃描攻擊。

端口掃描攻擊通過發(fā)送探測數據包,獲取端口響應,進而推測開放的服務與端口信息。端口掃描會反饋目標端口是以下三種中的一種狀態(tài):(1)開放:目標主機正在監(jiān)聽端口,并正在使用掃描中使用的服務;(2)關閉:已收到數據包請求,但服務未監(jiān)聽端口;(3)過濾:已發(fā)送數據包請求,但沒有答復,表明防火墻過濾了請求數據包。每個開放的端口都為攻擊者提供了訪問點,提供了破壞機會。

1.5. 網絡釣魚

網絡釣魚攻擊通過假裝為可信任的實體(通常是真實的機構或人),欺騙用戶信任,并常常營造一種緊迫感促使用戶采取行動,進而實現(xiàn)攻擊目標。根據攻擊形式的不同,網絡釣魚攻擊包括釣魚郵件、域名欺騙、水坑釣魚等。

  • 釣魚郵件:釣魚郵件是最常見的網絡釣魚攻擊。攻擊者為了令郵件可信,會在釣魚郵件中使用與偽裝的機構或人員類似的郵件地址,使用相同的措辭、字體、標識和簽名。通過吸引用戶跳轉到設計好的惡意網站中或下載惡意附件等方式獲得如用戶名、密碼、聯(lián)系方式等重要敏感信息。
  • 域名欺騙:域名欺騙是指通過采用被偽裝的真實網站設計,使用類似的網絡域名和字符,創(chuàng)建一個欺詐性的網站,并使其看起來真實可信。如使用域名apple.co偽裝蘋果公司域名apple.com。
  • 水坑釣魚:水坑攻擊不直接對攻擊目標實施攻擊,而是通過感染攻擊目標常用的網站等達到攻擊目的。水坑攻擊首先確定目標公司員工最常訪問的幾種特定網站(如公司服務供應商網站),然后感染這類中的一個或多個。當有員工訪問被感染的網站,會引發(fā)其主機加載惡意軟件,為攻擊者訪問公司內網、獲取敏感信息提供機會。

當這些類型的攻擊僅針對一個人時,可歸類為魚叉式網絡釣魚攻擊。如在魚叉式釣魚郵件攻擊中,攻擊者向在目標組織中扮演特定角色的某人發(fā)送量身定制的電子郵件。此郵件旨在從特定人員獲取登錄信息或感染特定人員的計算機。

1.6. 干擾攻擊

干擾攻擊指通過某種技術手段,對網絡進行干擾影響通信質量或通信中斷的行為。

1.7. 其他網絡攻擊

其他網絡攻擊指上述六個子類中未包括的網絡攻擊。

2、基于主動學習模型的網絡攻擊識別

主動學習(Active Learning)方法可以通過要求專家僅注釋信息量最大的樣本來降低標注成本的同時保證準確。主動學習框架主要分為兩個部分:采樣策略和學習器,其先通過某種采樣策略從大量無標注樣本中選擇目標樣本提交專家標注,再用標注好的樣本去訓練學習器。此過程可結合學習器的性能表現(xiàn)作為反饋結合采樣策略主動選擇樣本,避免標注無效樣本,減少訓練樣本的資金和時間投入。由于訓練深度學習模型時間較長,因此只考慮基于批處理的主動學習模型,即每輪選取b個樣本去交給專家標注。

圖2 基于主動學習框架的攻擊識別模型訓練圖

由于主動學習中的關鍵問題是如何選擇最有意義的樣本來要求智慧體(通常是人類專家)進行標記,因此研究工作主要側重在采樣策略。不確定采樣(Uncertainty sampling)是一種常用的采樣策略,它選取當前分類器最不確定性的樣本請求標注。不確定性度量方法包括最不信任,最小距離,熵,不同學習者的意見分歧等。

然而,這些經典的主動學習方法可能并不適用于批處理方式。由于深度模型的復雜性,待訓練參數較多,訓練時間往往相對普通機器學習模型更長。經典主動學習方法利用單個樣本更新模型的做法不適于深度學習模型,因此需采用基于批處理的學習方式。即每次從大量的樣本池中選擇一個批次的樣本,訓練更新模型。但僅僅按不確定性排名選取的集合會存在樣本冗余的風險,不適用于批量主動學習。為此,研究者們依據批量學習需求,對不確定性算法進行了改進。例如,通過引入多樣性和密度改進了基于不確定性的標準,或者設計一種結合多樣性度量的主動學習批處理模式方法。他們都對目標函數施加了多樣性約束,以使選擇用于標記的樣本彼此之間應有足夠的差異。為了避免不確定的樣本是實際的噪聲,利用高斯混合模型從密集區(qū)域中選擇不確定的樣本。

名為CEAL的偽標記方法,其不僅可以執(zhí)行不確定性選擇,還可以在增加的訓練集中添加高度可信的樣本以提高泛化精度。與上述主動學習方法不同,其可從訓練模型預測結果中推斷出所選樣本的一些標簽。它的主要缺點在于需要調整閾值以控制預測的置信度,以免破壞訓練集。不可避免的,基于不確定性的算法高度依賴于訓練充分的學習模型。但是,流程初期擁有的標簽數據數量很少,可能會導致訓練的模型最終效果較差。

為了提升模型的最終效果,還有一些其他采樣方法。費希爾(Fisher)信息矩陣作為模型不確定性的度量,可以有效地減少分類模型的Fisher信息的未標記集?;蛘呤顾x樣本盡可能地具有多樣性和不確定性進行采樣。但是,在深度學習模型中,不確定性采樣方法通常利用輸出層的前一層的輸出即logits評估不確定性,這可能導致其性能表現(xiàn)比隨機選擇采樣算法(Random sampling)表現(xiàn)更差,即使是最好的批量主動學習模型。另一種主流的批主動學習方法是貝葉斯主動學習方法,其原理是通過對每個查詢樣本或一組查詢后的預期誤差估計樣本對模型的預期改進情況,但是由于算法復雜無法擴展到深度學習使用的大規(guī)模數據集。

卷積神經網絡的主動學習的定義為核心集選擇問題。其以任意點到其最近標注點的距離的最大值作為評估損失評估標準,并選擇可以使該距離最小化的數據集作為采樣集合。通過將主動學習視為二元分類任務來從新的角度分析主動學習,以使標記集與未標記池不可區(qū)分來選擇樣本進行標記。由于算法中每批都需要多個小批量,因此他們的方法需要比其他方法更多的訓練時間。此外,當未標記的池比標記的池大得多時,它們用來訓練分類器的樣本是不足以覆蓋整個數據集信息的。而不平衡數據訓練的分類器,將進一步限制其總體有效性。

綜上所述,基于批處理的主動學習方法雖然可以減少深度學習模型的訓練時間,但基于某種信息量評估標準的樣本排名結果采樣容易選取冗余樣本。這是因為相似樣本的排名相近,雖然其單獨來看帶有很大信息量,但如果同時選擇多個,便帶來了冗余信息。因此,在網絡攻擊識別的主動學習應用中,如何進行數據樣本篩選仍舊是未來需要關注的問題。

參考文獻

[1] Decomain C , Wrobel S . Active Hidden Markov Models for Information Extraction[J]. International Symposium on Intelligent Data Analysis, 2001.

[2] Settles B . Active Learning Literature Survey[J]. University of Wisconsinmadison, 2010.

[3] Freund Y , Seung H S , Shamir E , et al. Selective Sampling Using the Query by Committee Algorithm[J]. Machine Learning, 1997, 28(2-3):133-168.

[4] Wang K , Zhang D , Li Y , et al. Cost-Effective Active Learning for Deep Image Classification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 27(12):1-1.

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2021-11-30 22:51:36

機器學習大數據技術

2022-03-02 09:11:09

機器學習網絡

2011-02-28 18:03:35

2009-03-02 15:44:20

網絡拓撲Visio技術Microsoft V

2019-08-29 07:51:26

2009-10-15 15:31:49

網絡布線系統(tǒng)

2021-11-08 14:19:59

區(qū)塊鏈比特幣應用

2020-10-23 16:23:54

機器學習網絡管理自動化

2012-02-13 13:27:58

流行路由網絡管理

2016-01-22 12:27:15

2009-11-13 13:30:44

路由器技術

2018-06-26 12:17:19

2009-12-10 15:39:34

動態(tài)路由協(xié)議

2022-06-29 16:42:35

區(qū)塊鏈網絡安全信息安全

2010-04-21 10:17:59

2024-01-30 00:55:23

2020-05-25 09:04:24

網絡安全機器學習人工智能

2021-02-27 00:41:59

網絡安全機器學習AIOps

2009-07-06 18:24:56

Servlet實例

2011-06-30 14:04:03

點贊
收藏

51CTO技術棧公眾號