自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

特征工程之加密流量安全檢測

安全 應(yīng)用安全 數(shù)據(jù)安全
在經(jīng)典的機(jī)器學(xué)習(xí)領(lǐng)域,特征工程始終占據(jù)著核心位置,特征工程的質(zhì)量高低往往直接決定了機(jī)器學(xué)習(xí)效果的成敗。本文概述我們在加密惡意流量檢測實(shí)踐中的特征工程方法流程并分析最終使用的流量特征集合。

在經(jīng)典的機(jī)器學(xué)習(xí)領(lǐng)域,特征工程始終占據(jù)著核心位置,特征工程的質(zhì)量高低往往直接決定了機(jī)器學(xué)習(xí)效果的成敗。本文概述我們在加密惡意流量檢測實(shí)踐中的特征工程方法流程并分析最終使用的流量特征集合。

[[271426]]

從廣義的角度審視,特征工程的實(shí)踐流程一般包含特征提取、特征選擇、特征應(yīng)用、特征迭代四個(gè)步驟。

一、特征提取

特征提取是特征工程初期的重要工作任務(wù)。如何設(shè)計(jì)待提取的候選特征集合,需要對惡意軟件加密通信具有全面的領(lǐng)域知識積累。如何處理提取后的特征候選集合以得到適合機(jī)器學(xué)習(xí)模型輸入的特征,需要對數(shù)據(jù)分析處理方法具有深入的實(shí)踐經(jīng)驗(yàn)。

加密流量

初步特征抽取針對的候選特征集合分為協(xié)議無關(guān)特征與協(xié)議相關(guān)特征兩類。協(xié)議無關(guān)特征是指流量數(shù)據(jù)傳輸過程中表現(xiàn)的通用特征,例如,數(shù)據(jù)包的大小、包時(shí)間間隔等。協(xié)議相關(guān)特征是指流量數(shù)據(jù)在加密傳輸協(xié)議層面表現(xiàn)的專有特征,例如,SSL 擴(kuò)展種類、加密套件種類。通過對 SSL 協(xié)議標(biāo)準(zhǔn)和惡意流量數(shù)據(jù)的深入研究,并結(jié)合收集的數(shù)據(jù)集進(jìn)行逐一驗(yàn)證,我們最終得出一組涵蓋范圍廣且和惡意流量相關(guān)性高的候選特征集,然后開發(fā)專有特征提取系統(tǒng),為后續(xù)的特征數(shù)據(jù)分析處理提供基礎(chǔ)支持。

在已提取的候選特征集合基礎(chǔ)上,進(jìn)行進(jìn)一步特征數(shù)據(jù)分析處理,對不適合直接作為機(jī)器學(xué)習(xí)模型輸入的數(shù)據(jù),進(jìn)行深度特征抽取。例如,針對加密通信過程中可能出現(xiàn)的各類域名,傳統(tǒng)方法是提取域名的數(shù)字個(gè)數(shù)、字母個(gè)數(shù)、非字母和數(shù)字個(gè)數(shù)等作為特征,我們基于深度學(xué)習(xí)技術(shù)訓(xùn)練 LSTM 模型直接提取其 DGA 域名概率值作為特征,能夠給機(jī)器學(xué)習(xí)模型提供更有效的數(shù)據(jù)信息。后續(xù)實(shí)驗(yàn)表明,這類深度抽取特征在模型中起到了關(guān)鍵作用。上述 DGA 域名檢測模型架構(gòu)圖如下圖所示:

特征工程/加密/流量安全

二、特征選擇

特征選擇是特征提取后的一項(xiàng)重要工作,直接決定了最終使用特征集的質(zhì)量。我們共使用了四類特征選擇方法:先驗(yàn)知識驗(yàn)證、降維可視化分析、啟發(fā)式搜索分析、綜合工程測試。前兩類方法依靠數(shù)據(jù)統(tǒng)計(jì)分析,后兩類方法結(jié)合分類模型。

特征工程/加密/流量安全

先驗(yàn)知識驗(yàn)證,是指依靠專家先驗(yàn)知識直接對候選特征集合進(jìn)行取舍。針對數(shù)據(jù)集上的特征統(tǒng)計(jì)結(jié)果表現(xiàn)出的差異,先驗(yàn)知識可以直接給出本質(zhì)原因,指導(dǎo)特征選擇。例如,SSL 擴(kuò)展在 GREASE 擴(kuò)展項(xiàng)上表現(xiàn)出的正常/惡意流量差別,是不能作為保留特征的,因?yàn)?,GREASE 擴(kuò)展項(xiàng)只是瀏覽器為保證協(xié)議可擴(kuò)展性設(shè)計(jì)的特性,并不反映惡意流量特性。

降維可視化分析,是指對初步選擇的一組特征集進(jìn)行基于無監(jiān)督學(xué)習(xí)的降維處理和可視化分析,直接判斷這組特征集的質(zhì)量。例如,我們使用 PCA 和 t-SNE 等降維方法對一組特征集進(jìn)行降維,從對降維結(jié)果的可視化分析圖可以看出,這組特征集在圖中的數(shù)據(jù)集上的聚類和區(qū)分效果明顯,具有較高的質(zhì)量。降維可視化效果如下圖所示:

特征工程/加密/流量安全

特征工程/加密/流量安全

啟發(fā)式搜索分析,是指從一個(gè)較小的特征集出發(fā),分批次逐步添加候選特征,使用機(jī)器學(xué)習(xí)模型進(jìn)行分類效果測試,判斷該批次特征的取舍。在特征集數(shù)量較大導(dǎo)致無法遍歷測試每個(gè)特征集的場景下,基于隨機(jī)選擇和樹搜索的分析方法可以較好地平衡效率和準(zhǔn)確率。

綜合工程測試,是指在基本確定的一組特征集基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)模型進(jìn)行進(jìn)一步的綜合工程測試。例如,決策樹模型和隨機(jī)森林模型都可以給出特征重要性數(shù)值和排序,在這兩種模型上進(jìn)行測試時(shí)就可以綜合每一次的測試結(jié)果,淘汰一些排序低和數(shù)值低的特征,進(jìn)一步精簡特征集。

經(jīng)過上述四步特征選擇方法,得到一組相對比較準(zhǔn)確的加密流量特征集。在此基礎(chǔ)上,還要進(jìn)行特征之間的相關(guān)性分析,去除相關(guān)性較大的重復(fù)特征,這可以通過計(jì)算相關(guān)系數(shù)、互信息等方法實(shí)現(xiàn)。雖然去除重復(fù)特征對模型的預(yù)測效果并無太大提高,但是其主要目的是精簡特征集,減小模型復(fù)雜度,提高預(yù)測性能。

三、最終特征集

經(jīng)過特征抽取和特征選擇,最終得到四大類特征集:時(shí)空特征、握手特征、證書特征、背景特征。在這四大類基礎(chǔ)上,又分為 54 個(gè)子類、超過 1000 種特征。這些特征足夠細(xì)粒度地描述每一次加密會(huì)話,體現(xiàn)不同類加密流量的細(xì)微差別。

1. 時(shí)空特征

時(shí)空特征即前面提到的協(xié)議無關(guān)特征。“時(shí)” 指的是和時(shí)間相關(guān)的一組特征集,例如,流時(shí)長、包時(shí)間間隔等。“空” 指的是和包大小相關(guān)的一組特征集,例如,包大小轉(zhuǎn)移矩陣、熵值等。下圖分別是兩個(gè)示例:

特征工程/加密/流量安全

特征工程/加密/流量安全

2. 握手特征

握手特征即前面提到的協(xié)議有關(guān)特征之一,主要是和 SSL 協(xié)議相關(guān)的一組特征集,刻畫了客戶端和服務(wù)端在握手階段的一系列流量特征。例如,協(xié)議版本、支持的擴(kuò)展項(xiàng)等。下圖分別是兩個(gè)示例:

特征工程/加密/流量安全

3. 證書特征

證書特征即前面提到的協(xié)議有關(guān)特征之一,主要是和 x509 協(xié)議相關(guān)的一組特征集,刻畫了雙方使用的數(shù)字證書的一系列特征。例如,證書鏈長度、使用者正常度等。下圖分別是兩個(gè)示例:

特征工程/加密/流量安全

特征工程/加密/流量安全

4. 背景特征

背景特征是指從背景流量中提取并選擇的一類特征,如 DNS、HTTP 等背景流量特征,其中,DNS 背景流量特征主要反映在域名特征,HTTP 背景流量特征主要反映在 HTTP 協(xié)議頭內(nèi)容特征。下圖是一個(gè) DNS 類特征的示例:

特征工程/加密/流量安全

四、特征迭代

特征工程是一個(gè)不斷迭代更新的過程,上述內(nèi)容只是其中一個(gè)迭代的工作任務(wù),當(dāng)基礎(chǔ)數(shù)據(jù)種類和內(nèi)容發(fā)生變動(dòng)時(shí),需要及時(shí)對特征工程進(jìn)行再次循環(huán),不斷修正和完善特征集,在 “特征” 這個(gè)關(guān)鍵點(diǎn)上持續(xù)下功夫。

經(jīng)過以上四個(gè)步驟,加密惡意流量檢測的特征工程可以取得初步成效。經(jīng)過我們的實(shí)踐經(jīng)驗(yàn)總結(jié),需要特別強(qiáng)調(diào)的是,不止要在實(shí)驗(yàn)室數(shù)據(jù)驗(yàn)證與特征迭代方面不斷加以完善,更需要在多場景下的多數(shù)據(jù)源現(xiàn)網(wǎng)環(huán)境中充分驗(yàn)證和迭代,同時(shí)注意新出現(xiàn)的威脅流量數(shù)據(jù)的收集與驗(yàn)證,才有可能得到一個(gè)可投入實(shí)際應(yīng)用的加密惡意流量檢測機(jī)器學(xué)習(xí)模型。

【本文是51CTO專欄作者“李少鵬”的原創(chuàng)文章,轉(zhuǎn)載請通過安全牛(微信公眾號id:gooann-sectv)獲取授權(quán)】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2025-03-12 06:00:00

加密流量安全

2022-01-11 15:02:50

加密流量

2024-03-14 14:16:13

2022-04-15 11:51:48

Windows 11安全加密

2020-11-17 08:59:59

生物識別技術(shù)加密身份認(rèn)證

2022-05-12 15:54:43

機(jī)器學(xué)習(xí)加密流量分析安全

2023-12-14 12:42:42

2024-12-26 08:34:32

2022-12-12 16:15:19

圖像數(shù)據(jù)Python

2013-09-09 09:19:32

2011-01-11 13:58:32

WebLog ExpeWEB服務(wù)器流量記錄

2022-02-16 07:13:21

性能工程性能規(guī)劃

2022-02-10 08:44:52

Flutter通訊Name

2022-11-30 09:51:02

2021-10-10 12:43:44

惡意軟件加密流量網(wǎng)絡(luò)攻擊

2010-07-21 15:36:27

telnet-serv

2023-02-20 19:52:53

場景商品業(yè)務(wù)

2011-10-10 10:10:14

2009-07-22 14:43:36

2010-09-16 16:06:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號