網(wǎng)絡(luò)流量的自動化分析新方向
1. INTRODUCTION
在信息安全領(lǐng)域中,機(jī)器學(xué)習(xí)方法在流量分析中得到了廣泛的應(yīng)用。在應(yīng)用機(jī)器學(xué)習(xí)方法時(shí),許多方面決定著模型的表現(xiàn),如特征提取,模型選擇以及超參數(shù)調(diào)整。在本文中,作者提出了一種自動化應(yīng)用機(jī)器學(xué)習(xí)機(jī)器實(shí)現(xiàn)流量分析目標(biāo)的通用方法。這種方法依賴于對網(wǎng)絡(luò)流量的統(tǒng)一表示,通過將不同流量分析任務(wù)中的特征表示為統(tǒng)一的形式,結(jié)合自動機(jī)器學(xué)習(xí)方法,可以實(shí)現(xiàn)對網(wǎng)絡(luò)流量的自動化分析,而不依賴于大量的背景知識和人力成本。
本文的主要貢獻(xiàn)在于:
-
為自動化機(jī)器學(xué)習(xí)提供了一種新的方向。提出一種統(tǒng)一的網(wǎng)絡(luò)數(shù)據(jù)包表示方法nPrint。
-
將nPrint與自動機(jī)器學(xué)習(xí)工具相結(jié)合,提出nPrintML,實(shí)現(xiàn)了自動化流量分析。
-
使用nPrintML對8個(gè)不同的流量分析任務(wù)進(jìn)行案例分析,實(shí)驗(yàn)的結(jié)果表明nPrintML可以更好地獲取網(wǎng)絡(luò)流量的特征信息,nPrintML獲取的機(jī)器學(xué)習(xí)模型在性能上比傳統(tǒng)特征工程得到的機(jī)器學(xué)習(xí)模型更加優(yōu)越。
2. DATA REPRESENTATION
在應(yīng)用機(jī)器學(xué)習(xí)方法時(shí),對數(shù)據(jù)進(jìn)行編碼是非常重要的一環(huán)。為了實(shí)現(xiàn)上述提出的目標(biāo),數(shù)據(jù)編碼需要滿足以下要求:
-
Complete:由于nPrint實(shí)現(xiàn)的是一種統(tǒng)一數(shù)據(jù)編碼,而不依賴于專家知識,所以需要提取數(shù)據(jù)包包頭的所有信息。
-
Constant size per problem:對于機(jī)器學(xué)習(xí)模型,數(shù)據(jù)的輸入需要保持一致。
-
Inherently normalized:機(jī)器學(xué)習(xí)模型在歸一化后的數(shù)據(jù)上表現(xiàn)較好。
-
Aligned:不同數(shù)據(jù)包頭的同一部分在編碼后應(yīng)該位于同樣的位置。
Building a Standard Data Representation
在通用的網(wǎng)絡(luò)流量表示方法中,主要有語義表示法和非齊二進(jìn)制表示法,如圖:
這些方法都無法很好地滿足上述需求。為了解決這一問題,作者基于兩種方法的思想,將兩種方法進(jìn)行混合,提出nPrint:
3. NPRINTML
作者將nPrint與自動機(jī)器學(xué)習(xí)方法相結(jié)合,提出nPrintML,實(shí)現(xiàn)了機(jī)器學(xué)習(xí)自動化的流程,nPrintML的全部流程如下:
4. CASE STUDIES
使用nPrintML,作者對8個(gè)流量分析場景進(jìn)行實(shí)例分析,實(shí)驗(yàn)結(jié)果表明:nPrintML可以應(yīng)用于不同場景,獲得的模型較傳統(tǒng)方法得到的模型性能更好:完整的實(shí)驗(yàn)結(jié)果如下: