自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

再續(xù)面向跨語言的操作系統(tǒng)日志異常檢測技術(shù)研究與實現(xiàn)

作者：余冬清侯瀟為 2022-07-28 13:18:48

安全數(shù)據(jù)安全

LaBSE模型由兩個共享參數(shù)的12層堆疊雙向Transformer編碼器組成，包括 768個隱藏層和一億一千萬個參數(shù)組成，主要是基于注意力機制實現(xiàn)的。

?日志異常檢測相關(guān)概念定義

定義1-1：原始日志。如圖1.1所示，原始日志由操作系統(tǒng)的日志打印語句輸出，由常量和變量部分組成，其中常量部分是指程序代碼中定義的用于描述當(dāng)前程序的行為或功能的固定的關(guān)鍵詞，如start、fail、success、port等，變量部分是指程序運行過程中產(chǎn)生的用于描述系統(tǒng)運行狀態(tài)的變量參數(shù)等，例如，IP地址、文件路徑、端口號、uid等參數(shù)。

圖 1.1 原始日志

定義1-2：日志模板。日志模板是使用日志解析技術(shù)將原始日志中的變量部分用占位符<*>標(biāo)識，常量部分保留后形成的結(jié)構(gòu)化文本信息。

定義1-3：模板編號。模板編號(????)是用來標(biāo)識日志模板的唯一標(biāo)識符，值是除0以外的任意一個自然數(shù)通常用日志模板的索引下標(biāo)表示，同類型的日志模板對應(yīng)同一標(biāo)識符，模板標(biāo)號相同。

定義1-4：日志序列(Log Sequences)。日志序列由按執(zhí)行時間先后順序排列的日志組成，日志序列的長度指該日志序列中所含日志的數(shù)量。

定義1-5：日志異常。偏離正常執(zhí)行模式的日志序列被稱為異常日志序列。

定義1-6：序列分割。由于日志序列是一段時間內(nèi)所有日志按照時間順序形成的長序列，需要按照某種序列劃分方式將長日志序列切割為短序列。常用的序列分割方式有三種，分別是會話窗口(Session Window)、固定窗口(Fixed Window)和滑動窗口(Sliding Window)[1]。如圖1.2所示，會話窗口把屬于同一主體的日志劃分到同一個會話中，例如，使用會話窗口的方式對HDFS數(shù)據(jù)集進行切割時，就將屬于同一個塊(Block)的日志切分為一組。固定窗口和滑動窗口都是以時間段對日志進行切割，固定窗口默認將一個時間周期Δ??內(nèi)的所有日志作為一組序列，但是這種方法會導(dǎo)致同一個序列內(nèi)日志時間跨度過大，降低了序列內(nèi)日志的關(guān)聯(lián)性?；瑒哟翱谠谠O(shè)計時增加了一個步長Δ??，先對序列按照Δ??劃分出一個子序列，再以Δ??為步長向后滑動在整個序列上進行切割，當(dāng)Δ?? = Δ??時，滑動窗口方法便等同于固定窗口方法。

圖1.2日志序列分割方式，(a)為會話窗口，(b)為固定窗口，(c)為滑動窗口

日志收集技術(shù)

現(xiàn)有的日志收集方法在對日志數(shù)據(jù)進行采集時，主要包括推送和拉取兩種采集方式[2]。拉取方式是指在日志收集服務(wù)器按照相關(guān)協(xié)議規(guī)定的傳輸方式，拉取客戶端的日志數(shù)據(jù)到服務(wù)端進行存儲分析等工作;推送方式是指在客戶端在開啟相應(yīng)的網(wǎng)絡(luò)端口后使用對應(yīng)的傳輸協(xié)議將日志推送到日志收集服務(wù)器上進行后續(xù)的存儲分析等工作。

Drain日志解析算法

本節(jié)對比了14種日志解析方法的性能，包括AEL[3]、Drain[4]、IPLoM[5]、LenMA[6]、LFA[7]、LKE[8]、LogCluster[9]、LogMine[10]、LogSig[11]、MoLFI[12]、NuLog[13]、SHISO[14]、SLCT[15]、SPELL[16]。上述算法對2000條日志處理性能對比如表1.3所示，2000條日志應(yīng)被解析為118個日志模板。

表1.3日志解析算法性能對比

從表中可以看出，Drain的算法準(zhǔn)確率最好，解析速度位于前三名，結(jié)合國產(chǎn)操作系統(tǒng)日志的特點，本文最終采用了Drain的解析思想對日志進行模板抽取。

LaBSE預(yù)訓(xùn)練模型

LaBSE模型由兩個共享參數(shù)的12層堆疊雙向Transformer編碼器組成，包括 768個隱藏層和一億一千萬個參數(shù)組成，主要是基于注意力機制實現(xiàn)的。

（1）自注意力機制

注意力機制(Attention Mechanism，AM)附加在神經(jīng)網(wǎng)絡(luò)的隱藏層之上，它可以了解隱藏層的輸出單元中各個值的重要性，并動態(tài)的地調(diào)整它們的權(quán)重。將注意力機制應(yīng)用于序列編碼時，具體步驟如下。第一步是將每個編碼器輸入向量與三個權(quán)重矩陣(W(Q)、W(K)、W(V))進行矩陣相乘運算，得到三個向量: 鍵向量(Key)、查詢向量(Query)和值向量(Value)。第二步是將當(dāng)前輸入的查詢向量(Q)與其他輸入的鍵向量(K)相乘。在第三步中將上述計算結(jié)果除以鍵向量的平方根。接下來，用softmax函數(shù)對計算被查詢的詞的所有注意力權(quán)重，將值向量(V)與上一步經(jīng)過softmax計算的向量相乘。在最后一步中，將在上一步中得到的加權(quán)值向量相加，得到給定單詞的自注意力輸出。

（2）Transformer

Transformer實現(xiàn)了編碼器-解碼器(Encoder-Decoder)模塊，其完全依賴于每個編碼器和解碼器中的多頭自注意力機制，已經(jīng)被證明在解決句法解析和語言翻譯等自然語言處理領(lǐng)域方面表現(xiàn)出色。

（3）模型預(yù)訓(xùn)練

LaBSE使用CommonCrawl1和Wikipedia2作為單語訓(xùn)練數(shù)據(jù)集，使用雙文本挖掘系統(tǒng)構(gòu)建的語料庫經(jīng)過對比數(shù)據(jù)選擇(Contrastive Data Selection，CDS)評分模型過濾后作為雙語訓(xùn)練數(shù)據(jù)集。LaBSE執(zhí)行的語言建模遵循兩種不同的策略：掩碼語言模型(Mask Language Model，MLM)和翻譯語言模型(Translation Language Model，TLM)。

雙向長短時間記憶網(wǎng)絡(luò)

為了解決RNN在訓(xùn)練過程中會出現(xiàn)梯度消失或者梯度爆炸的問題，長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network， LSTM)[17]引入了遺忘門機制，遺忘門由學(xué)習(xí)的權(quán)重和一個類似于激活函數(shù)的函數(shù)組成，該函數(shù)決定要記住或忘記什么，實現(xiàn)長期記憶功能，LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1.4所示。

圖1.4 LSTM神經(jīng)單元

雙向長短期記憶網(wǎng)絡(luò)(Bi-Directional Long Short-Term Memory Network，Bi- LSTM)基于LSTM的網(wǎng)絡(luò)組織結(jié)構(gòu)，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.5所示。在Bi-LSTM中，輸入序列信息不僅能向前傳遞，還能向后傳遞，最終網(wǎng)絡(luò)輸出的向量是對兩個LSTM層向量進行加法運算、均值運算或拼接的方式得到的。

圖1.5 Bi-LSTM 結(jié)構(gòu)

層級注意力機制

注意力機制提出之后，被廣泛應(yīng)用于深度學(xué)習(xí)的各個領(lǐng)域中。在自然語言處理任務(wù)中，注意力機制可以捕獲句子中長距離的相互依賴，學(xué)習(xí)在同一個句子內(nèi)各個單詞間產(chǎn)生的聯(lián)系，獲得句子在單詞級別的注意力權(quán)重。文本是由句子構(gòu)成的，而句子是由單詞構(gòu)成的，單層注意力機制無法獲得句子級別的注意力權(quán)重。因此，層級注意力模型(Hierarchical Attention Network，HAN)利用分層次的注意力機制來構(gòu)建文本向量表示，其整體結(jié)構(gòu)如圖1.6所示。

圖1.6層級注意力機制

對于日志序列異常檢測任務(wù)來說，本文把一條日志模板視為一個自然句，將一個時間窗口內(nèi)的日志序列視為由多個日志模板組成的文本，將層級注意力機制應(yīng)用于對日志序列的二分類任務(wù)中。

參考文獻

[1]張宏業(yè).基于局部信息抽取和全局稀疏化Transformer的日志序列異常檢測 [EB/OL].哈爾濱工業(yè)大學(xué), 2021.DOI:10.27061/d.cnki.ghgdu.2021.000611.

[2]Chuvakin A, Schmidt K, Phillips C. Logging and log management: the authoritative guide to understanding the concepts surrounding logging and log management [M]. Newnes, 2012.

[3]Xu W, Huang L, Fox A, et al. Detecting large-scale system problems by mining console logs [C]//Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles. 2009: 117-132.

[4]He P, Zhu J, Zheng Z, et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree [C]//2017 IEEE International Conference on Web Services (ICWS). Honolulu, HI, USA: IEEE, 2017: 33-40.

[5]Makanju A A, Zincir-Heywood A N, Milios E E. Clustering event logs using iterative partitioning [C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’09. Paris, France: ACM Press, 2009: 1255.

[6]Shima K. Length matters: Clustering system log messages using length of words [EB/OL]. 2016. arXivpreprintarXiv:1611.03213.

[7]NandiA,MandalA,AtrejaS,etal.Anomaly detection using program control flow graph mining from execution logs [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016: 215-224.

[8]Fu Q, Lou J G, Wang Y, et al. Execution Anomaly Detection in Distributed Systems through Unstructured Log Analysis [C]//2009 Ninth IEEE International Conference on Data Mining. Miami Beach, FL, USA: IEEE, 2009: 149-158.

[9]VaarandiR,PihelgasM.LogCluster-A data clustering and pattern mining algorithm for event logs [C]//2015 11th International Conference on Network and Service Management (CNSM). Barcelona, Spain: IEEE, 2015: 1-7.

[10] Hamooni H, Debnath B, Xu J, et al. LogMine: Fast Pattern Recognition for Log Analytics [C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. Indianapolis Indiana USA: ACM, 2016: 1573-1582.

[11] Tang L, Li T, Perng C S. LogSig: generating system events from raw textual logs [C]// Proceedings of the 20th ACM international conference on Information and knowledge man- agement - CIKM ’11. Glasgow, Scotland, UK: ACM Press, 2011: 785.

[12] MessaoudiS,PanichellaA,BianculliD,etal.Asearch-based approach for accurate identification of log message formats [C]//2018 IEEE/ACM 26th International Conference on Program Comprehension (ICPC). IEEE, 2018: 167-16710.

[13]ZhuJ,HeS,LiuJ,etal.Toolsandbenchmarksforautomatedlogparsing[C]//2019IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP). IEEE, 2019: 121-130.

[14] Mizutani M. Incremental mining of system log format [C]//2013 IEEE International Conference on Services Computing. IEEE, 2013: 595-602.

[15] Nagappan M, Vouk M A. Abstracting log lines to log event types for mining software system logs [C]//2010 7th IEEE Working Conference on Mining Software Repositories (MSR 2010). IEEE, 2010: 114-117.

[16]DuM,LiF.Spell:StreamingParsingofSystemEventLogs[C]//2016 IEEE 16th International Conference on Data Mining (ICDM). Barcelona, Spain: IEEE, 2016: 859-864.

[17] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in neural information processing systems, 2017, 30.?

責(zé)任編輯：武曉燕來源：中國保密協(xié)會科學(xué)技術(shù)分會

系統(tǒng)日志編碼器

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="otxbh"><p id="otxbh"></p></sub>

<sub id="otxbh"><p id="otxbh"></p></sub>

<sub id="otxbh"></sub><sub id="otxbh"></sub>