自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再續(xù)面向跨語言的操作系統(tǒng)日志異常檢測技術(shù)研究與實現(xiàn)

安全 數(shù)據(jù)安全
LaBSE模型由兩個共享參數(shù)的12層堆疊雙向Transformer編碼器組成,包括 768個隱藏層和一億一千萬個參數(shù)組成,主要是基于注意力機制實現(xiàn)的。

?日志異常檢測相關(guān)概念定義

定義1-1:原始日志。如圖1.1所示,原始日志由操作系統(tǒng)的日志打印語句輸出,由常量和變量部分組成,其中常量部分是指程序代碼中定義的用于描述當(dāng)前程序的行為或功能的固定的關(guān)鍵詞,如start、fail、success、port等,變量部分是指程序運行過程中產(chǎn)生的用于描述系統(tǒng)運行狀態(tài)的變量參數(shù)等,例如,IP地址、文件路徑、端口號、uid等參數(shù)。

圖片

圖 1.1 原始日志

定義1-2:日志模板。日志模板是使用日志解析技術(shù)將原始日志中的變量部分用占位符<*>標(biāo)識,常量部分保留后形成的結(jié)構(gòu)化文本信息。

定義1-3:模板編號。模板編號(????)是用來標(biāo)識日志模板的唯一標(biāo)識符,值是除0以外的任意一個自然數(shù)通常用日志模板的索引下標(biāo)表示,同類型的日志模板對應(yīng)同一標(biāo)識符,模板標(biāo)號相同。

定義1-4:日志序列(Log Sequences)。日志序列由按執(zhí)行時間先后順序排列的日志組成,日志序列的長度指該日志序列中所含日志的數(shù)量。

定義1-5:日志異常。偏離正常執(zhí)行模式的日志序列被稱為異常日志序列。

定義1-6:序列分割。由于日志序列是一段時間內(nèi)所有日志按照時間順序形成的長序列,需要按照某種序列劃分方式將長日志序列切割為短序列。常用的序列分割方式有三種,分別是會話窗口(Session Window)、固定窗口(Fixed Window)和滑動窗口(Sliding Window)[1]。如圖1.2所示,會話窗口把屬于同一主體的日志劃分到同一個會話中,例如,使用會話窗口的方式對HDFS數(shù)據(jù)集進行切割時,就將屬于同一個塊(Block)的日志切分為一組。固定窗口和滑動窗口都是以時間段對日志進行切割,固定窗口默認將一個時間周期Δ??內(nèi)的所有日志作為一組序列,但是這種方法會導(dǎo)致同一個序列內(nèi)日志時間跨度過大,降低了序列內(nèi)日志的關(guān)聯(lián)性?;瑒哟翱谠谠O(shè)計時增加了一個步長Δ??,先對序列按照Δ??劃分出一個子序列,再以Δ??為步長向后滑動在整個序列上進行切割,當(dāng)Δ?? = Δ??時,滑動窗口方法便等同于固定窗口方法。

圖片

圖1.2日志序列分割方式,(a)為會話窗口,(b)為固定窗口,(c)為滑動窗口

日志收集技術(shù)

現(xiàn)有的日志收集方法在對日志數(shù)據(jù)進行采集時,主要包括推送和拉取兩種采集方式[2]。拉取方式是指在日志收集服務(wù)器按照相關(guān)協(xié)議規(guī)定的傳輸方式,拉取客戶端的日志數(shù)據(jù)到服務(wù)端進行存儲分析等工作;推送方式是指在客戶端在開啟相應(yīng)的網(wǎng)絡(luò)端口后使用對應(yīng)的傳輸協(xié)議將日志推送到日志收集服務(wù)器上進行后續(xù)的存儲分析等工作。

Drain日志解析算法

本節(jié)對比了14種日志解析方法的性能,包括AEL[3]、Drain[4]、IPLoM[5]、LenMA[6]、LFA[7]、LKE[8]、LogCluster[9]、LogMine[10]、LogSig[11]、MoLFI[12]、NuLog[13]、SHISO[14]、SLCT[15]、SPELL[16]。上述算法對2000條日志處理性能對比如表1.3所示,2000條日志應(yīng)被解析為118個日志模板。

表1.3日志解析算法性能對比

圖片

從表中可以看出,Drain的算法準(zhǔn)確率最好,解析速度位于前三名,結(jié)合國產(chǎn)操作系統(tǒng)日志的特點,本文最終采用了Drain的解析思想對日志進行模板抽取。 

LaBSE預(yù)訓(xùn)練模型

LaBSE模型由兩個共享參數(shù)的12層堆疊雙向Transformer編碼器組成,包括 768個隱藏層和一億一千萬個參數(shù)組成,主要是基于注意力機制實現(xiàn)的。

(1)自注意力機制

注意力機制(Attention Mechanism,AM)附加在神經(jīng)網(wǎng)絡(luò)的隱藏層之上,它可以了解隱藏層的輸出單元中各個值的重要性,并動態(tài)的地調(diào)整它們的權(quán)重。將注意力機制應(yīng)用于序列編碼時,具體步驟如下。第一步是將每個編碼器輸入向量與三個權(quán)重矩陣(W(Q)、W(K)、W(V))進行矩陣相乘運算,得到三個向量: 鍵向量(Key)、查詢向量(Query)和值向量(Value)。第二步是將當(dāng)前輸入的查詢向量(Q)與其他輸入的鍵向量(K)相乘。在第三步中將上述計算結(jié)果除以鍵向量的平方根。接下來,用softmax函數(shù)對計算被查詢的詞的所有注意力權(quán)重,將值向量(V)與上一步經(jīng)過softmax計算的向量相乘。在最后一步中,將在上一步中得到的加權(quán)值向量相加,得到給定單詞的自注意力輸出。

(2)Transformer

Transformer實現(xiàn)了編碼器-解碼器(Encoder-Decoder)模塊,其完全依賴于每個編碼器和解碼器中的多頭自注意力機制,已經(jīng)被證明在解決句法解析和語言翻譯等自然語言處理領(lǐng)域方面表現(xiàn)出色。

(3)模型預(yù)訓(xùn)練

LaBSE使用CommonCrawl1和Wikipedia2作為單語訓(xùn)練數(shù)據(jù)集,使用雙文本挖掘系統(tǒng)構(gòu)建的語料庫經(jīng)過對比數(shù)據(jù)選擇(Contrastive Data Selection,CDS)評分模型過濾后作為雙語訓(xùn)練數(shù)據(jù)集。LaBSE執(zhí)行的語言建模遵循兩種不同的策略:掩碼語言模型(Mask Language Model,MLM)和翻譯語言模型(Translation Language Model,TLM)。

雙向長短時間記憶網(wǎng)絡(luò)

為了解決RNN在訓(xùn)練過程中會出現(xiàn)梯度消失或者梯度爆炸的問題,長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network, LSTM)[17]引入了遺忘門機制,遺忘門由學(xué)習(xí)的權(quán)重和一個類似于激活函數(shù)的函數(shù)組成,該函數(shù)決定要記住或忘記什么,實現(xiàn)長期記憶功能,LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1.4所示。

圖片

圖1.4 LSTM神經(jīng)單元

圖片

雙向長短期記憶網(wǎng)絡(luò)(Bi-Directional Long Short-Term Memory Network,Bi- LSTM)基于LSTM的網(wǎng)絡(luò)組織結(jié)構(gòu),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.5所示。在Bi-LSTM中,輸入序列信息不僅能向前傳遞,還能向后傳遞,最終網(wǎng)絡(luò)輸出的向量是對兩個LSTM層向量進行加法運算、均值運算或拼接的方式得到的。

圖片

圖1.5 Bi-LSTM 結(jié)構(gòu)

層級注意力機制

注意力機制提出之后,被廣泛應(yīng)用于深度學(xué)習(xí)的各個領(lǐng)域中。在自然語言處理任務(wù)中,注意力機制可以捕獲句子中長距離的相互依賴,學(xué)習(xí)在同一個句子內(nèi)各個單詞間產(chǎn)生的聯(lián)系,獲得句子在單詞級別的注意力權(quán)重。文本是由句子構(gòu)成的,而句子是由單詞構(gòu)成的,單層注意力機制無法獲得句子級別的注意力權(quán)重。因此,層級注意力模型(Hierarchical Attention Network,HAN)利用分層次的注意力機制來構(gòu)建文本向量表示,其整體結(jié)構(gòu)如圖1.6所示。 

圖片

圖1.6層級注意力機制

對于日志序列異常檢測任務(wù)來說,本文把一條日志模板視為一個自然句,將一個時間窗口內(nèi)的日志序列視為由多個日志模板組成的文本,將層級注意力機制應(yīng)用于對日志序列的二分類任務(wù)中。 

參考文獻

[1]張宏業(yè).基于局部信息抽取和全局稀疏化Transformer的日志序列異常檢測 [EB/OL].哈爾濱工業(yè)大學(xué), 2021.DOI:10.27061/d.cnki.ghgdu.2021.000611.

[2]Chuvakin A, Schmidt K, Phillips C. Logging and log management: the authoritative guide to understanding the concepts surrounding logging and log management [M]. Newnes, 2012.

[3]Xu W, Huang L, Fox A, et al. Detecting large-scale system problems by mining console logs [C]//Proceedings of the ACM SIGOPS 22nd symposium on Operating systems principles. 2009: 117-132.

[4]He P, Zhu J, Zheng Z, et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree [C]//2017 IEEE International Conference on Web Services (ICWS). Honolulu, HI, USA: IEEE, 2017: 33-40.

[5]Makanju A A, Zincir-Heywood A N, Milios E E. Clustering event logs using iterative partitioning [C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD ’09. Paris, France: ACM Press, 2009: 1255.

[6]Shima K. Length matters: Clustering system log messages using length of words [EB/OL]. 2016. arXivpreprintarXiv:1611.03213.

[7]NandiA,MandalA,AtrejaS,etal.Anomaly detection using program control flow graph mining from execution logs [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016: 215-224.

[8]Fu Q, Lou J G, Wang Y, et al. Execution Anomaly Detection in Distributed Systems through Unstructured Log Analysis [C]//2009 Ninth IEEE International Conference on Data Mining. Miami Beach, FL, USA: IEEE, 2009: 149-158.

[9]VaarandiR,PihelgasM.LogCluster-A data clustering and pattern mining algorithm for event logs [C]//2015 11th International Conference on Network and Service Management (CNSM). Barcelona, Spain: IEEE, 2015: 1-7.

[10] Hamooni H, Debnath B, Xu J, et al. LogMine: Fast Pattern Recognition for Log Analytics [C]//Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. Indianapolis Indiana USA: ACM, 2016: 1573-1582.

[11] Tang L, Li T, Perng C S. LogSig: generating system events from raw textual logs [C]// Proceedings of the 20th ACM international conference on Information and knowledge man- agement - CIKM ’11. Glasgow, Scotland, UK: ACM Press, 2011: 785.

[12] MessaoudiS,PanichellaA,BianculliD,etal.Asearch-based approach for accurate identification of log message formats [C]//2018 IEEE/ACM 26th International Conference on Program Comprehension (ICPC). IEEE, 2018: 167-16710.

[13]ZhuJ,HeS,LiuJ,etal.Toolsandbenchmarksforautomatedlogparsing[C]//2019IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP). IEEE, 2019: 121-130.

[14] Mizutani M. Incremental mining of system log format [C]//2013 IEEE International Conference on Services Computing. IEEE, 2013: 595-602.

[15] Nagappan M, Vouk M A. Abstracting log lines to log event types for mining software system logs [C]//2010 7th IEEE Working Conference on Mining Software Repositories (MSR 2010). IEEE, 2010: 114-117.

[16]DuM,LiF.Spell:StreamingParsingofSystemEventLogs[C]//2016 IEEE 16th International Conference on Data Mining (ICDM). Barcelona, Spain: IEEE, 2016: 859-864.

[17] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in neural information processing systems, 2017, 30.?

責(zé)任編輯:武曉燕 來源: 中國保密協(xié)會科學(xué)技術(shù)分會
相關(guān)推薦

2022-07-27 08:25:13

語言操作系統(tǒng)日志

2009-01-20 14:47:19

ETL數(shù)據(jù)集成技術(shù)研究

2011-05-30 17:21:58

軟件測試

2011-11-30 21:54:11

ibmdwDominoSAP

2023-06-19 07:08:22

結(jié)構(gòu)化數(shù)據(jù)ChatGPT

2022-11-02 07:23:06

2017-02-06 13:31:11

調(diào)度技術(shù)集群

2020-10-29 12:59:57

國產(chǎn)生態(tài)網(wǎng)絡(luò)

2018-11-19 13:44:39

2012-11-07 14:00:05

2022-05-31 10:11:55

金融行業(yè)云原生眾邦銀行

2017-07-03 15:22:51

達觀數(shù)據(jù)技術(shù)研究

2010-04-15 15:21:43

Unix操作系統(tǒng)

2010-01-18 22:54:40

2015-01-19 14:14:59

dockercoreosvagrant

2013-05-06 17:08:00

Linux操作系統(tǒng)異常處理

2022-02-18 16:28:19

VR/AR交互互聯(lián)網(wǎng)

2019-08-01 13:28:07

AR智能交通可視化

2009-12-11 17:55:59

Linux操作系統(tǒng)

2010-04-20 15:36:01

Linux多點觸摸
點贊
收藏

51CTO技術(shù)棧公眾號