自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

面向跨語言的操作系統(tǒng)日志異常檢測技術(shù)研究與實(shí)現(xiàn)

系統(tǒng) 其他OS
隨著國產(chǎn)化生態(tài)的不斷成熟,越來越多的應(yīng)用和服務(wù)構(gòu)建在國產(chǎn)操作系統(tǒng)上。同時(shí),信息系統(tǒng)面臨的惡意攻擊、內(nèi)部威脅以及數(shù)據(jù)泄露風(fēng)險(xiǎn)增加,給個(gè)人和國家信息安全造成了很大的威脅。

日志異常檢測技術(shù)背景及意義

在信息化技術(shù)飛快發(fā)展的今天,計(jì)算機(jī)網(wǎng)絡(luò)規(guī)模越來越大,無論是金融、電信、能源行業(yè),還是工業(yè)制造、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等,都非常依賴網(wǎng)絡(luò)。政府、各大企業(yè)、金融機(jī)構(gòu)和科研院校所等企事業(yè)單位的業(yè)務(wù)大都建立在計(jì)算機(jī)網(wǎng)絡(luò)之上。隨著信創(chuàng)產(chǎn)業(yè)的蓬勃發(fā)展,國產(chǎn)操作系統(tǒng)依托開源生態(tài)和政策東風(fēng)正快速崛起,涌現(xiàn)出了一大批以 Linux為主要架構(gòu)為國產(chǎn)操作系統(tǒng),如中科方德、銀河麒麟、深度 Deepin、華為鴻蒙等,未來的廣闊發(fā)展前景值得期待。但是由于國產(chǎn)操作系統(tǒng)剛剛起步,生態(tài)還不成熟,系統(tǒng)會(huì)面臨各種各樣的惡意攻擊、內(nèi)部威脅以及數(shù)據(jù)泄露等等,這些惡意行為造成的損失是非常巨大的,給個(gè)人和國家信息安全也造成了很大的威脅。

操作系統(tǒng)運(yùn)行過程如圖1所示,故障根因出現(xiàn)導(dǎo)致系統(tǒng)運(yùn)行狀態(tài)異常,在異常出現(xiàn)一段時(shí)間后導(dǎo)致系統(tǒng)發(fā)生故障,通過系統(tǒng)修復(fù)恢復(fù)系統(tǒng)正常運(yùn)行狀態(tài),這些事件發(fā)生是有先后順序的。因此,為了阻止或規(guī)避故障發(fā)生,減少故障造成的損失,當(dāng)務(wù)之急是設(shè)計(jì)一套行之有效的操作系統(tǒng)運(yùn)行狀態(tài)檢測方法,維持操作系統(tǒng)正常運(yùn)轉(zhuǎn)。

圖片

圖 1 系統(tǒng)運(yùn)行狀態(tài)圖

操作系統(tǒng)運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)可以表征系統(tǒng)的運(yùn)行狀態(tài),通過對這些數(shù)據(jù)進(jìn)行挖掘分析,可以對系統(tǒng)異常運(yùn)行狀態(tài)進(jìn)行診斷。系統(tǒng)運(yùn)行狀態(tài)監(jiān)控的數(shù)據(jù)源主要是KPI(Key Performance Indicator)數(shù)據(jù)。例如,CPU 使用狀態(tài)、磁盤IO狀態(tài)、文件分區(qū)狀態(tài)、網(wǎng)絡(luò)接口狀態(tài)、進(jìn)程狀態(tài)及內(nèi)存使用狀態(tài)等,這類數(shù)據(jù)反映了操作系統(tǒng)內(nèi)各類資源的使用情況。但是現(xiàn)實(shí)中,隨著監(jiān)控的對象增多,比如服務(wù)器、虛擬機(jī)、容器、硬盤、TOR 交換機(jī)、聚合交換機(jī)、路由器、數(shù)據(jù)庫、中間件等,出現(xiàn)的故障類型也越來越多,很多異常情況與 KPI 數(shù)據(jù)異常并無一一對應(yīng)的關(guān)聯(lián)關(guān)系。因此需要對系統(tǒng)進(jìn)行更加詳細(xì)精準(zhǔn)的監(jiān)控,操作系統(tǒng)的運(yùn)行狀態(tài)日志數(shù)據(jù)就是一種極好的監(jiān)控?cái)?shù)據(jù)源。日志數(shù)據(jù)通常是系統(tǒng)開發(fā)人員在應(yīng)用程序開發(fā)時(shí)根據(jù)程序執(zhí)行邏輯就已經(jīng)嵌入了相關(guān)打印輸出語句,是應(yīng)用程序在運(yùn)行過程中調(diào)用打印語句對變量信息和程序執(zhí)行狀態(tài)進(jìn)行記錄的一類數(shù)據(jù),記錄了異?;蚬收习l(fā)生時(shí)的上下文信息[1]。

目前基于國產(chǎn)操作系統(tǒng)日志進(jìn)行異常檢測的研究還很少。一方面,隨著操作系統(tǒng)和應(yīng)用程序的復(fù)雜程度越來越高,傳統(tǒng)的基于關(guān)鍵字匹配或者靜態(tài)規(guī)則匹配的方式只能檢測到現(xiàn)有的異常事件,缺乏靈活性,容易產(chǎn)生漏報(bào)警。另一方面,使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等自動(dòng)化的檢測方法對日志進(jìn)行異常分析時(shí),首要工作是將非結(jié)構(gòu)化的日志文本解析成結(jié)構(gòu)化信息后進(jìn)行日志向量化工作。為了增加程序開發(fā)人員以及用戶對日志的可讀性,國產(chǎn)操作系統(tǒng)中添加了中文日志,這種跨語言的日志文本的表征工作是目前日志異常檢測研究工作的一大挑戰(zhàn)。另 外,如何充分結(jié)合日志數(shù)據(jù)特性對日志異常檢測任務(wù)進(jìn)行優(yōu)化和改進(jìn),提升模型的檢測性能是目前研究的另一大挑戰(zhàn)?,F(xiàn)有異常檢測算法大多關(guān)注的異常種類不同,因此適用范圍也各不相同?;诖耍疚脑诂F(xiàn)有對日志研究的基礎(chǔ)上,通過分析國產(chǎn)操作系統(tǒng)日志文本數(shù)據(jù)的特征,利用數(shù)據(jù)挖掘分析手段,建立異常檢測模型,以提高跨語言日志異常檢測方法的效率和性能。

常用的日志異常檢測方法一般有四個(gè)關(guān)鍵步驟,如圖2所示。首先是日志采集,這里使用日志收集系統(tǒng)采集到的日志數(shù)據(jù)大都是非結(jié)構(gòu)化的文本形式進(jìn)行存儲,接下來進(jìn)行日志解析工作,通過日志模板抽取的方式,提取日志文本中的常量部分,把原始日志記錄處理成結(jié)構(gòu)化信息;下一步是特征選擇,通過對日志數(shù)據(jù)特點(diǎn)進(jìn)行分析,選取合適的特征對日志進(jìn)行向量化的表征;最后是異常檢測模型構(gòu)建[2]。本章將對日志解析、特征提取、異常檢測三種關(guān)鍵技術(shù)的研究現(xiàn)狀進(jìn)行論述。

圖片

圖 2 日志異常檢測流程

日志解析方法

現(xiàn)有的研究提出了許多自動(dòng)的日志解析方法,解析技術(shù)可以從技術(shù)、操作方式、預(yù)處理等方面進(jìn)行區(qū)分為以下五類:聚類、頻繁項(xiàng)挖掘、組合優(yōu)化算法、啟發(fā)式方法以及最長子序列[3]。

(1)聚類。聚主要是基于一個(gè)假設(shè),即相同或者說相似的日志消息類型會(huì)出現(xiàn)在同一組日志中,通過對字符串匹配的距離進(jìn)行度量實(shí)現(xiàn)聚類的效果。例如,LogSig[4]是一種基于消息簽名的算法,為每條日志消息搜索最合適的消息簽名,充分利用領(lǐng)域知識來確定日志集合的數(shù)量。

(2)頻繁項(xiàng)挖掘。頻繁項(xiàng)挖掘的方法基于一個(gè)假設(shè),把模板看作是一組頻繁出現(xiàn)在日志中的token的集合。解析過程包括創(chuàng)建頻繁項(xiàng)集、對日志消息分組和提取日志模板三個(gè)步驟。這種方法的具有代表性的解析器有SLCT[5]、LFA[6]和LogCluster[7]。

(3)組合優(yōu)化算法。MoLFI[8]使用遺傳算法來找到最優(yōu)日志消息模板集。

(4)啟發(fā)式方法。該方法通過挖掘日志結(jié)構(gòu)中不同的特性以獲得最好的結(jié)果。設(shè)計(jì)了Drain[9]假設(shè)在日志的開頭,單詞不會(huì)有太多變化。

(5)最長公共子序列。Spell[10]使用最長公共子序列算法(Longest Common Subsequence,LCS)從傳入的日志中動(dòng)態(tài)提取日志模板。

日志特征提取方法

日志特征提取方法包括三種,分別是基于規(guī)則、基于統(tǒng)計(jì)和基于自然語言處理的特征提取方法[11]。

(1)基于規(guī)則的方法主要針對具有固定格式的日志,通過關(guān)鍵詞提取或者規(guī)則過濾等方式,編寫正則表達(dá)式對日志文本進(jìn)行切割,按照日志格式區(qū)分成不同的域,轉(zhuǎn)化成結(jié)構(gòu)化日志之后進(jìn)而對特征進(jìn)行提取。Chuah等人提出基于規(guī)則的方法,對具有特定格式的關(guān)系型日志進(jìn)行特征提取[12]。

(2)基于統(tǒng)計(jì)的方法通常是基于日志模板實(shí)現(xiàn)的,統(tǒng)計(jì)每個(gè)日志模板在日志序列中的出現(xiàn)的次數(shù),作為日志序列統(tǒng)計(jì)特征,將日志序列表征為用模板計(jì)數(shù)向量。陳傳文等人基于模板計(jì)數(shù)向量的變化情況對日志是否異常進(jìn)行判定,使用絕對中位差(Median Absolute Deviation,MAD)對模板計(jì)數(shù)是否突變進(jìn)行度量[13]。

(3)基于自然語言處理的方法認(rèn)為日志文本是由程序打印輸出語句的產(chǎn)生的,可以看作是自然語言中的一段話,因此可以使用自然語言處理的方法對日志特征進(jìn)行提取?;谧匀徽Z言處理的日志特征提取通常使用以下三種模型:N-gram、Word Count和TF-IDF(Term Frequency-Inverse Document Frequency)[14]。Sopola等人使用N-gram模型首先將日志模板劃分為一個(gè)個(gè)token,統(tǒng)計(jì)該模板中包含的所有連續(xù)n個(gè)token組成的序列,這些序列也被稱為N-gram,統(tǒng)計(jì)每個(gè)N-gram在所有日志模板集合中出現(xiàn)的次數(shù),即為日志序列的統(tǒng)計(jì)特征。

日志異常檢測方法

目前,許多學(xué)者將數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)應(yīng)用于異常檢測,并實(shí)現(xiàn)了更高效的智能運(yùn)維和診斷。由于日志數(shù)據(jù)來源多種多樣,不同系統(tǒng)的日志格式也不盡相同,具有不同的結(jié)構(gòu)特點(diǎn)。從檢測方法的實(shí)現(xiàn)方式來說,對日志進(jìn)行異常檢測時(shí)可以區(qū)分為有監(jiān)督的日志異常檢測方法和無監(jiān)督的日志異常檢測方法。

(1)有監(jiān)督的日志異常檢測方法:使用有監(jiān)督的方法對日志異常檢測時(shí),訓(xùn)練樣本中同時(shí)包含正常和異常日志,通過對該樣本進(jìn)行訓(xùn)練學(xué)習(xí)后得到一個(gè)分類模型,輸入未知的日志,通過分類模型對日志進(jìn)行二分類,輸出為日志的類別,即正常或異常。

(2)無監(jiān)督的日志異常檢測方法:該方法在建模時(shí)不需要對有異常標(biāo)簽的日志序列進(jìn)行訓(xùn)練,而是學(xué)習(xí)日志數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律。例如,日志的統(tǒng)計(jì)特征和語義特征。基于統(tǒng)計(jì)特征的方法通常將日志序列表征為模板統(tǒng)計(jì)向量,再采用有效的模型對統(tǒng)計(jì)向量進(jìn)行訓(xùn)練,挖掘異常模式,將異常從包含大量正常樣本的數(shù)據(jù)中挖掘出來。基于語義特征的異常檢測方法通過對序列向量進(jìn)行詞嵌入或者句子嵌入得到日志的語義向量化表示來實(shí)現(xiàn)異常檢測。該方法首先將日志序列表征為日志模板序列,即在保持日志的執(zhí)行時(shí)間先后順序不變的前提下,將日志序列中的每一條日志都轉(zhuǎn)換為對應(yīng)的日志模板,然后對日志模板的向量化表征進(jìn)行建模。模型通過預(yù)測該序列的下一個(gè)日志模板的類別,生成關(guān)于日志模板類別概率分布,選擇預(yù)測概率最大的 ?? 個(gè)日志模板組成正常日志模板集合,剩下的組成異常日志模板集合,最后通過根據(jù)實(shí)際日志模板所從屬的集合類別來判斷日志序列是否異常。

參考文獻(xiàn)

[1] 張穎君,劉尚奇,楊牧,等.基于日志的異常檢測技術(shù)綜述[J].網(wǎng)絡(luò)與信息安全學(xué)報(bào),2020, 6(6): 1-12.

[2] Fu Q, Lou J G, Wang Y, et al. Execution Anomaly Detection in Distributed Systems through Unstructured Log Analysis [C]//2009 Ninth IEEE International Conference on Data Mining. Miami Beach, FL, USA: IEEE, 2009: 149-158.

[3]ZhuJ,HeS,LiuJ,etal.Toolsandbenchmarksforautomatedlogparsing[C]//2019IEEE/ACM 41st International Conference on Software Engineering: Software Engineering in Practice (ICSE-SEIP). IEEE, 2019: 121-130.

[4] Tang L, Li T, Perng C S. LogSig: generating system events from raw textual logs [C]// Proceedings of the 20th ACM international conference on Information and knowledge management - CIKM ’11. Glasgow, Scotland, UK: ACM Press, 2011: 785.

[5] Nagappan M, Vouk M A. Abstracting log lines to log event types for mining software system logs [C]//2010 7th IEEE Working Conference on Mining Software Repositories (MSR 2010). IEEE, 2010: 114-117.

[6]NandiA,MandalA,AtrejaS,etal.Anomalydetectionusingprogramcontrolflowgraphmin- ing from execution logs [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016: 215-224.

[7]VaarandiR,PihelgasM.LogCluster-Adataclusteringandpatternminingalgorithmforevent logs [C]//2015 11th International Conference on Network and Service Management (CNSM). Barcelona, Spain: IEEE, 2015: 1-7.

[8]MessaoudiS,PanichellaA,BianculliD,etal.Asearch-basedapproachforaccurateidentifica- tion of log message formats [C]//2018 IEEE/ACM 26th International Conference on Program Comprehension (ICPC). IEEE, 2018: 167-16710.

[9] He P, Zhu J, Zheng Z, et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree [C]//2017 IEEE International Conference on Web Services (ICWS). Honolulu, HI, USA: IEEE, 2017: 33-40.

[10]DuM,LiF.Spell:StreamingParsingofSystemEventLogs[C]//2016IEEE16thInternational Conference on Data Mining (ICDM). Barcelona, Spain: IEEE, 2016: 859-864.

[11]賈統(tǒng), 李影, 吳中海. 基于日志數(shù)據(jù)的分布式軟件系統(tǒng)故障診斷綜述 [J]. Journal of Software, 2020, 31(7): 1997-2018.

[12] He P, Zhu J, Zheng Z, et al. Drain: An Online Log Parsing Approach with Fixed Depth Tree [C]//2017 IEEE International Conference on Web Services (ICWS). Honolulu, HI, USA: IEEE, 2017: 33-40.

[13]ChenC,SinghN,YajnikS.Loganalyticsfordependableenterprisetelephony[C]//2012Ninth European Dependable Computing Conference. IEEE, 2012: 94-101.

[14]Sipola T, Juvonen A, Lehtonen J. Anomaly detection from network logs using diffusion maps [M]//Engineering Applications of Neural Networks. Springer, 2011: 172-181.

責(zé)任編輯:武曉燕 來源: 中國保密協(xié)會(huì)科學(xué)技術(shù)分會(huì)
相關(guān)推薦

2022-07-28 13:18:48

系統(tǒng)日志編碼器

2009-01-20 14:47:19

ETL數(shù)據(jù)集成技術(shù)研究

2011-05-30 17:21:58

軟件測試

2011-11-30 21:54:11

ibmdwDominoSAP

2023-06-19 07:08:22

結(jié)構(gòu)化數(shù)據(jù)ChatGPT

2022-11-02 07:23:06

2017-02-06 13:31:11

調(diào)度技術(shù)集群

2020-10-29 12:59:57

國產(chǎn)生態(tài)網(wǎng)絡(luò)

2018-11-19 13:44:39

2012-11-07 14:00:05

2022-05-31 10:11:55

金融行業(yè)云原生眾邦銀行

2017-07-03 15:22:51

達(dá)觀數(shù)據(jù)技術(shù)研究

2010-04-15 15:21:43

Unix操作系統(tǒng)

2010-01-18 22:54:40

2015-01-19 14:14:59

dockercoreosvagrant

2013-05-06 17:08:00

Linux操作系統(tǒng)異常處理

2022-02-18 16:28:19

VR/AR交互互聯(lián)網(wǎng)

2019-08-01 13:28:07

AR智能交通可視化

2009-12-11 17:55:59

Linux操作系統(tǒng)

2010-04-20 15:36:01

Linux多點(diǎn)觸摸
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號