萬字長文:一起聊聊安全知識圖譜技術(shù)
知識圖譜是下一代可信人工智能領(lǐng)域的關(guān)鍵技術(shù)組成之一。圍繞知識的歸納抽取、演繹推理等處理與分析過程,諸多關(guān)鍵問題逐步被攻克,大幅推動(dòng)了機(jī)器認(rèn)知技術(shù)的發(fā)展。在網(wǎng)絡(luò)空間安全領(lǐng)域,防御技術(shù)的智能化升級也亟需成熟、有效的網(wǎng)絡(luò)空間安全領(lǐng)域知識圖譜(以下簡稱為安全知識圖譜)技術(shù)體系,為應(yīng)對強(qiáng)對抗、高動(dòng)態(tài)環(huán)境下的攻防博弈提供知識要素與推理智能支撐。為了歸納總結(jié)安全知識圖譜的關(guān)鍵技術(shù)研究進(jìn)展,本文將嘗試通過技術(shù)概述的方式,嘗試回答以下幾個(gè)問題,期望為讀者形成體系化的安全知識圖譜研究現(xiàn)狀總結(jié)。
Q1:什么是安全知識圖譜,有哪些類別的安全知識圖譜?
Q2:安全知識圖譜的技術(shù)棧包括什么?
Q3:安全知識圖譜有哪些典型技術(shù)研究與應(yīng)用場景?
Q4:安全知識圖譜應(yīng)用中的技術(shù)挑戰(zhàn)與研究趨勢有哪些?
一、網(wǎng)絡(luò)安全智能化發(fā)展趨勢
隨著云計(jì)算、5G、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)等信息基礎(chǔ)設(shè)施關(guān)聯(lián)技術(shù)的發(fā)展,網(wǎng)絡(luò)空間已串聯(lián)起工業(yè)物理系統(tǒng)、人類社會(huì)系統(tǒng)以及網(wǎng)絡(luò)信息系統(tǒng),成為社會(huì)數(shù)字經(jīng)濟(jì)發(fā)展的基石。與此同時(shí),網(wǎng)絡(luò)空間攻擊面隨之延伸和拓展,網(wǎng)絡(luò)空間攻防雙方信息的不對稱性現(xiàn)象愈發(fā)明顯。伴隨著攻防對抗態(tài)勢的升級,自動(dòng)化、智能化技術(shù)與攻防技術(shù)的融合已成為網(wǎng)絡(luò)安全技術(shù)發(fā)展的必然趨勢之一。
圖1 網(wǎng)絡(luò)安全智能化發(fā)展趨勢
回顧網(wǎng)絡(luò)空間安全智能化發(fā)展歷程,我們可以將智能驅(qū)動(dòng)的安全防御技術(shù)發(fā)展大致劃分為四個(gè)階段,如圖1所示,包括專家系統(tǒng)階段、感知智能階段、認(rèn)知智能階段以及決策智能階段。以下分別進(jìn)行簡要介紹:
專家系統(tǒng)階段。在該階段,防護(hù)設(shè)備與系統(tǒng)的自動(dòng)化和智能化,主要基于專家經(jīng)驗(yàn)與知識驅(qū)動(dòng)的專家系統(tǒng)。面向不同的應(yīng)用場景,需要專家編寫指定的檢測規(guī)則系統(tǒng)、響應(yīng)規(guī)則系統(tǒng)等。這些以列表結(jié)構(gòu)、樹結(jié)構(gòu)、圖結(jié)構(gòu)簡單組織的規(guī)則邏輯結(jié)構(gòu),能夠有效自動(dòng)化響應(yīng)特定分析場景下的攻擊行為。從專家系統(tǒng)的外部來看,該系統(tǒng)確實(shí)能夠表現(xiàn)出智能分析的效果。然而,隨著攻防技術(shù)的快速迭代和升級,攻防場景與流程的更細(xì),此類專家系統(tǒng)一方面,系統(tǒng)分析邏輯的完備性在大數(shù)據(jù)場景下迎來關(guān)鍵挑戰(zhàn),針對攻擊的誤報(bào)率、漏報(bào)率和整體準(zhǔn)確性性能衰減很快;另一方面難以有效自適應(yīng)演化,過度依賴專家資源,可維護(hù)性低,能夠支撐的場景愈發(fā)受限。
感知智能階段。隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的研究開展,網(wǎng)絡(luò)安全防御中面臨的諸多檢測和分類問題,也迎來新的解決方案——智能感知,即從大規(guī)模數(shù)據(jù)中,進(jìn)行識別、檢測和分類,挖掘出異常的、惡意的攻擊行為。例如,識別惡意流量、惡意樣本、惡意郵件、異常業(yè)務(wù)識別等場景,通過數(shù)據(jù)驅(qū)動(dòng)的算法能夠?qū)崿F(xiàn)高效的實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)規(guī)律建模,挖掘惡意行為/樣本與正常行為/樣本之間的關(guān)鍵區(qū)分性特征。雖然在諸多威脅感知場景下,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的智能分析方法取得了重要的突破,但在面對高度動(dòng)態(tài)復(fù)雜的網(wǎng)絡(luò)行為分析時(shí),感知層輸入往往缺乏有安全語義的規(guī)范化建模,數(shù)據(jù)層次異常而非真實(shí)惡意攻擊的誤報(bào)情況難以避免。此外,多維度單點(diǎn)的感知分析結(jié)果,仍需要深度的專家參與的研判與關(guān)聯(lián)分析,才能完整還原攻擊行為全貌,限制了APT等高級復(fù)雜攻擊技戰(zhàn)術(shù)的分析的自動(dòng)化水平的提升。
認(rèn)知智能階段。面向復(fù)雜網(wǎng)絡(luò)環(huán)境、復(fù)雜攻擊技戰(zhàn)術(shù)組合以及多層次多源異構(gòu)的數(shù)據(jù)融合,網(wǎng)絡(luò)空間安全防御亟需具有能夠?qū)崿F(xiàn)深度理解分析能力的認(rèn)知智能技術(shù)方案。不限于感知層的孤立的識別范圍和分析深度,認(rèn)知層主要負(fù)責(zé)實(shí)現(xiàn)數(shù)據(jù)、情報(bào)、知識、環(huán)境等多維度數(shù)據(jù)的自動(dòng)關(guān)聯(lián)、語義消歧,構(gòu)建更完整、更豐富的數(shù)據(jù)湖基礎(chǔ)設(shè)施,進(jìn)而基于數(shù)據(jù)湖,實(shí)現(xiàn)威脅溯源歸因、攻擊意圖識別與行動(dòng)預(yù)測等與安全專家相媲美的自動(dòng)化分析能力。在認(rèn)知智能階段,自然語言處理技術(shù)、知識圖譜、因果推理、意圖理解等認(rèn)知層次的智能技術(shù)與安全場景、安全數(shù)據(jù)的融合水平,成為認(rèn)知智能技術(shù)發(fā)展的關(guān)鍵因素。
決策智能階段。網(wǎng)絡(luò)安全防御系統(tǒng)的決策效果,將影響到信息業(yè)務(wù)系統(tǒng)、物理設(shè)備甚至社會(huì)組織的穩(wěn)定運(yùn)行狀態(tài),是經(jīng)濟(jì)、安全、政治攸關(guān)的。因此,在感知和認(rèn)知的基礎(chǔ)上,只有具備決策智能的網(wǎng)絡(luò)安全防御系統(tǒng),才能夠進(jìn)一步在安全防御策略自主構(gòu)建、自適應(yīng)脆弱性修復(fù)、攻擊事件響應(yīng)與緩解等傳統(tǒng)完全依賴系統(tǒng)負(fù)責(zé)人與安全專家部署的策略制定過程中實(shí)現(xiàn)自動(dòng)化。決策的過程受到諸多方面的影響,包括信息收集的精確性評估、策略知識的完備性識別、系統(tǒng)風(fēng)險(xiǎn)的整體量化以及決策系統(tǒng)的效果預(yù)測等等。這些關(guān)鍵能力的構(gòu)建,都依賴于負(fù)責(zé)、魯棒、透明的可信任安全智能技術(shù)基礎(chǔ)設(shè)施。
網(wǎng)絡(luò)安全智能化的發(fā)展,正隨著多維度感知智能技術(shù)的演進(jìn),向認(rèn)知智能和決策智能化方向演進(jìn)。在這個(gè)過程中,安全知識圖譜技術(shù),已成為整個(gè)技術(shù)體系的基礎(chǔ)性核心工作。安全知識圖譜技術(shù),一方面,通過本體建模、實(shí)體對齊、鏈接構(gòu)建等方式,為認(rèn)知、決策過程提供超融合的數(shù)據(jù)基礎(chǔ)設(shè)施,是大規(guī)模異構(gòu)數(shù)據(jù)源統(tǒng)一分析的基礎(chǔ);另一方面,基于知識圖譜的推理,包括表示學(xué)習(xí)、關(guān)聯(lián)分析、事件溯源、行為預(yù)測等能力,是認(rèn)知智能的主要組成部分;最后,圍繞知識圖譜構(gòu)建的逐層推理與分析,為指定場景下決策智能的達(dá)成提供了關(guān)鍵輸入要素和策略構(gòu)建框架。
推進(jìn)網(wǎng)絡(luò)空間安全知識圖譜的構(gòu)建與基于知識圖譜的推理技術(shù)成熟,已成為網(wǎng)絡(luò)安全智能從專家系統(tǒng)、感知智能,邁向認(rèn)知智能、決策智能的必由之路,亦是應(yīng)對網(wǎng)絡(luò)空間高級、持續(xù)、復(fù)雜威脅與風(fēng)險(xiǎn)不可或缺的技術(shù)基礎(chǔ)。
二、安全知識圖譜技術(shù)內(nèi)涵
圍繞知識的識別、抽取,圖譜的構(gòu)建、推理及應(yīng)用,知識圖譜技術(shù)體系能夠在、知識歸納推理知識固化、人機(jī)協(xié)同等多個(gè)方面促進(jìn)網(wǎng)絡(luò)空間安全檢測、溯源、預(yù)測、響應(yīng)等關(guān)鍵能力的智能化與自動(dòng)化水平。本部分將首先介紹網(wǎng)絡(luò)空間安全知識圖譜的技術(shù)的核心內(nèi)涵、技術(shù)優(yōu)勢與技術(shù)框架。
2.1 概念內(nèi)涵
知識圖譜是是通用人工智能與專用人工智能領(lǐng)域的關(guān)鍵技術(shù)組成之一。通過語義化的知識組織結(jié)構(gòu),知識圖譜將機(jī)器算法與領(lǐng)域知識充分融合,極大的促進(jìn)了知識工程方向智能化的發(fā)展速度。在智能推薦、智能搜索、通用認(rèn)知推理、人機(jī)交互問答、智能決策支持等應(yīng)用場景中,知識圖譜得到的廣泛的應(yīng)用與實(shí)踐。知識圖譜本質(zhì)是由實(shí)體(概念)及實(shí)體(概念)間關(guān)系,以及關(guān)聯(lián)屬性組成的一種語義網(wǎng)絡(luò),通過結(jié)構(gòu)化的數(shù)據(jù)組織結(jié)構(gòu),以有效地表示實(shí)體(概念)之間的語義關(guān)聯(lián)關(guān)系,可形式化表示為:
其中每個(gè)三元組代表一個(gè)知識單元,表示了源實(shí)體Subject與目的實(shí)體Object之間,具有關(guān)系Relation。一個(gè)典型的知識圖譜中,主要可劃分為模式層與數(shù)據(jù)層。模式層是整個(gè)知識圖譜構(gòu)建的基礎(chǔ),是數(shù)據(jù)組織的范式,一般通過本體庫的設(shè)計(jì)實(shí)現(xiàn)。本體,是結(jié)構(gòu)化知識庫的概念模板,描述了數(shù)據(jù)的元信息與元結(jié)構(gòu)。數(shù)據(jù)層,是根據(jù)模式層本體模板范式生成的實(shí)體、關(guān)系及屬性的實(shí)例集合,這些實(shí)例描述某一類或某一個(gè)概念的知識事實(shí)。
從知識范疇、應(yīng)用場景來看,知識圖譜可劃分為通用知識圖譜和領(lǐng)域?qū)S弥R圖譜。通用知識圖譜,例如Freebase、Wikidata、DBpedia等大規(guī)模知識庫,主要應(yīng)用于普適性的智能搜索、推薦場景中,提供具有廣度的、基本的知識關(guān)聯(lián)基礎(chǔ)設(shè)施。領(lǐng)域?qū)S弥R圖譜,則基于某知識子領(lǐng)域,構(gòu)建具有深度的知識空間,服務(wù)于該知識領(lǐng)域內(nèi)特定的查詢、推理分析需求。
安全知識圖譜是面向網(wǎng)絡(luò)安全空間的威脅建模、風(fēng)險(xiǎn)分析、攻擊推理等攻防需求,基于網(wǎng)絡(luò)和安全知識庫、情報(bào)庫、資產(chǎn)庫、行為日志中關(guān)鍵實(shí)體(概念)及關(guān)系構(gòu)建的大規(guī)模語義網(wǎng)絡(luò),是網(wǎng)絡(luò)安全領(lǐng)域?qū)S弥R圖譜。
圖2 基于惡意軟件知識圖譜的分類可解釋性示例
安全知識圖譜作為網(wǎng)絡(luò)安全的領(lǐng)域知識圖譜,能夠充分發(fā)揮安全知識與經(jīng)驗(yàn)與數(shù)據(jù)的融合下,人工智能技術(shù)的巨大潛在價(jià)值,加速網(wǎng)絡(luò)安全技術(shù)領(lǐng)域的智能化與自動(dòng)化。這是因?yàn)?,網(wǎng)絡(luò)環(huán)境本身具有典型的圖結(jié)構(gòu),網(wǎng)絡(luò)安全知識、信息、數(shù)據(jù)依照知識圖譜的形式組織起來,首先,能夠充分發(fā)揮圖數(shù)據(jù)的結(jié)構(gòu)優(yōu)勢,將基于圖的統(tǒng)計(jì)、分析、推理方法融入到知識挖掘的過程當(dāng)中來。其次,知識圖譜中的各類實(shí)體(概念)之間的關(guān)系,保留了明確的語義信息,即各類型的上下游信息依賴關(guān)系?;谡Z義信息的關(guān)聯(lián)與推理技術(shù),是認(rèn)知智能與決策智能技術(shù)的關(guān)鍵步驟。此外,網(wǎng)絡(luò)安全場景下的推理分析結(jié)果將最終指導(dǎo)安全團(tuán)隊(duì)的應(yīng)急與響應(yīng)工作,需要推理的過程的透明與可解釋性,來提升人類對機(jī)器推理的可信任程度。知識圖譜正是可解釋人工智能技術(shù)的重要組成。通過前述結(jié)構(gòu)與語義的關(guān)聯(lián)網(wǎng)絡(luò),知識圖譜能夠輔助給與運(yùn)營團(tuán)隊(duì)符合安全領(lǐng)域知識框架的分析結(jié)果,支撐威脅的研判、取證與響應(yīng)任務(wù)的開展。例如,通過惡意軟件知識圖譜,來解釋針對惡意文檔的機(jī)器學(xué)習(xí)分類器分類的關(guān)鍵特征結(jié)果,能夠通過關(guān)聯(lián)的知識,而非孤立的特征數(shù)值,來反映惡意文檔的與正常文檔之間的關(guān)鍵特征差別。
2.2 圖譜分類
從學(xué)術(shù)研究和工業(yè)應(yīng)用語境來看,狹義的安全知識圖譜一般特指基于安全知識庫,如ATT&CK、DE3FEND、CAPEC等構(gòu)建的圖譜化知識庫及相關(guān)分析技術(shù),而廣義的安全知識圖譜泛指通過屬性圖、RDF等類型圖形式組織起來的圖譜化網(wǎng)絡(luò)安全數(shù)據(jù)基礎(chǔ)設(shè)施及相關(guān)分析技術(shù)。本文將以廣義的安全知識圖譜技術(shù)作為安全知識圖譜的定義。
在不同的應(yīng)用場景下、在不同的數(shù)據(jù)源構(gòu)成下,安全知識圖譜可以有多種不同的類型。以下介紹幾類較為常見的安全知識圖譜類型及其分類原則。值得注意的是,以下劃分方法從知識的采集源、知識的應(yīng)用目標(biāo)出發(fā),不同類型知識圖譜之間可能存在數(shù)據(jù)層次的交叉。
2.2.1 環(huán)境知識圖譜
“環(huán)境”可以定義為防護(hù)網(wǎng)絡(luò)空間內(nèi)的各類實(shí)體和實(shí)體的屬性(基本信息、脆弱性、合規(guī)信息等),以及實(shí)體之間的關(guān)聯(lián)關(guān)系。環(huán)境數(shù)據(jù)圖的構(gòu)建,需要資產(chǎn)管理、脆弱性管理、風(fēng)險(xiǎn)評估等工具和服務(wù)的支撐,也需要類似企業(yè)組織信息、IT系統(tǒng)架構(gòu)信息、人力資源信息等業(yè)務(wù)數(shù)據(jù)來支持環(huán)境實(shí)體的豐富和關(guān)系建立。環(huán)境知識圖譜是高度動(dòng)態(tài)的知識圖譜。
圖3 Cauldron基于圖的漏洞分析[1]
安全防護(hù)不僅僅是構(gòu)建更厚的防火墻,制定更多預(yù)算抵御可能隨時(shí)發(fā)生的DDoS攻擊,對資產(chǎn)、資產(chǎn)脆弱性、用戶信息、IT架構(gòu)信息等自身攻擊面信息的掌控程度,往往決定了網(wǎng)絡(luò)空間防御能力的上限。特別是在云、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)迅速發(fā)展的時(shí)代背景下,資產(chǎn)數(shù)量劇增,類型更加豐富,脆弱性暴露的形勢也更加嚴(yán)峻。“知己”比“知彼”顯得更加關(guān)鍵,無論是暴露在公網(wǎng)的資產(chǎn)還是邊界內(nèi)未納入管理的“黑資產(chǎn)”,都將大幅增加安全防護(hù)風(fēng)險(xiǎn)。為應(yīng)對無孔不入的威脅,需要發(fā)現(xiàn)安全防護(hù)的關(guān)鍵實(shí)體、關(guān)鍵關(guān)系,在威脅事件發(fā)生的前后,對威脅的潛在影響范圍、影響深度進(jìn)行全面的評估,以保證攻擊面的準(zhǔn)確識別。
2.2.2 行為知識圖譜
“行為”可以定義為可收集的、可檢測的所防護(hù)網(wǎng)絡(luò)空間內(nèi)實(shí)體的動(dòng)作,可以是DIKW數(shù)據(jù)層的各類原始日志,也可以是信息層的各類檢測告警日志、聚合的推斷告警日志。UEBA和SIEM的綜合方案能夠滿足行為數(shù)據(jù)收集的需求。
圖4 終端溯源圖譜[2]
行為數(shù)據(jù)圖的重要性不言而喻,從端點(diǎn)到網(wǎng)絡(luò),從主動(dòng)到被動(dòng),從邊界到內(nèi)部,從規(guī)則到統(tǒng)計(jì)機(jī)器學(xué)習(xí),等等多維度的行為收集,能夠全面刻畫網(wǎng)絡(luò)空間實(shí)體的行動(dòng)蹤跡,是識別、歸類、響應(yīng)、溯源任務(wù)的基本前提。通過多行為序列的聚合規(guī)則,生成新的告警事件的推理方法已在多種場景中應(yīng)用起來。不過,行為的關(guān)聯(lián)不應(yīng)止于針對單個(gè)實(shí)體的行為聚合,多實(shí)體長時(shí)間區(qū)間的行為關(guān)聯(lián),才是行為數(shù)據(jù)分析的目標(biāo)。從處理和存儲(chǔ)效率上來看,將多實(shí)體的行為向量組織成圖模型結(jié)構(gòu)是行為關(guān)聯(lián)的必由之路。行為采集的粒度很大程度上由已有的采集和檢測能力決定,在這一點(diǎn)上,在保證歸一化和體系化的基礎(chǔ)上,“來者不拒”應(yīng)該是行為收集的一個(gè)特點(diǎn)。行為知識圖譜與環(huán)境知識圖譜和知識情報(bào)知識圖譜的主要特性差異,是行為知識圖譜的時(shí)效性更短,更新和新增頻率更高。合理的構(gòu)造行為數(shù)據(jù)的本體模型、實(shí)體關(guān)系,設(shè)計(jì)行為與環(huán)境、情報(bào)、知識的互動(dòng)能力,并管理行為知識圖譜數(shù)據(jù)的生命周期,是行為知識圖譜發(fā)揮最大價(jià)值的關(guān)鍵所在。
2.2.3 情報(bào)知識圖譜
不同類型的“威脅情報(bào)”,可能會(huì)造成對情報(bào)概念的不同解讀。在此,對情報(bào)的定義可參考2014年Gartner的《安全威脅情報(bào)服務(wù)市場指南》:“威脅情報(bào)是一種基于證據(jù)的知識,包括情境、機(jī)制、指標(biāo)、影響和操作建議。威脅情報(bào)描述了現(xiàn)存的或者是即將出現(xiàn)的針對資產(chǎn)的威脅或危險(xiǎn),并可以用于通知主體針對相關(guān)威脅或危險(xiǎn)采取某種響應(yīng)。”以此定義為基礎(chǔ),可以說威脅情報(bào)與各類知識庫各有側(cè)重又相互交叉。一個(gè)典型的安全知識圖譜模式層本體結(jié)構(gòu)如圖5所示。STIX(Exchange Cyber Threat Intelligence)是網(wǎng)絡(luò)空間威脅情報(bào)的一種描述語言與信息組織結(jié)構(gòu)。STIX 2.0版本的本體(在STIX中稱為STIX Domain Objects, SDO)主要包括如圖所示的多種實(shí)體(概念)及其之間的語義交互關(guān)系。該本體結(jié)構(gòu),即給定了描述威脅情報(bào)信息與知識的一種語義結(jié)構(gòu)范本。
圖5 STIX2.0的模式層
威脅情報(bào),能夠擴(kuò)展安全團(tuán)隊(duì)的威脅視野,通過更多威脅上下文提升安全事件研判能力?,F(xiàn)階段,威脅情報(bào)已經(jīng)成為重要的戰(zhàn)略和商業(yè)資源,廣泛地應(yīng)用于安全運(yùn)營、態(tài)勢感知、威脅分析、風(fēng)險(xiǎn)評估、攻擊溯源等多個(gè)領(lǐng)域。值得注意的是,不同的威脅情報(bào)提供商本身對威脅情報(bào)理解的維度和深度不同,構(gòu)建可用的情報(bào)數(shù)據(jù)圖,威脅情報(bào)勝在豐富、準(zhǔn)確和時(shí)效性,選擇符合特定業(yè)務(wù)場景的威脅情報(bào)源構(gòu)建專用的情報(bào)知識圖譜,是提升效率和可用性的關(guān)鍵。
2.2.4 知識庫知識圖譜
知識與情報(bào)在不同的情景內(nèi)常常出現(xiàn)概念的交叉。在這里,我們將歸納的、可用于推理的、與時(shí)間弱相關(guān)的安全數(shù)據(jù)稱為知識數(shù)據(jù),包括各類知識庫,如ATT&CK[3]、CAPEC[4],以及各類枚舉庫,如CWE[5]、CNNVD等等。知識庫的構(gòu)建往往依賴于專家經(jīng)驗(yàn)、威脅情報(bào)的收集、驗(yàn)證和凝練,所抽象的概念和關(guān)系是通用的建?;A(chǔ)。當(dāng)前,知識庫的構(gòu)建和共享已成為安全行業(yè)的共識,知識數(shù)據(jù)圖能夠提供特定環(huán)境和場景下威脅行為的關(guān)聯(lián)知識,評估威脅行為的影響范圍和深度,對潛在威脅做出預(yù)警,并給出合理的應(yīng)對方案。
圖6 ATT&CK與CAPEC的知識關(guān)聯(lián)
知識庫知識圖譜賦能下的威脅事件分析,能夠拓展行為、環(huán)境、情報(bào)知識圖譜關(guān)聯(lián)實(shí)體的概念和數(shù)據(jù)上下文,以支持推理的語義富化關(guān)聯(lián)。相對于更商業(yè)化的威脅情報(bào),知識庫可以基于公開或開源的項(xiàng)目數(shù)據(jù),國內(nèi)外許多機(jī)構(gòu)也正致力于建設(shè)更廣泛、更專業(yè)的威脅關(guān)聯(lián)知識庫,如CAPEC、CWE、CNNVD、ATT&CK等等,也可以通過知識圖譜、自然語言處理技術(shù),從多源數(shù)據(jù)中自動(dòng)化抽取和構(gòu)建知識圖,并通過關(guān)系推理等方式對知識圖進(jìn)行拓展。
三、 安全知識圖譜技術(shù)框架
基于安全知識圖譜,構(gòu)建具有感知、認(rèn)知、決策智能的安全應(yīng)用,需要解決數(shù)據(jù)的統(tǒng)一建模、實(shí)體抽取與關(guān)系構(gòu)建、復(fù)雜語義的推理分析和場景化的應(yīng)用適配等不同層次關(guān)鍵問題。對應(yīng)這些主要問題,本文將網(wǎng)絡(luò)安全知識圖譜自底向上的劃分為三個(gè)核心層次,分別為:圖譜構(gòu)建層、推理分析層、應(yīng)用能力層,一個(gè)安全可信層,整體框架如圖7所示,概括了每個(gè)技術(shù)層次的主要技術(shù)能力。以下分別對各個(gè)層次做簡要介紹。
圖7 安全知識圖譜技術(shù)框架
3.1 圖譜構(gòu)建層
圖譜構(gòu)建層,主要實(shí)現(xiàn)安全知識圖譜的數(shù)據(jù)基礎(chǔ)設(shè)施的構(gòu)建。主要需實(shí)現(xiàn)包括本體設(shè)計(jì)、實(shí)體識別、關(guān)系識別、知識消歧、圖譜構(gòu)建、圖譜存儲(chǔ)、圖譜計(jì)算等基礎(chǔ)能力。
知識圖譜的核心在于對數(shù)據(jù)的語義化組織模式的設(shè)計(jì)。通常來講,知識圖譜將各類格式的原始數(shù)據(jù),如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),抽取為形如(Subject, Relation, Object)的三元組形式。在該形式下,實(shí)體Subject與實(shí)體Object之間,自然形成具有關(guān)系Relation的語義子結(jié)構(gòu)。通過大規(guī)模語義子結(jié)構(gòu)的串聯(lián)組織,即構(gòu)成完整的知識圖譜結(jié)構(gòu)。其中,Subject與Object實(shí)體的類型、兩者之間Relation的類型,以及兩者的屬性類型的規(guī)范等,構(gòu)成的完整模式,即構(gòu)成了知識圖譜的模式層本體范式。
圖8 安全知識圖譜本體模式設(shè)計(jì)樣例
安全知識圖譜的數(shù)據(jù)模式層,即針對網(wǎng)絡(luò)空間安全領(lǐng)域的知識庫、情報(bào)庫、數(shù)據(jù)日志的領(lǐng)域知識進(jìn)行本體建模,以給出歸一化、抽象、可推理的安全本體范式。本體建模的過程,是整個(gè)安全知識圖譜的構(gòu)建與應(yīng)用的基石——本體范式?jīng)Q定了知識圖譜覆蓋的知識/情報(bào)/數(shù)據(jù)范疇、數(shù)據(jù)抽象的粒度以及語義關(guān)聯(lián)模板,進(jìn)而決定了圍繞知識圖譜開展的相關(guān)推理應(yīng)用的可用性、覆蓋度以及使用價(jià)值。因此,構(gòu)建知識完備、粒度適中、語義豐富的數(shù)據(jù)模式層本體庫,是安全知識圖譜技術(shù)中最關(guān)鍵的設(shè)計(jì)工作之一。
知識圖譜的構(gòu)建工作,即基于知識/情報(bào)/數(shù)據(jù)資料庫,在數(shù)據(jù)模式層本體模式的規(guī)范下,抽取實(shí)例實(shí)體、關(guān)系及屬性信息形成知識圖譜數(shù)據(jù)層語義網(wǎng)絡(luò)的過程。通常來講,知識圖譜的構(gòu)建過程主要包括知識抽取、知識融合、知識存儲(chǔ)、知識更新等主要步驟。在知識抽取環(huán)節(jié),實(shí)體、關(guān)系、屬性等要素按需從各類結(jié)構(gòu)化、本結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中提取出來。在知識融合階段,需完成各類實(shí)體的對齊,關(guān)系語義的消歧,知識的映射等工作,以將提供滿足知識圖譜質(zhì)量要求、設(shè)計(jì)規(guī)范的數(shù)據(jù)資料。知識存儲(chǔ)階段,主要是將結(jié)構(gòu)化語義網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中,一般的存儲(chǔ)介質(zhì)是各種類型的圖數(shù)據(jù)庫。在知識更新階段,將根據(jù)數(shù)據(jù)層信息的實(shí)時(shí)性、置信度、語義明確性等維度和更新策略,剔除失效數(shù)據(jù),更新最新狀態(tài),保證知識圖譜信息的高價(jià)值屬性。
安全知識圖譜的圖譜構(gòu)建,需要特別注意的是,一方面,需構(gòu)建更細(xì)粒度的數(shù)據(jù)質(zhì)量評估方法,以保證安全圖數(shù)據(jù)的高置信度與高安全性,否則將可能影響基于知識圖譜的安全應(yīng)用的魯棒性。另一方面,在知識/情報(bào)/數(shù)據(jù)的時(shí)效性管理方面,需要更靈活的更新機(jī)制,以保證圖譜數(shù)據(jù)的時(shí)效性。
3.2 推理分析層
知識圖譜的推理分析,主要面向高層次應(yīng)用提供關(guān)聯(lián)查詢、知識壓縮表示、知識歸因預(yù)測等自動(dòng)化、智能化推理能力支撐。主要的推理分析方法,包括圖關(guān)聯(lián)檢索、基本的圖數(shù)據(jù)挖掘算法、圖的表示學(xué)習(xí)、圖的推理學(xué)習(xí)等。圖關(guān)聯(lián)檢索,即通過最短路徑、相似性分析等方法,提供指定實(shí)體、關(guān)系、屬性特征查詢的響應(yīng)?;镜膱D數(shù)據(jù)挖掘算法,包括圖上的節(jié)點(diǎn)聚類、社團(tuán)行為發(fā)現(xiàn)、重要節(jié)點(diǎn)發(fā)現(xiàn)、路徑挖掘等等,為知識圖譜提供深入的數(shù)據(jù)洞見。圖的表示學(xué)習(xí),通過結(jié)構(gòu)、屬性等維度的學(xué)習(xí)方法,如Trans模型(TransE、TransH等),習(xí)得知識圖譜關(guān)鍵要素的向量化壓縮表示,可用于支持知識檢索、知識推理等類型的技術(shù)實(shí)現(xiàn)。圖的推理學(xué)習(xí),則基于表示學(xué)習(xí)結(jié)果或通過端到端的圖神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì),如圖神經(jīng)網(wǎng)絡(luò),提供知識語義推導(dǎo)、關(guān)系鏈路預(yù)測等核心推理結(jié)果。
圖9 典型的行為知識圖譜推理分析
安全知識圖譜的推理環(huán)節(jié),需要重點(diǎn)解決多層次數(shù)據(jù)、情報(bào)、知識之間的語義鴻溝問題、大規(guī)模網(wǎng)絡(luò)實(shí)體信息關(guān)聯(lián)的依賴爆炸問題等多種基礎(chǔ)性難題。語義鴻溝問題,主要是由不同來源、不同采集尺度的數(shù)據(jù)融合導(dǎo)致的高層語義難以對齊的問題。知識圖譜構(gòu)建的語義消歧技術(shù),只能在特定的標(biāo)尺下完成粗略的數(shù)據(jù)融合,但要實(shí)現(xiàn)跨源、跨維度的知識推理,仍需要有效的語義學(xué)習(xí)機(jī)制。依賴爆炸問題則是由于現(xiàn)有的數(shù)據(jù)采集技術(shù)、跟蹤技術(shù)、知識建模技術(shù)的限制,安全知識圖譜實(shí)體之間的信息流無法精確的刻畫,上下游實(shí)體之間的信息依賴隨著圖上跳數(shù)的增加呈現(xiàn)指數(shù)級爆炸的現(xiàn)象,將導(dǎo)致知識圖譜信息傳播的消散。
3.3 應(yīng)用能力層
本層次主要基于圖譜的數(shù)據(jù)和分析基礎(chǔ)設(shè)施,提供面向特定場景需求的安全知識圖譜服務(wù)能力,抽象的可概括為建模、識別、富化、畫像、測繪、溯源、歸因、決策及預(yù)警等能力單元。場景需求+數(shù)據(jù)基礎(chǔ)+分析能力的組合,可以形成基于安全知識圖譜的技術(shù)棧。包括在安全運(yùn)營中的XDR技術(shù)、威脅情報(bào)中的組織團(tuán)伙分析技術(shù)、網(wǎng)絡(luò)空間測繪中的攻擊面觀測技術(shù)、攻擊模擬中的智能決策技術(shù)等等,都可以通過一種或多種圖譜推理分析能力的組合,實(shí)現(xiàn)面向場景化需求的知識抽取與知識演繹推理以達(dá)成目標(biāo)。具體技術(shù)應(yīng)用場景,將在第四節(jié)介紹。
圖10 安全知識圖譜服務(wù)能力
3.4 安全可信層
除了安全知識圖譜的核心技術(shù)能力基礎(chǔ)外,還需再多個(gè)方面提供安全知識圖譜得自身安全可信機(jī)制,主要包括數(shù)據(jù)質(zhì)量評估、敏感數(shù)據(jù)防護(hù)、分析效果監(jiān)測等。在數(shù)據(jù)質(zhì)量評估方面,需通過量化的圖譜質(zhì)量評估指標(biāo),實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)異常、缺失、錯(cuò)誤等問題的識別,以保證安全知識圖譜數(shù)據(jù)流程轉(zhuǎn)過程中的多階段數(shù)據(jù)輸入可信。在敏感數(shù)據(jù)防護(hù)方面,通過對企業(yè)、個(gè)人、組織等多級別敏感數(shù)據(jù)的自動(dòng)識別與脫敏,支持知識圖譜在不暴露敏感信息的情況下,完成從圖譜構(gòu)建到推理分析再到應(yīng)用服務(wù)的整個(gè)知識建模過程。在分析效果監(jiān)測方面,需提供可供反饋的人機(jī)接口,收集用戶在不同場景知識服務(wù)中的細(xì)粒度反饋,并通過自動(dòng)化的閉環(huán)機(jī)制,跟蹤和持續(xù)優(yōu)化相關(guān)參數(shù)、流程,向圖譜管理組件提供關(guān)鍵指標(biāo)的監(jiān)測接口。
四、 安全知識圖譜技術(shù)應(yīng)用
安全知識圖譜可以作為網(wǎng)絡(luò)安全大數(shù)據(jù)分析的關(guān)鍵基礎(chǔ)設(shè)施,以獨(dú)立部署的模式或者融合服務(wù)的方式,提供數(shù)據(jù)、分析等多個(gè)層面的支撐。本節(jié),將介紹四個(gè)典型安全知識圖譜的應(yīng)用場景,分別是利用知識圖譜支持攻擊研判信息富化、運(yùn)營事件知識抽取、終端攻擊檢測調(diào)查以及威脅情報(bào)模式識別。
4.1 攻擊研判信息富化
攻擊事件研判依賴準(zhǔn)確、豐富的事件上下文信息。上下文可涉及前述環(huán)境知識、行為知識、情報(bào)知識和知識庫等多維度信息源。通過自動(dòng)化的采集與構(gòu)建方法,可構(gòu)建類似圖11所示可支撐研判的知識圖譜數(shù)據(jù)庫。該圖譜數(shù)據(jù)庫,基于威脅情報(bào)STIX2.0架構(gòu),融合了經(jīng)典事件研判過程中,所依賴的脆弱性、緩解措施、應(yīng)用案例等基礎(chǔ)信息。通過基于指定類型線索的檢索,能夠高效的召回關(guān)聯(lián)知識庫信息,形成對待研判事件的增強(qiáng),可提升事件的整體信息量,并提升大規(guī)模事件的歸類、歸并分析的效率。
圖11 支持事件富化的安全知識圖譜[6]
4.2 運(yùn)營事件知識抽取
安全運(yùn)營中心的集中式分析平臺(tái),匯聚了大規(guī)模的動(dòng)態(tài)事件數(shù)據(jù)。這些事件數(shù)據(jù),可通過IP、域名、郵箱等實(shí)體實(shí)現(xiàn)直接關(guān)聯(lián),也可通過事件的屬性特征相似性實(shí)現(xiàn)潛在關(guān)聯(lián)。通過這些關(guān)系的識別和提取,能夠?qū)r(shí)序事件數(shù)據(jù),轉(zhuǎn)化為動(dòng)態(tài)事件關(guān)聯(lián)的知識圖譜結(jié)構(gòu),并可通過該結(jié)構(gòu)觀測和自動(dòng)化抽取其中的子圖模式與規(guī)律。例如,可以抽取指定類型實(shí)體的行為規(guī)律信息,形成包括行為基線、交互基線等;可以抽取事件之間的轉(zhuǎn)移規(guī)律信息,形成包括事件交互基線等。相對于自頂向下的、基于靜態(tài)知識庫的知識富化,自底向上的、高度動(dòng)態(tài)的事件知識抽取,能夠?qū)崿F(xiàn)事件知識的生產(chǎn)與事件行為的自驗(yàn)證,為攻擊的研判、事件的分析提供具有環(huán)境自適應(yīng)的動(dòng)態(tài)知識結(jié)構(gòu)。
圖12 動(dòng)態(tài)事件關(guān)聯(lián)知識圖譜
4.3 終端攻擊檢測調(diào)查
終端側(cè)的數(shù)據(jù)采集與分析,能夠提供細(xì)粒度的行為上下文,一直以來都是網(wǎng)絡(luò)安全數(shù)據(jù)的重要組成部分。其中,溯源數(shù)據(jù)(Provenance)是終端側(cè)數(shù)據(jù)的關(guān)鍵組成,當(dāng)前操作系統(tǒng)(如Linux、Windows等)已具備高線溯源數(shù)采集的能力。有效的溯源數(shù)據(jù)挖掘方法,能夠支撐威脅狩獵的多種任務(wù)場景。Provenance能夠忠實(shí)記錄終端上實(shí)體的行為邏輯依賴關(guān)系,自然形成溯源數(shù)據(jù)圖(Provenance Graph,簡稱溯源圖)。所記錄的實(shí)體,包括文件(菱形)、網(wǎng)絡(luò)(橢圓)、進(jìn)程(矩形)等維度;根據(jù)實(shí)體對的類型,實(shí)體間關(guān)系又包括文件讀寫、進(jìn)程創(chuàng)建、網(wǎng)絡(luò)連接等等。在溯源數(shù)據(jù)完整有效采集的情況下,通過溯源圖的后向追溯(backward-trace)和前向追溯(forward-trace),能夠有效彌補(bǔ)網(wǎng)絡(luò)側(cè)的數(shù)據(jù)盲點(diǎn),實(shí)現(xiàn)攻擊事件的溯源與取證。在已知威脅分析方面,主要涵蓋威脅模式匹配和事件重構(gòu)溯源兩方面主要工作。威脅模式匹配一般建模為圖上的子圖模式匹配問題,需要解決圖數(shù)據(jù)建模、查詢子圖的生成及查詢優(yōu)化等多個(gè)子問題。在未知威脅分析方面,目前主要有策略啟發(fā)、頻率建模、機(jī)器學(xué)習(xí)等幾類方法。
圖13 基于溯源數(shù)據(jù)的行為知識圖譜[7-9]
4.4 威脅情報(bào)模式識別
通過知識圖譜技術(shù),能夠從多個(gè)方面全面實(shí)現(xiàn)分析能力增強(qiáng):針對突發(fā)性事件與常態(tài)化事件,情報(bào)關(guān)聯(lián)圖譜能夠洞察攻擊發(fā)展態(tài)勢,通過跨域攻擊行為識別,實(shí)現(xiàn)攻擊團(tuán)伙的快速定位,能夠提供明確的攻擊行為數(shù)據(jù)支持,可用于增強(qiáng)情報(bào)證據(jù)鏈,以及生產(chǎn)高質(zhì)量、高可信的團(tuán)伙威脅情報(bào)。能夠通過全局視角,觀測攻擊者、攻擊團(tuán)伙的跨域攻擊行為,觀測整體的行為模式演化。圖12給出了云端情報(bào)采樣數(shù)據(jù)中,部署在不同位置的監(jiān)測設(shè)備(紫色節(jié)點(diǎn))監(jiān)控下的攻擊者(源IP)的關(guān)聯(lián)圖譜。可以看出,攻擊事件出現(xiàn)了較為明顯的團(tuán)簇現(xiàn)象。一方面,少量受害者站點(diǎn)受到大規(guī)模攻擊源的集中攻擊;另一方面,攻擊團(tuán)伙利用大規(guī)模攻擊基礎(chǔ)設(shè)施,對指定的受害者群體發(fā)起了大規(guī)模的掃描與攻擊行為。
圖14 Log4j2攻擊事件圖譜跨域行為觀測
五、安全知識圖譜技術(shù)趨勢
可以預(yù)見,安全知識圖譜技術(shù)的發(fā)展,將全面提升網(wǎng)絡(luò)安全關(guān)鍵應(yīng)用場景下的知識推理技術(shù)水平,推動(dòng)安全智能從感知智能,向認(rèn)知智能和決策智能驅(qū)動(dòng)安全自動(dòng)化的演進(jìn)。當(dāng)然,當(dāng)前安全知識圖譜仍處于蓬勃發(fā)展階段,技術(shù)演進(jìn)仍需要諸多問題需要解決。在此,我們從關(guān)鍵問題著手,展望安全知識圖譜技術(shù)發(fā)展的關(guān)鍵趨勢。
圖15 安全知識圖譜技術(shù)發(fā)展趨勢
知識獲取層面:大規(guī)模多源信息自動(dòng)化抽取與信息融合。網(wǎng)絡(luò)安全知識圖譜涵蓋了網(wǎng)絡(luò)與安全領(lǐng)域的核心概念原型與關(guān)聯(lián)結(jié)構(gòu),涉及跨數(shù)據(jù)、情報(bào)、知識多層次的信息資料。一方面,需要基于自然語言處理技術(shù)、知識工程技術(shù),實(shí)現(xiàn)更自動(dòng)化的實(shí)體、關(guān)系、屬性抽取方法,滿足信息抽取的高實(shí)時(shí)性、高覆蓋率、高容錯(cuò)性。另一方面,需要在質(zhì)量評估、語義對齊、信息壓縮等方面,提升數(shù)據(jù)信息的融合質(zhì)量,提出信息冗余、信息失效、信息歧義等問題給后續(xù)建模推理帶來的錯(cuò)誤引導(dǎo)。
知識表示層面:異構(gòu)完備的知識統(tǒng)一表示。安全“大數(shù)據(jù)”不僅僅指數(shù)據(jù)規(guī)模龐大,還體現(xiàn)在數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。包括文本類數(shù)據(jù)、時(shí)序數(shù)據(jù)、序列數(shù)據(jù)、圖數(shù)據(jù)、時(shí)序圖數(shù)據(jù)等等異構(gòu)信息,需要在安全知識圖譜中以統(tǒng)一、規(guī)范的表示形式進(jìn)行組織,并提供一致的表示形式。探索基于神經(jīng)網(wǎng)絡(luò)的圖表示學(xué)習(xí)方法,將時(shí)序維度與圖關(guān)聯(lián)維度進(jìn)行完整的建模,是實(shí)現(xiàn)異構(gòu)知識統(tǒng)一表示的關(guān)鍵方法之一。
知識推理層面:魯棒、準(zhǔn)實(shí)時(shí)的因果推理。無論是攻擊與威脅的關(guān)聯(lián),還是資產(chǎn)數(shù)據(jù)風(fēng)險(xiǎn)的識別,網(wǎng)絡(luò)安全領(lǐng)域?qū)π袨椤⑹录?、意圖的歸因與溯源技術(shù)效果有較高的質(zhì)量追求。因此,亟需探索具有精確信息流依賴能力的因果推理方法,以保證基于安全知識圖譜的推理結(jié)果過程的魯棒性,提升推理結(jié)果的準(zhǔn)確性與置信度水平。此外,在大規(guī)模知識圖譜上進(jìn)行知識推理,仍需通過圖分割技術(shù)、分布式學(xué)習(xí)技術(shù)等方式提升推理流程的并行度,以滿足安全領(lǐng)域諸多應(yīng)用場景的準(zhǔn)實(shí)時(shí)需求。
知識遷移層面:跨場景知識遷移與人機(jī)智能融合?;诎踩R圖譜的應(yīng)用,具有多個(gè)細(xì)分領(lǐng)域,如威脅情報(bào)計(jì)算、安全運(yùn)營輔助、威脅動(dòng)態(tài)建模等等。在多個(gè)細(xì)分領(lǐng)域應(yīng)用中,將涉及不同范疇的知識本體與實(shí)例??赏ㄟ^探索跨場景的知識遷移方法,將不同場景下的推理模式進(jìn)行推廣,實(shí)現(xiàn)推理分析能力的延展。此外,通過人機(jī)工程、推薦搜索等不同機(jī)制的人機(jī)協(xié)同方法,提供持續(xù)的人類知識經(jīng)驗(yàn)與機(jī)器知識數(shù)據(jù)的信息融合接口,能夠進(jìn)一步加速安全知識圖譜的的知識固化與知識拓展,提升相關(guān)應(yīng)用的動(dòng)態(tài)環(huán)境適應(yīng)性。
參考文獻(xiàn)
Jajodia S, Noel S, Kalapa P, et al. Cauldron mission-centric cyber situational awareness with defense in depth[C]. MILCOM 2011 Military Communications Conference, 2011.
Xu Z, Fang P, Liu C, et al. DEPCOMM: Graph Summarization on System Audit Logs for Attack Investigation[C]. IEEE Symposium on Security and Privacy (SP), San Francisco, CA, 2021: 22-26.
The MITRE Corporation. MITRE ATT&CK Matrix for Enterprise[EB/OL]. https://attack.mitre.org/, 2020-10-27/2022-07-07.
The MITRE Corporation. Common Attack Pattern Enumeration and Classification (CAPEC)[EB/OL]. https://capec.mitre.org/, 2021-02-25/2022-07-07.
The MITRE Corporation.Common Weakness Enumeration (CWE)[EB/OL]. https://cwe.mitre.org/,
肖巖軍,王津,賴智全. 基于知識圖譜的APT組織追蹤治理. 綠盟科技研究通訊
Milajerdi S, Gjomemo R, Eshete B, et al. HOLMES: Real-Time APT Detection through Correlation of Suspicious Information Flows[M]. 2019: 1137-1152.
Hossain M N, Sheikhi S, Sekar R. Combating Dependence Explosion in Forensic Analysis Using Alternative Tag Propagation Semantics[C]. 2020 IEEE Symposium on Security and Privacy (SP), 2020: 1139-1155.[17] Pei K, Gu Z, Saltaformaggio B, et al.
HERCULE: attack story reconstruction via community discovery on correlated log graph[C]. Proceedings of the 32nd Annual Conference on Computer Security Applications, 2016: 583–595.