網(wǎng)絡(luò)安全保衛(wèi)者正在擴(kuò)展他們的AI工具箱
科學(xué)家正利用一種稱為深度強(qiáng)化學(xué)習(xí)(DRL:Deep Reinforcement Learning)的人工智能技術(shù)來保護(hù)計算機(jī)網(wǎng)絡(luò),并邁出了關(guān)鍵一步。
當(dāng)在嚴(yán)格的模擬環(huán)境中面對復(fù)雜的網(wǎng)絡(luò)攻擊時,深度強(qiáng)化學(xué)習(xí)在95%的時間內(nèi)有效阻止對手達(dá)到目標(biāo)。測試結(jié)果為自主人工智能在主動網(wǎng)絡(luò)防御中發(fā)揮作用提供了希望。
美國能源部太平洋西北國家實驗室(PNNL)的科學(xué)家在一份研究論文中記錄了他們的發(fā)現(xiàn),并于2月14日在華盛頓特區(qū)人工智能促進(jìn)協(xié)會年會期間,在網(wǎng)絡(luò)安全人工智能研討會上介紹了他們的工作。
項目起點(diǎn)是開發(fā)一個模擬環(huán)境,以測試涉及不同類型對手的多階段攻擊場景。為實驗創(chuàng)建這樣一個動態(tài)攻防模擬環(huán)境本身就是一個成果。該環(huán)境為研究人員提供了一種在受控測試環(huán)境下比較不同基于AI防御有效性的方法。
這些工具對于評估深度強(qiáng)化學(xué)習(xí)算法的性能至關(guān)重要。這種方法正在成為網(wǎng)絡(luò)安全專家的強(qiáng)大決策支持工具,DRL是一個具有學(xué)習(xí)能力、適應(yīng)快速變化的環(huán)境和自主決策能力的防御模式。以往其他形式的人工智能是檢測入侵或過濾垃圾郵件的標(biāo)準(zhǔn),但深度強(qiáng)化學(xué)習(xí)擴(kuò)展了防御者在與對手的日常對峙中協(xié)調(diào)順序決策計劃的能力。
深度強(qiáng)化學(xué)習(xí)提供了更智能的網(wǎng)絡(luò)安全、更早發(fā)現(xiàn)網(wǎng)絡(luò)環(huán)境變化的能力,以及采取先發(fā)制人措施挫敗網(wǎng)絡(luò)攻擊的機(jī)會。
介紹該團(tuán)隊工作的數(shù)據(jù)科學(xué)家Samrat Chatterjee表示:“一個有效的網(wǎng)絡(luò)安全人工智能代理需要根據(jù)它所能收集的信息以及它所做出的決策結(jié)果來感知、分析、行動和適應(yīng)?!薄吧疃葟?qiáng)化學(xué)習(xí)在這個領(lǐng)域具有巨大的潛力,因為系統(tǒng)狀態(tài)和可選擇行動的數(shù)量可能很大?!?/span>
DRL結(jié)合了強(qiáng)化學(xué)習(xí)(RL)和深度學(xué)習(xí)(DL),尤其適用于需要在復(fù)雜環(huán)境中做出一系列決策的情況。就像剛開始走路的孩子從磕磕碰碰和擦傷中學(xué)習(xí)一樣,基于深度強(qiáng)化學(xué)習(xí)(DRL)的算法是通過對好決策的獎勵和對壞決策的懲罰來訓(xùn)練的:導(dǎo)致理想結(jié)果的良好決策得到積極獎勵(以數(shù)值表示)的支持;通過扣除獎勵來阻止導(dǎo)致不良結(jié)果的不良選擇。
該團(tuán)隊使用開源軟件工具包OpenAI Gym作為基礎(chǔ),創(chuàng)建了一個自定義的受控模擬環(huán)境,以評估四種深度強(qiáng)化學(xué)習(xí)算法的優(yōu)缺點(diǎn)。
同時使用了MITRE公司開發(fā)的MITRE ATT&CK框架,并結(jié)合了三個不同對手部署的7種戰(zhàn)術(shù)和15種技術(shù)。防御者配備了23個緩解措施,試圖阻止或阻擋攻擊的進(jìn)展。
攻擊的階段包括偵察、執(zhí)行、持久性、防御規(guī)避、指揮和控制、收集和過濾(當(dāng)數(shù)據(jù)從系統(tǒng)中傳輸出去時)等戰(zhàn)術(shù)。如果對手成功進(jìn)入最后的過濾階段,則攻擊被記錄為獲勝。
Chatterjee表示:“我們的算法在競爭環(huán)境中運(yùn)行,這是一場與意圖破壞系統(tǒng)的對手的競爭。是一種多階段攻擊,在這種攻擊中,對手可以追求多種攻擊路徑,這些路徑可能會隨著時間的推移而改變,因為他們試圖從偵察轉(zhuǎn)向利用。我們的挑戰(zhàn)是展示基于深度強(qiáng)化學(xué)習(xí)的防御如何阻止這種攻擊?!?/span>
DQN優(yōu)于其他方法
該團(tuán)隊基于四種深度強(qiáng)化學(xué)習(xí)算法:DQN(深度Q-Network)和其他三種變體來訓(xùn)練防御性代理,接受了有關(guān)網(wǎng)絡(luò)攻擊的模擬數(shù)據(jù)訓(xùn)練,然后測試了他們在訓(xùn)練中沒有觀察到的攻擊。
DQN表現(xiàn)最好:
低等復(fù)雜的攻擊:DQN在攻擊階段中途阻止了79%的攻擊,在最后階段阻止停止了93%的攻擊。
中等復(fù)雜的攻擊:DQN在中途阻止了82%的攻擊,在最后階段阻止了95%的攻擊。
最復(fù)雜的攻擊:DQN在中途阻止了57%的攻擊,在最后階段阻止了84%的攻擊,遠(yuǎn)遠(yuǎn)高于其他三種算法。
Chatterjee說:“我們的目標(biāo)是創(chuàng)建一個自主的防御代理,它可以了解對手最有可能的下一步行動,并對其進(jìn)行規(guī)劃,然后以最佳方式做出反應(yīng),以保護(hù)系統(tǒng)?!?/span>
盡管取得了進(jìn)展,但沒有人愿意將網(wǎng)絡(luò)防御完全交給人工智能系統(tǒng)。相反,基于DRL的網(wǎng)絡(luò)安全系統(tǒng)需要與人類協(xié)同工作,前PNNL的合著者Arnab Bhattacharya說?!叭斯ぶ悄芸梢院芎玫胤烙囟ǖ膽?zhàn)略,但不能很好地理解對手可能采取的所有方法。我們離人工智能取代人類網(wǎng)絡(luò)分析師的階段還很遠(yuǎn)。人類的反饋和指導(dǎo)很重要?!?/span>
除了Chatterjee和Bhattacharya,研討會論文的作者還包括PNNL的Mahantesh Halappanavar和前PNNL科學(xué)家Ashutosh Dutta。這項工作由能源部科學(xué)辦公室資助,推動這項具體研究的一些早期工作是由PNNL的“科學(xué)中的人工推理數(shù)學(xué)”計劃通過實驗室指導(dǎo)研究與開發(fā)計劃資助的。