機(jī)器學(xué)習(xí)用于安全是美麗的謊言?
譯文譯者 | 布加迪
審校 | 孫淑娟
機(jī)器學(xué)習(xí)(ML)并不是神奇的技術(shù)。通常來(lái)說(shuō),ML適合在擁有龐大數(shù)據(jù)集的情況下解決范圍狹窄的問(wèn)題,受關(guān)注的模式具有高度可重復(fù)性或可預(yù)測(cè)性。大多數(shù)安全問(wèn)題不需要ML,也并不得益于ML。包括谷歌人員在內(nèi)的許多專家建議,在解決復(fù)雜問(wèn)題時(shí),應(yīng)該在用盡所有其他方法后再試用ML。
ML結(jié)合一系列廣泛的統(tǒng)計(jì)技術(shù):即使我們沒(méi)有提前為正確答案編好程,ML也讓我們可以訓(xùn)練計(jì)算機(jī)來(lái)估計(jì)解決問(wèn)題的答案。如果精心設(shè)計(jì)的ML系統(tǒng)用來(lái)處理合適類型的問(wèn)題,可以發(fā)掘原本無(wú)法獲得的洞察力。
每家組織的IT環(huán)境有不一樣的用途、架構(gòu)、優(yōu)先級(jí)和風(fēng)險(xiǎn)承受力。不可能創(chuàng)建在所有場(chǎng)景下廣泛支持安全用例的算法、ML或其他產(chǎn)品。這就是為什么ML在安全領(lǐng)域的大多數(shù)成功應(yīng)用結(jié)合了多種方法來(lái)解決一個(gè)非常具體的問(wèn)題。典型例子包括垃圾郵件過(guò)濾器、DDoS或僵尸程序(bot)緩解以及惡意軟件檢測(cè)。
1.垃圾進(jìn)垃圾出
ML的最大挑戰(zhàn)是擁有相關(guān)的可用數(shù)據(jù)來(lái)解決實(shí)際問(wèn)題。對(duì)于監(jiān)督式ML而言,您需要一個(gè)正確標(biāo)記的大型數(shù)據(jù)集。比如說(shuō),要構(gòu)建一個(gè)識(shí)別貓照片的模型,需要拿許多標(biāo)記為“貓”的貓照片和許多標(biāo)記為“非貓”的非貓照片來(lái)訓(xùn)練模型。如果您沒(méi)有足夠的照片或者它們的標(biāo)記不準(zhǔn)確,模型的效果就不會(huì)很好。
在安全方面,一個(gè)著名的監(jiān)督式ML用例是無(wú)特征惡意軟件檢測(cè)。許多端點(diǎn)保護(hù)平臺(tái) (EPP)供應(yīng)商使用ML來(lái)標(biāo)記大量惡意樣本和良性樣本來(lái)訓(xùn)練模型,知道“惡意軟件是什么樣子”。這些模型可以正確識(shí)別規(guī)避性變異惡意軟件及其他詭計(jì)(文件被篡改后,可以規(guī)避特征檢測(cè)方法,但仍然是惡意的)。ML并不匹配特征,而是使用另一個(gè)特征集預(yù)測(cè)惡意內(nèi)容,常??梢源』谔卣鞯姆椒ㄋ杪┑膼阂廛浖?。
由于ML模型是概率性的,因此需要取舍。ML可以逮住特征方法所疏漏的惡意軟件,但也可能疏漏特征方法逮住的惡意軟件。這就是為什么現(xiàn)代EPP工具使用混合方法,結(jié)合ML和基于特征的技術(shù),以實(shí)現(xiàn)最大保護(hù)范圍。
2.誤報(bào)問(wèn)題
即使模型精心設(shè)計(jì),ML在解釋輸出時(shí)也會(huì)帶來(lái)一些另外的挑戰(zhàn),包括:
- 結(jié)果是概率。ML 模型輸出的是可能性。如果您的模型旨在識(shí)別貓,會(huì)得到類似“這東西80%的可能性是貓”的結(jié)果。這種不確定性是ML系統(tǒng)的固有特征,可能會(huì)使結(jié)果難以解釋。80%的可能性是貓夠準(zhǔn)確嗎?
- 模型無(wú)法調(diào)整,至少最終用戶無(wú)法調(diào)整。為了處理概率性結(jié)果,工具可能由供應(yīng)商設(shè)置的閾值,將它們處理成二進(jìn)制結(jié)果。比如說(shuō),貓識(shí)別模型可能會(huì)報(bào)告任何可能性>90%的“貓”都是貓。貴企業(yè)在這方面的容忍度可能高于或低于供應(yīng)商設(shè)置的容忍度。
- 漏報(bào)(FN),即未能檢測(cè)出真正的惡意內(nèi)容,這是ML模型的一大弊端,尤其是調(diào)整欠佳的模型。我們不喜歡誤報(bào)(FP),因?yàn)樗鼈兝速M(fèi)時(shí)間。但PF 率和FN率之間存在固有的取舍。調(diào)整ML模型以優(yōu)化這種取舍,優(yōu)先考慮FP率-FN率的“最佳”平衡。然而,“正確”的平衡因組織而異,取決于它們各自的威脅和風(fēng)險(xiǎn)評(píng)估。使用基于ML的產(chǎn)品時(shí),必須信任供應(yīng)商為您選擇適當(dāng)?shù)拈撝怠?/li>
- 沒(méi)有足夠的上下文進(jìn)行警報(bào)分類。ML的一部分魔力在于,從數(shù)據(jù)集提取顯著的預(yù)測(cè)性但任意性的“特征”。想象一下,識(shí)別一只貓恰好與天氣高度相關(guān)。沒(méi)有人會(huì)這樣推理。但這就是ML的重點(diǎn)——找到我們?cè)緹o(wú)法找到的模式,并且大規(guī)模地這么做。即使預(yù)測(cè)的原因可以暴露給用戶,它在警報(bào)分類或事件響應(yīng)情況下常常毫無(wú)幫助。這是由于最終定義ML系統(tǒng)決策的“特征”對(duì)預(yù)測(cè)能力進(jìn)行了優(yōu)化。
3.任何其他名稱的“統(tǒng)計(jì)”方法
聽(tīng)起來(lái)都很美嗎?
除了ML的利弊外,還有一個(gè)地方要注意:并非所有的“ML”都是真正的ML。統(tǒng)計(jì)方法可以為您提供有關(guān)數(shù)據(jù)的一些結(jié)論。ML根據(jù)您擁有的數(shù)據(jù)對(duì)您沒(méi)有的數(shù)據(jù)進(jìn)行預(yù)測(cè)。營(yíng)銷人員熱衷于蹭“ML”和“人工智能”的熱度,號(hào)稱這是某種現(xiàn)代、創(chuàng)新、先進(jìn)的技術(shù)產(chǎn)品。然而,人們常常很少考慮這項(xiàng)技術(shù)是否使用ML,更不用說(shuō)ML是否是正確的方法。
4.ML能檢測(cè)出惡意內(nèi)容嗎?
當(dāng)“惡意內(nèi)容”定義明確且范圍狹窄時(shí),ML可以檢測(cè)出。它還可以檢測(cè)出與高度可預(yù)測(cè)的系統(tǒng)中的預(yù)期行為相偏差的情況。環(huán)境越穩(wěn)定,ML越有可能正確識(shí)別異常。但并非每個(gè)異常都是惡意的,操作人員并不總是有足夠的上下文來(lái)響應(yīng)。
ML的強(qiáng)大功能在于增強(qiáng)而不是代替現(xiàn)有方法、系統(tǒng)和團(tuán)隊(duì),以實(shí)現(xiàn)最佳覆蓋范圍和效率。
原文鏈接:https://www.darkreading.com/vulnerabilities-threats/the-beautiful-lies-of-machine-learning-in-security