機器學(xué)習(xí)的能與不能
技術(shù)產(chǎn)業(yè)一直以來都有炒作問題,永遠關(guān)注“下一個神器”,永遠吵嚷喧囂著世界將會產(chǎn)生怎樣的天翻地覆。追逐熱點是廠商的天性,當他們在自己認為的成長市場上搶占地盤的時候,一個又一個海口被不斷夸下。
2016新興技術(shù)成熟度曲線上,Gartner將機器學(xué)習(xí)放在了“期望膨脹期”頂峰位置。該曲線的下一個部分,通常來講,就是“幻想破滅期”了。期望到底能幻滅到何種程度,還有待觀察。
很容易看出機器學(xué)習(xí)在安全領(lǐng)域被過度炒作的原因。隨著攻擊者復(fù)雜性穩(wěn)步上升,隨著越來越多的高端技術(shù)被引入攻擊方法,召喚異??焖俣辛Φ臋C器智能來查找并阻擋威脅,似乎是個絕頂美妙的主意。
但是,夸大安全技術(shù)的能力和有效性是十分危險的。聽信不實宣傳的公司,有可能產(chǎn)生一種虛假的安全自信,反而淪為攻擊受害者。而且這種案例還會對安全業(yè)其他同行的信譽也添上污名。
炒作問題的根源,在于安全廠商運作的方式。
為了擴大市場份額,很多廠商都會什么好賣賣什么,產(chǎn)品有沒有用倒未必會在考慮之列,而且,誤導(dǎo)性的市場營銷還真不少見。他們的激情更多地放在了賺錢上,至于在攻擊性和防御性安全中間平衡的問題,需要考慮嗎?
另一個所有技術(shù)領(lǐng)域里都很常見的長期性問題,就是廠商可以利用其對解決方案的復(fù)雜性更為熟悉和專業(yè)這一優(yōu)勢。
極少有高管對機器學(xué)習(xí)操作原理有深入認知,即便IT主管里面也沒幾個清楚的,但他們肯定都知道這個術(shù)語——這得感謝不停洗腦的各路媒體。再加上機器學(xué)習(xí)的復(fù)雜性,炒作起來就更容易把機器學(xué)習(xí)當成治愈所有威脅的神奇萬靈丹了。
機器學(xué)習(xí)的優(yōu)勢與劣勢
炒作問題暫且不談,機器學(xué)習(xí)確實在安全方面起著重要的作用——只要能將它應(yīng)用在最適宜的問題上,且其短板能被補足。
機器學(xué)習(xí)是個很多元的學(xué)科,但基本上歸結(jié)于程序從數(shù)據(jù)中學(xué)習(xí),最終做出預(yù)測或者發(fā)現(xiàn)信息——在沒有被明確的預(yù)設(shè)規(guī)則的情況下。
這一能力在安全上有多種可能性,但最受關(guān)注的兩大領(lǐng)域,就是反病毒和用戶及實體行為分析(UEBA)。
在反病毒軟件領(lǐng)域,相比傳統(tǒng)解決方案只靠病毒特征碼查殺,機器學(xué)習(xí)的惡意軟件發(fā)現(xiàn)方式與之大為不同。而UEBA尋求建立用戶和機器的正常行為基準線,偏離該基線的異?;顒蛹纯赡苁菒阂庑袨椤?/p>
我們還可以期待機器學(xué)習(xí)大放異彩的一個領(lǐng)域,就是惡意軟件新變體的檢測,比如Andromeda系列惡意軟件。
只要機器學(xué)習(xí)模型經(jīng)由大量Andromeda家族惡意軟件樣例訓(xùn)練,便能精于發(fā)現(xiàn)新版本中一脈相承的特征。惡意軟件作者必須投入大量精力才能繞過該模式。
當然,機器學(xué)習(xí)模型訓(xùn)練不是那么容易的事,但面對層出不窮的新變體,機器學(xué)習(xí)還是能比傳統(tǒng)特征碼方式提供更好的檢測。
相較之下,機器學(xué)習(xí)可能無法滿足人們預(yù)期的一個方面,在于對合法軟件惡意使用的檢測,比如SSH客戶端或端口掃描器的惡意使用。
因為不是什么特別的惡意軟件,而且是系統(tǒng)管理員的常用工具,這些軟件通常會被歸類為良性的。讓機器學(xué)習(xí)模型來判斷操作者行為背后的意圖是善是惡,明顯有點超出所能了。
針對性攻擊中所用的定制軟件也是個大問題。如果該惡意軟件是前所未見的全新款,必然就沒有什么代表性樣本供機器學(xué)習(xí)算法訓(xùn)練。作為未知軟件,相對預(yù)期模型,仍有可能被標記為異常。
然而,現(xiàn)實世界中的很多合法軟件也往往是全新的。于是,讓解決方案一看到異常就阻止,必然會引發(fā)大混亂。另外,高級攻擊者會采用各種特殊方法來確保自己的惡意軟件被歸類成良性,就像他們繞過傳統(tǒng)反病毒軟件采用的病毒特征碼一樣。
對于UEBA方法,我們通常期望,隨著時間的推移,能對來自網(wǎng)絡(luò)和日志源的各類數(shù)據(jù)流建模,然后標識出偏離正常值的指標,揪出內(nèi)部偵察行為、橫向移動或數(shù)據(jù)滲漏活動。
一般不連接互聯(lián)網(wǎng)的數(shù)據(jù)庫服務(wù)器突然傳輸了500GB信息,就是高度異常的行為。類似的,管理服務(wù)賬戶從不常操作的主機登錄大量系統(tǒng),也是被盜憑證用于橫向移動的明顯標志。
但是,也有其他相對復(fù)雜的情況。比如擊鍵記錄和特定用戶終端上的敏感文檔盜竊。這些行為都令人擔憂,但又可能涉及處于正常范圍內(nèi)的數(shù)據(jù)量。
惡意軟件在同一個子網(wǎng)里各工作站之間的橫向移動也是個問題。但有可能因為網(wǎng)絡(luò)傳感器覆蓋沒有那么深入,日志源只從關(guān)鍵服務(wù)器而不是全體終端資產(chǎn)上收集,而導(dǎo)致此類行為不可見。
C2信道也可能利用非常常見且合法的服務(wù),比如云即時消息服務(wù)。而且,用戶并非完全可預(yù)測的,很可能以之前沒用過的方式訪問系統(tǒng)或服務(wù),而這些都是完全良性的。
這些案例充分標識出了機器學(xué)習(xí)的三大盲點:
- 已有數(shù)據(jù)集中表現(xiàn)正常而無法檢測出的惡意行為;
- 往往表現(xiàn)異常而導(dǎo)致大量誤報的非惡意行為;
- 因為缺乏所需數(shù)據(jù)而無法檢測出的惡意行為。
克服短板——人類干預(yù)
最重要的一課在于,企業(yè)網(wǎng)絡(luò)通常都是極不規(guī)則的環(huán)境——異常太多,以致誤報成常態(tài),而真正的惡意行為卻能偽裝潛伏在看起來正常的行為中。
為克服該短板,機器學(xué)習(xí)需要結(jié)合人類的專業(yè)技能。技術(shù)高超訓(xùn)練精良的團隊,可以恰當?shù)亟庾x和調(diào)查機器學(xué)習(xí)的發(fā)現(xiàn)。多年的攻擊檢測與阻止經(jīng)驗,意味著高級安全團隊能夠識別更細微的惡意入侵跡象,不放任入侵行為混在正常行為里瞞天過海。
另外,必須認識到,機器學(xué)習(xí)方法也僅僅是分析技術(shù)中的一種,也有自己的優(yōu)勢和弱點,而一個有效的攻擊檢測系統(tǒng),需要多種不同技術(shù)相輔相成。
機器學(xué)習(xí)炒作尚需一定時間才能平息,公司企業(yè)必須警惕任何將機器學(xué)習(xí)產(chǎn)品當做萬靈丹兜售的廠商。機器學(xué)習(xí)算法能提供強勁的分析速度和廣度,但僅能保證在特定場景中的安全,限制頗多。
但,只要應(yīng)用在正確的問題上,再結(jié)合足夠的人類經(jīng)驗和其他分析方法,機器學(xué)習(xí)就是直面網(wǎng)絡(luò)攻擊威脅的強力工具。
【本文是51CTO專欄作者“”李少鵬“”的原創(chuàng)文章,轉(zhuǎn)載請通過安全牛(微信公眾號id:gooann-sectv)獲取授權(quán)】