百度高級安全工程師吳登輝:Web防火墻大數(shù)據(jù)分析實踐
原創(chuàng)吳登輝表示,本次分享是站在一個甲方的角度,詳細的闡述了利用大數(shù)據(jù)安全分析技術(shù)對百度Web防火墻的海量日志包括訪問日志和攔截日志進行多角度分析,帶大家感知未知Web攻擊,并為其他安全產(chǎn)品提供情報支持。
安全運維體系里最常見的四大痛點
透過百度的安全體系建設(shè),安全建設(shè)之困主要有主動漏洞發(fā)現(xiàn)、WAF和IPS做的攻擊阻斷、IDS做的攻擊檢測、XSRC或者Wooyun做的漏洞報告四方面的痛點。
主動漏洞發(fā)現(xiàn)。主動漏洞發(fā)現(xiàn)掃描器到底能發(fā)現(xiàn)多少個漏洞,這是個未知答案。因為存在身份認證和掃描器URL不全問題。對于一些需要身份認證的掃描頁面,假如用戶是一條刪除記錄的操作,掃描很可能給線上業(yè)務(wù)帶來傷害。如果在公司用掃描器時,帶上身份認證進行登錄的形式,很有可能造成線上數(shù)據(jù)一團糟。 掃描器UIL為什么不全,是因為有很多URL不一定爬蟲能夠爬到,是受限于爬蟲的。
攻擊阻斷。不要以為發(fā)布WAF和IPS就不備受攻擊,使用WAF不是百分之百解決你的問題,它只是使你的黑客攻擊更加困難了而已。黑客只要想攻擊,他還是有辦法的。
攻擊檢測。傳統(tǒng)的攻擊檢測是上了一臺設(shè)備,做了攻擊檢測,運維人員應(yīng)都有感受。當Web黑客用掃描器時,如遇某種情況,掃描器會觸發(fā)一千多條報警,面臨運維人員每天面臨這樣幾千條報警,放棄是必然。
漏洞報告。感覺利用XSRC能夠能夠攔截到攻擊,不被發(fā)現(xiàn)。真實情況是在被黑以后,黑客怕被警察抓,就在黑完之后,在Wooyun上發(fā)報告,以顯示自己是一個白帽子。但是他在你網(wǎng)站上做了什么事情,并無人知曉。
從入侵檢測角度談大數(shù)據(jù)安全
了解綜上這些甲方苦逼運維人員的痛苦之后,我們從從一個入侵檢測角度來談大數(shù)據(jù)安全。吳登輝表示,入侵檢測并不是針對一條報警,畫一個攻擊圖,說哪個IP在哪個地方攻擊你,展示在大屏幕上里,這樣做并沒有實際意義。而是通過從海量數(shù)據(jù)中發(fā)現(xiàn)一些傳統(tǒng)設(shè)備發(fā)現(xiàn)不了的問題,同時解決某些問題,如解決海量報警的問題。下面將從入侵監(jiān)測角度從數(shù)據(jù)采集、數(shù)據(jù)分析、基礎(chǔ)架構(gòu)、數(shù)據(jù)分析實踐四方面談大數(shù)據(jù)安全。
數(shù)據(jù)采集。數(shù)據(jù)采集也要講究方法,如把所有系統(tǒng)的數(shù)據(jù)全部采集過來那是采集狂魔。如只采集系統(tǒng)已有的數(shù)據(jù)放在集群上是采集懶人。安全數(shù)據(jù)采集是要有針對性的采集數(shù)據(jù),甚至需要開發(fā)特定的采集探針,有效的數(shù)據(jù)會保證你最后的分析事半功倍。
按攻擊樹和Cyber kill Chain采集數(shù)據(jù)
可按照攻擊樹和Cyber kill Chain來采集數(shù)據(jù),構(gòu)建攻擊場景。黑客到底有多少攻擊手法,來攻擊我們,在這條攻擊路徑上的所有日志,都可以采集來。
數(shù)據(jù)分析。通過機器學習發(fā)現(xiàn)異常,但異常的結(jié)果會比較多。其次要人工標定分析,人工標定分析就可以產(chǎn)出一個規(guī)則情報,之后將規(guī)則情報反饋給分析系統(tǒng),會產(chǎn)生更多的信息。這個流程其實是一個閉環(huán)的,情報是通過我們學習發(fā)現(xiàn)異常里面出現(xiàn)的,并且通過分析師分析得出。最終規(guī)則情報是反饋給現(xiàn)有分析系統(tǒng)。
基礎(chǔ)架構(gòu)。如上圖,大數(shù)據(jù)有很多種系統(tǒng)架構(gòu),吳登輝表示,真正的系統(tǒng)架構(gòu)應(yīng)該是可以實現(xiàn)交互式搜索,情報易集成可動態(tài)配置,支持機器學習模型訓練以及支持實時模型調(diào)用。
分析實踐。為了發(fā)現(xiàn)繞過Web防火墻的攻擊行為,并提取攻擊情報,包括掃描器payload惡意攻擊IP等。需要從HTTP請求的各個角度,PATH, QUERY, UA, SESSION等多個維度進行分析。并采用基于統(tǒng)計、機器學習,對PATH,QUERY,SESSION等建立模型的分析方法。包括:參數(shù)分布,請求頻率,SESSION請求寬度,404比例等。分析實踐有QUERY模型、PATH模型和SESSION模型。
實踐的效果
吳登輝在分享接近尾聲時,分享了實踐效果。他說到:“日輸入數(shù)據(jù)是3T多,這邊是保守的數(shù)據(jù),這是去年一開始3T,現(xiàn)在已經(jīng)接了安全網(wǎng)的數(shù)據(jù),其實是不止3T的。產(chǎn)出的異常,就是3T日志里面異常是十幾兆,經(jīng)過進一步剝離發(fā)現(xiàn)是千條。WAF總共50條規(guī)則,給WAF增加了十幾條規(guī)則。同時又改善了WAF十幾條規(guī)則,也就是說你可以認為WAF大部分規(guī)則都被我們這個系統(tǒng)調(diào)整過。另外一個發(fā)現(xiàn)眾多繞過WAF的Webshell,發(fā)現(xiàn)很多有趣的payload”。
講師簡介:
吳登輝,百度高級安全工程師。歷經(jīng)安全運維,安全測試,安全開發(fā)。對企業(yè)安全體系建設(shè),以及安全大數(shù)據(jù)分析具有較為深入的了解。曾就職于華為,負責二進制方面的漏洞挖掘工作。入職百度后,曾負責web安全測試、移動app安全評估以及一些安全規(guī)范安全體系的建立等,也參與了百度安全中心的建立。目前,主要負責web日志的安全分析。