SDN云數(shù)據(jù)中心網(wǎng)絡(luò)異常行為的智能處理實踐
摘要:云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為不僅對網(wǎng)絡(luò)設(shè)備造成嚴(yán)重業(yè)務(wù)負(fù)荷,同時也顯著影響云用戶使用感知。云計算環(huán)境中的共享資源模式和云用戶迥然不同的業(yè)務(wù)形態(tài),使得云網(wǎng)絡(luò)分析和異常行為定位極為困難。南方基地移動云網(wǎng)絡(luò)運維團(tuán)隊針對云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為進(jìn)行特征提取和分析,并基于移動云sdn數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和原理進(jìn)行深度剖析,總結(jié)出一套“流表流量粗細(xì)結(jié)合”的分析策略,成功實現(xiàn)低成本高效率的網(wǎng)絡(luò)異常行為發(fā)現(xiàn)。同時基于devops理念,制定了一套網(wǎng)絡(luò)異常行為自動化檢測和封堵的智能系統(tǒng),實現(xiàn)對網(wǎng)絡(luò)異常行為的快速處理。
Introduction
前言
在集團(tuán)公司的大連接戰(zhàn)略中,云管端服務(wù)體系是數(shù)字化轉(zhuǎn)型的關(guān)鍵技術(shù)。作為云管端體系的重要環(huán)節(jié),云計算得到大力發(fā)展。移動云(ecloud.10086.cn)是總部級公有云,其在南方基地節(jié)點具備2400臺物理主機(jī)、450臺網(wǎng)絡(luò)設(shè)備的硬件規(guī)模。移動云采用前沿的openstack+SDN架構(gòu),為客戶提供快捷、可靠的云服務(wù)。為實現(xiàn)海量的不同用戶之間相互隔離,SDN在原有基礎(chǔ)網(wǎng)絡(luò)之上構(gòu)建overlay網(wǎng)絡(luò)來承載用戶流量。在數(shù)據(jù)中心中,海量的用戶雖相互獨立,卻共享著相同的網(wǎng)絡(luò)架構(gòu)與基礎(chǔ)設(shè)施資源。在如此復(fù)雜的網(wǎng)絡(luò)架構(gòu)下,面對用戶形態(tài)各異的業(yè)務(wù),想要從網(wǎng)絡(luò)層面分析客戶的流量與業(yè)務(wù)行為,愈發(fā)困難。
1.1 客戶投訴頻發(fā)
針對云網(wǎng)絡(luò)投訴工單分析時發(fā)現(xiàn),網(wǎng)絡(luò)異常行為引發(fā)的投訴占比較大。這類投訴主要有以下幾類常見形態(tài),如云主機(jī)密碼被攥改 后無法登錄、云主機(jī)被攻擊導(dǎo)致拒絕服務(wù),或者懷疑云主機(jī)被植入未知東西請求定位分析等。處理這類問題極為棘手,從回溯云主機(jī)過往流量來定位網(wǎng)絡(luò)異常行為,進(jìn)階追蹤異常流量來源,并提供有效數(shù)據(jù)讓客戶配合整改等,每個環(huán)節(jié)不僅需要依賴于昂貴的專業(yè)網(wǎng)絡(luò)分析工具,同時還耗費較多的運維時間和人力。在網(wǎng)絡(luò)分析工具未采集和保存相關(guān)異常流量的情況,異常流量無法深層次展開分析,會出現(xiàn)問題無法解決的極端情況。
1.2 網(wǎng)絡(luò)設(shè)備負(fù)荷大且網(wǎng)絡(luò)使用感知差
在云網(wǎng)絡(luò)環(huán)境中倘若沒有及時發(fā)現(xiàn)并封堵某個云主機(jī)的網(wǎng)絡(luò)異常行為,不僅會導(dǎo)致同一區(qū)域內(nèi)的其它虛擬機(jī)有感染病毒的風(fēng)險,還會對給數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)備帶來較重的業(yè)務(wù)負(fù)荷。前期云數(shù)據(jù)中心出現(xiàn)過云主機(jī)發(fā)出大量小包攻擊導(dǎo)致出口云防火墻達(dá)到處理能力極限引發(fā)設(shè)備模塊異常宕機(jī),云主機(jī)發(fā)出大量無效填充數(shù)據(jù)包導(dǎo)致接入網(wǎng)絡(luò)設(shè)備鏈路達(dá)到最大閾值等多起網(wǎng)絡(luò)故障。網(wǎng)絡(luò)異常行為的連鎖影響,會降低數(shù)據(jù)中心提供的網(wǎng)絡(luò)服務(wù)質(zhì)量,在行業(yè)和客戶中帶來負(fù)面印象。及時發(fā)現(xiàn)并有效封堵這類網(wǎng)絡(luò)異常行為,是云計算網(wǎng)絡(luò)運維需要盡快解決的迫切難題。
Nature
問題本質(zhì)分析
從攻擊方向上來區(qū)分,云數(shù)據(jù)中心的網(wǎng)絡(luò)異常行為可以分為外網(wǎng)攻擊和內(nèi)網(wǎng)攻擊。外網(wǎng)攻擊是指攻擊源來自于外網(wǎng),與此相反,內(nèi)網(wǎng)攻擊是指攻擊源來自數(shù)據(jù)中心內(nèi)部。云數(shù)據(jù)中心外網(wǎng)攻擊問題的風(fēng)險相對可控,可以通過加強(qiáng)邊界安全防護(hù)來應(yīng)對;內(nèi)網(wǎng)攻擊問題的風(fēng)險和影響范圍則要嚴(yán)重得多。云數(shù)據(jù)中心提供的安全可靠的云主機(jī)無故變成攻擊源,用戶會質(zhì)疑云服務(wù)的可靠性,引發(fā)信任危機(jī)。為什么云主機(jī)變成了攻擊源且沒有手段及時主動發(fā)現(xiàn)內(nèi)部攻擊源,是問題關(guān)鍵。
2.1 客戶行為空間大,安全意識薄弱
首先,云數(shù)據(jù)中心提供給用戶的網(wǎng)絡(luò)編排服務(wù)是極為靈活的,尤其是公有云數(shù)據(jù)中心,用戶可以按需訂購路由器和防火墻等網(wǎng)元,也可以自由定義外部的防火墻規(guī)則和內(nèi)部的云主機(jī)安全組規(guī)則。不同云租戶業(yè)務(wù)形態(tài)及重要性不同,負(fù)責(zé)運維的IT人員水平也不同。倘若有部分用戶的安全防護(hù)意識不高,例如未設(shè)置合適的安全防御規(guī)則或是操作行為管控不嚴(yán)格,其云主機(jī)可能因植入木馬或感染病毒而成為網(wǎng)絡(luò)攻擊源。由于云里面虛擬化層面的許多資源是共享的,內(nèi)網(wǎng)IP主機(jī)受感染后會對其他內(nèi)網(wǎng)主機(jī)、外網(wǎng)IP進(jìn)行感染和攻擊,會進(jìn)一步擴(kuò)大感染范圍。
2.2 現(xiàn)有安全防護(hù)設(shè)計集中在出口
其次,受限于技術(shù)發(fā)展制約,現(xiàn)有安全設(shè)備虛擬化的進(jìn)展相對較慢。目前較多的安全設(shè)備仍然采用傳統(tǒng)模式且較為集中部在數(shù)據(jù)中心出口邊界處。這種部署模式更多的是進(jìn)行數(shù)據(jù)中心南北向流量的安全防御,針對數(shù)據(jù)中心內(nèi)部的安全防御能力則較為薄弱。例如內(nèi)網(wǎng)龐大的流量里遭遇小包攻擊或者是一臺虛機(jī)中了病毒開始做慢速掃描,這類網(wǎng)絡(luò)異常行為一般很難發(fā)現(xiàn)和引流出來,這樣就會把一些非常嚴(yán)重的安全事件忽略掉。
2.3 傳統(tǒng)網(wǎng)絡(luò)分析手段的制約
最后,采用傳統(tǒng)的網(wǎng)絡(luò)流量采集分析系統(tǒng)(包含數(shù)據(jù)中心內(nèi)部的流量),通過其回溯和分析能力可以清晰定位網(wǎng)絡(luò)異常行為,但這是一個昂貴的解決方案。大多數(shù)云數(shù)據(jù)中心內(nèi)部都是使用的萬兆以上的網(wǎng)絡(luò),服務(wù)器與服務(wù)器之間的通信流量很龐大,在上百個機(jī)柜上千臺服務(wù)器的情況下,數(shù)據(jù)中心內(nèi)部流量極其龐大。傳統(tǒng)網(wǎng)絡(luò)分析系統(tǒng)通常是幾十G的處理能力,難以滿足內(nèi)部大流量需求。
Measure
云網(wǎng)絡(luò)異常行為的處理手段
在云數(shù)據(jù)中心構(gòu)建內(nèi)部和出口側(cè)全方位一體的網(wǎng)絡(luò)異常行為檢測系統(tǒng),是解決問題的第一步,也是尤為關(guān)鍵的一步。南方基地針對網(wǎng)絡(luò)異常行為進(jìn)行特征提取和分析,并基于移動云數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和原理進(jìn)行深度剖析,總結(jié)出一套“流表流量粗細(xì)結(jié)合”的分析策略,成功實現(xiàn)低成本高效率的網(wǎng)絡(luò)異常行為發(fā)現(xiàn)。在云數(shù)據(jù)中心內(nèi)部,數(shù)據(jù)量極為龐大的云主機(jī)數(shù)據(jù)發(fā)送端,通過匹配虛擬交換機(jī)的流表特征,初步篩選出異常虛擬機(jī);在云數(shù)據(jù)中心核心層和出口側(cè),數(shù)據(jù)量相對較少的網(wǎng)絡(luò)節(jié)點上,基于傳統(tǒng)網(wǎng)絡(luò)分析系統(tǒng)匹配用戶數(shù)據(jù)包的特征,精準(zhǔn)篩選出異常虛擬機(jī)的可疑行為,并進(jìn)行深層次的問題分析。
3.1 SDN組網(wǎng)環(huán)境介紹
移動云數(shù)據(jù)中心在四期項目中采用了SDN的網(wǎng)絡(luò)解決方案,以滿足網(wǎng)絡(luò)全自動化部署、快速配置等數(shù)據(jù)中心網(wǎng)絡(luò)新需求。在網(wǎng)絡(luò)管理平面引入了openflow流表,實現(xiàn)控制器對虛擬交換機(jī)的靈活控制;在網(wǎng)絡(luò)業(yè)務(wù)平面引入了vxlan技術(shù),即在原有underlay網(wǎng)絡(luò)之上構(gòu)建了一層overlay網(wǎng)絡(luò),打破vlan數(shù)量制約,顯著擴(kuò)展業(yè)務(wù)隔離域數(shù)量。
圖1:sdn云數(shù)據(jù)中心的具體網(wǎng)絡(luò)架構(gòu)示意圖
3.2 新的發(fā)現(xiàn)手段:源+出口兩手結(jié)合
我們從物理機(jī)上虛擬交換機(jī)的流表和移動云核心、出口側(cè)的流量這兩個點出發(fā),可以實現(xiàn)對數(shù)據(jù)中心內(nèi)部流量的全方位覆蓋,并能針對具體網(wǎng)絡(luò)流量進(jìn)行全面。
3.2.1 虛擬交換機(jī)的流表分析
傳統(tǒng)數(shù)據(jù)中心內(nèi),硬件服務(wù)器是最小的計算單元;云數(shù)據(jù)中心內(nèi),虛擬機(jī)才是最小的計算單元。與傳統(tǒng)數(shù)據(jù)中心組網(wǎng)不同,云數(shù)據(jù)中心內(nèi)虛擬交換機(jī)是名副其實的接入交換機(jī),是網(wǎng)絡(luò)接入的第一線。采用傳統(tǒng)的網(wǎng)絡(luò)分析方法,需要通過端口鏡像的方式將流量引出到外部的網(wǎng)絡(luò)分析系統(tǒng)進(jìn)行異常行為的判斷。端口鏡像的方式,會對硬件服務(wù)器的網(wǎng)卡性能進(jìn)行對半消耗,同時對虛擬交換機(jī)的性能也有較大影響。能否在虛擬交換機(jī)上通過其它的方式來進(jìn)行網(wǎng)絡(luò)異常行為的發(fā)現(xiàn)呢?剖析虛擬交換機(jī)的工作原理成為關(guān)鍵。
OpenvSwitch,簡稱OVS,是一個虛擬交換軟件。OVS的連接著物理網(wǎng)卡和多塊虛機(jī)的虛擬網(wǎng)卡,并根據(jù)內(nèi)部的 MAC地址映射表完成數(shù)據(jù)轉(zhuǎn)發(fā)。在SDN架構(gòu)下,控制器下發(fā)openflow流表指導(dǎo)OVS進(jìn)行實現(xiàn)交換策略。
ovs核心工作包括數(shù)據(jù)轉(zhuǎn)發(fā)和實現(xiàn)交換策略。數(shù)據(jù)交換工作,即負(fù)責(zé)從設(shè)備入端口接收數(shù)據(jù)包并依據(jù)流表信息對其進(jìn)行管理。而OVS的OpenFlow協(xié)議支持則用于實現(xiàn)交換策略,即通過增加、刪除、修改流表項的方式告訴數(shù)據(jù)轉(zhuǎn)發(fā)通路針對不同的數(shù)據(jù)流采用不同的動作
虛擬交換機(jī)的內(nèi)核流表,能夠較為直觀的反應(yīng)出實時流量的關(guān)鍵信息,如虛擬交換機(jī)端口,源目的ip,源目的端口,數(shù)據(jù)包類型等。若此時有一個ping數(shù)據(jù)包,其相對應(yīng)的流表如下如示。
獲取到以下對應(yīng)的流表:
- ·skb_priority(0),tunnel(tun_id=0x31b3f5/0xffffffffffffffff,src=10.0.1.2/255.255.255.255,dst=10.0.1.1/255.255.255.255,tos=0/0xff,ttl=64/0xff,flags(key)),in_port(6),skb_mark(0),eth(src=fa:16:3e:eb:2b:1e,dst=fa:16:3e:79:b7:62),eth_type(0x0800),ipv4(src=192.168.1.5/255.255.255.255,dst=192.168.1.3/255.255.255.255,proto=1/0xff,tos=0/0,ttl=64/0,frag=no/0xff), packets:7, bytes:686, used:0.882s, actions:5
- ·skb_priority(0),in_port(5),eth(src=fa:16:3e:79:b7:62,dst=fa:16:3e:eb:2b:1e),eth_type(0x0800),ipv4(src=192.168.1.3/255.255.255.255,dst=192.168.1.5/255.255.255.255,proto=1/0xff,tos=0/0x3,ttl=64/0,frag=no/0xff), packets:7, bytes:686, used:0.883s, actions:set(tunnel(tun_id=0x31b3f5,src=0.0.0.0,dst=10.0.4.84,tos=0x0,ttl=64,flags(key))),6
表1:流表數(shù)據(jù)
虛擬機(jī)的每一個實時會話都會以一個流表項的方式呈現(xiàn)出來。只要針對流表項進(jìn)行深度分析,就能真實復(fù)原云主機(jī)的會話詳情。虛擬交換機(jī)的下聯(lián)端口與云主機(jī)一一關(guān)聯(lián),若是虛擬交換機(jī)某個下聯(lián)端口的流表提取特征有異常,則可以判斷出該端口對應(yīng)的云主機(jī)有可能存在網(wǎng)絡(luò)異常行為。
- 流表數(shù)量過大:單臺云主機(jī)對應(yīng)的流表數(shù)量超出10000條/秒。
- 流表方向不對稱:單臺虛機(jī)對應(yīng)的出方向流表數(shù)量大于2000條/秒,且入方向流表小于50條/秒。
我們采用了開源監(jiān)控工具zabbix設(shè)置好告警規(guī)則,包括某段時間內(nèi)的平均流表數(shù)量、某段時間內(nèi)的流表變化速率、收發(fā)比閾值等告警條件。在某一臺虛機(jī)或物理機(jī)流表數(shù)據(jù)匹配上規(guī)則時,發(fā)出相應(yīng)的告警。
3.2.2 數(shù)據(jù)中心核心和出口側(cè)的流量分析
數(shù)據(jù)中心的核心層和出口側(cè)均進(jìn)行端口鏡像將流量引入到后端的網(wǎng)絡(luò)分析系統(tǒng)。核心層和出口側(cè)的流量雖然相對較少,但卻是數(shù)據(jù)中心的關(guān)鍵流量信息,例如數(shù)據(jù)中心與外部網(wǎng)絡(luò)的交互,數(shù)據(jù)中心內(nèi)部跨匯聚交換機(jī)的交互流量均能被有效采集。針對網(wǎng)絡(luò)分析系統(tǒng)獲取到的數(shù)據(jù)包進(jìn)行下述關(guān)鍵特征匹配。
數(shù)據(jù)包收發(fā)比:正常通訊過程中,通訊雙發(fā)的數(shù)據(jù)會維持在特定的收發(fā)比例,即使下載數(shù)據(jù)過程中,數(shù)個下載數(shù)據(jù)包后總會有一個ACK包維持通信過程;根據(jù)移動云用戶歷史數(shù)據(jù)基準(zhǔn),定義符合“單臺主機(jī)發(fā)包大于10000個/秒,收到小于50個/秒”的條件時,是填充數(shù)據(jù)包攻擊的網(wǎng)絡(luò)異常行為。該行為對網(wǎng)絡(luò)影響嚴(yán)重,數(shù)個這樣的客戶端可使一條10G鏈路超載;通過該策略找出的異常客戶端,經(jīng)過事后驗證,從未錯誤識別過一臺正常主機(jī),屬于適合云環(huán)境的有效預(yù)警策略。
tcp同步數(shù)據(jù)包收發(fā)比:云內(nèi)部不正常的SYN掃描總伴隨著安全攻擊和泛洪攻擊。根據(jù)移動云歷史基準(zhǔn),正常的云端主機(jī)的TCP連接行為會維持在一個穩(wěn)定水平,定義符合“單臺主機(jī)tcp第一個請求數(shù)據(jù)包的發(fā)包大于2000個/秒,ack應(yīng)答包收到小于50個/秒”的條件時,是泛洪攻擊的網(wǎng)絡(luò)異常行為。
若是數(shù)據(jù)包匹配上述規(guī)則,則觸發(fā)告警,通過實時對監(jiān)控鏈路的流量異常變化進(jìn)行預(yù)警,發(fā)現(xiàn)異常虛機(jī),在用戶體驗感受下降前,主動出擊解決問題,實現(xiàn)運營的主動化。
Intelligent means
云網(wǎng)絡(luò)異常行為的智能處理
在云數(shù)據(jù)中心流程化、自動化處理網(wǎng)絡(luò)異常行為,是抑制網(wǎng)絡(luò)異常行為帶來的影響,也是徹底刨除問題源頭的重要環(huán)節(jié)。南方基地結(jié)合開源監(jiān)控軟件及自行開發(fā)的運維平臺,自動化采集流表及流量數(shù)據(jù),智能化告警監(jiān)控,定制化開發(fā)異常流量的封堵手段。在抑制病毒擴(kuò)散,清理病毒源的同時,實現(xiàn)自動化運維,提高運維效率。從被動運維,被動接投訴、接故障,到主動運維,及時發(fā)現(xiàn)問題,實時處理問題,實現(xiàn)運維角色的轉(zhuǎn)換。
4.1 自動化處理流程
處理流程:采集---告警---封堵---整改---整體提升。對于網(wǎng)絡(luò)異常行為,我們采用了智能化、自動化的處理方式。
首先,對物理機(jī)上虛擬交換機(jī)的流表和移動云核心、出口側(cè)的流量信息進(jìn)行數(shù)據(jù)采集。采用zabbix自動獲取物理機(jī)上虛擬交換機(jī)的流表數(shù)據(jù),采用科來系統(tǒng)鏡像引流核心層及出口側(cè)的流量。其次,分別在zabbix、科來系統(tǒng)上設(shè)置閾值及關(guān)鍵特征等告警條件,及時發(fā)現(xiàn)網(wǎng)絡(luò)異常的公網(wǎng)IP或客戶虛機(jī)。然后,調(diào)用云數(shù)據(jù)中心openstack的API接口,為云管理平臺定制化開發(fā)流量封堵功能,對網(wǎng)絡(luò)異常的流量進(jìn)行封堵。最后,在核實客戶已完成整改后,由云管理平臺解封客戶虛機(jī),整體提升數(shù)據(jù)中心的網(wǎng)絡(luò)環(huán)境。
4.2 數(shù)據(jù)采集
4.2.1 zabbix工具
流表數(shù)據(jù)采集使用zabbix系統(tǒng),zabbix是一套具備分布式系統(tǒng)監(jiān)控及網(wǎng)絡(luò)監(jiān)控功能的開源軟件。為解決云環(huán)境下,客戶虛機(jī)動態(tài)創(chuàng)建,端口流表數(shù)據(jù)采集無法提前配置的問題,我們采用zabbix自動發(fā)現(xiàn)規(guī)則,在物理機(jī)上配置好key,并結(jié)合OVS,實時發(fā)現(xiàn)虛機(jī)及對應(yīng)的虛擬端口,定時收集每臺虛機(jī)的流表數(shù)量、數(shù)據(jù)收發(fā)等關(guān)鍵數(shù)據(jù)。
4.2.2 科來系統(tǒng)
出口側(cè)流量采集使用科來系統(tǒng),科來網(wǎng)絡(luò)回溯分析系統(tǒng)是一款集成數(shù)據(jù)包采集和智能分析硬件平臺,分布部署在網(wǎng)絡(luò)的關(guān)鍵節(jié)點,實現(xiàn)對數(shù)據(jù)包級的實時智能分析。我們采用端口鏡像的方式,通過分光器將出口側(cè)及核心層的業(yè)務(wù)流量復(fù)制到后端分析節(jié)點,從而獲取出口側(cè)流量數(shù)據(jù)。
4.3 告警閾值設(shè)置
依據(jù)上一章節(jié)的OVS流表規(guī)范及出口側(cè)流量規(guī)范設(shè)置zabbix及科來系統(tǒng)的告警規(guī)則,智能發(fā)現(xiàn)網(wǎng)絡(luò)行為異常的虛機(jī)和公網(wǎng)IP。利用其圖形界面展示某段時間內(nèi)虛機(jī)的流表數(shù)量、變化速率及收發(fā)比變化,以及公網(wǎng)IP的數(shù)據(jù)包內(nèi)容及連接數(shù)量等信息,協(xié)助甄別客戶虛機(jī)是否正對外發(fā)起攻擊。
4.4 定制化開發(fā)流量封堵功能
在openstack與SDN的云環(huán)境中,端口分為內(nèi)網(wǎng)端口和外網(wǎng)端口,虛機(jī)對外訪問的流量先經(jīng)內(nèi)網(wǎng)端口轉(zhuǎn)發(fā)到外網(wǎng)端口后再通過外網(wǎng)。為保證網(wǎng)絡(luò)異常行為不影響數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)環(huán)境,我們需在內(nèi)網(wǎng)端口進(jìn)行流量封堵。同時,為保證客戶能有特殊通道進(jìn)入虛機(jī)進(jìn)行安全整改,我們使用安全組放通特定流量。調(diào)用openstack API及監(jiān)控系統(tǒng)API,在云管理平臺定制化開發(fā)行為異常封堵功能。在發(fā)生行為異常告警時,可由云管理平臺直接完成流量封堵并通知客戶。
正常的流量途徑是:虛機(jī)——>虛機(jī)網(wǎng)卡——>虛擬交換機(jī)——>物理網(wǎng)卡——>外部網(wǎng)絡(luò),其中,在虛擬交換機(jī)上經(jīng)控制器下發(fā)流表對流量進(jìn)行nat或隧道封裝。簡單地對虛機(jī)網(wǎng)卡進(jìn)行流量封堵,會因客戶行為引發(fā)openstack系統(tǒng)狀態(tài)恢復(fù)而導(dǎo)致虛機(jī)網(wǎng)卡封堵失敗。在物理網(wǎng)卡上進(jìn)行流量封堵,則會導(dǎo)致移動云系統(tǒng)前后臺配置不一致。為了精確區(qū)分每一個虛機(jī)的流量,保證封堵的效果與穩(wěn)定性,采用自定義開發(fā)的腳本,通過API接口調(diào)用控制器下發(fā)openflow流表丟棄異常的虛機(jī)流量是最佳的選擇。
封堵邏輯如下:云管理平臺通過api接口查詢openstack系統(tǒng),確定網(wǎng)絡(luò)行為異常虛機(jī)的端口信息。同時,預(yù)先定義好限速為100k的QOS及放通特定端口的安全組規(guī)則。確定端口信息后,云管理平臺將預(yù)設(shè)的QOS、安全組及虛機(jī)端口下發(fā)給SDN控制器。SDN控制器自動生成openflow流表,并下發(fā)到流量異常虛機(jī)所在物理機(jī),由流表實現(xiàn)異常流量的封堵。
4.5 自動化處理思路
移動云數(shù)據(jù)中心采用了SDN的網(wǎng)絡(luò)解決方案,引入openflow流表、vxlan等新技術(shù),帶來網(wǎng)絡(luò)全自動化部署等新功能,但也增加運維的復(fù)雜度。為了減少重復(fù)、繁多的運維工作,自動化是必然的發(fā)展方向。深入剖析openflow流表、客戶網(wǎng)絡(luò)行為、數(shù)據(jù)包結(jié)構(gòu)三者之間的關(guān)系,挖掘到這些離散數(shù)據(jù)背后的規(guī)則,使自動化處理網(wǎng)絡(luò)異常行為成為可能。移動云使用的開源軟件openstack、zabbix等,更便捷地對接數(shù)據(jù)采集、監(jiān)控告警、系統(tǒng)封堵各環(huán)節(jié),是流程自動化的保證。
將重復(fù)的故障處理腳本化,能為自動化平臺提供原子腳本支撐,并豐富平臺功能;而自動化平臺的開放性與完整體系,保證大多數(shù)的運維工作都能在平臺上實現(xiàn)。兩者相輔相成,最終實現(xiàn)平臺自動化完成重復(fù)性、規(guī)律性工作,提高整體運維效率。
Achievements and Extend
效益及推廣分析
5.1 網(wǎng)絡(luò)攻擊有效遏制
采用該套異常流量分析系統(tǒng)后,網(wǎng)絡(luò)安全事件工單數(shù)量從平均每周13單,下降了80%。安全事件工單處理時長從8小時,縮短了95%,半小時便能走完以下步驟:智能發(fā)現(xiàn)異常流量、歷史數(shù)據(jù)判斷,專業(yè)分析確定異常,自動化封堵流量。使得數(shù)據(jù)中心的異常流量得到有效控制,網(wǎng)絡(luò)安全環(huán)境大為改善。
5.2 發(fā)現(xiàn)新的分析手段
結(jié)合ovs的流表匹配規(guī)則,不僅能收集全網(wǎng)虛機(jī)的網(wǎng)絡(luò)流量數(shù)據(jù),同時也不會侵犯客戶數(shù)據(jù)隱私。該分析策略用于故障預(yù)防和快速定位,可實現(xiàn)運維可視化管理,用量化數(shù)據(jù)指導(dǎo)云數(shù)據(jù)中心建設(shè),從科學(xué)的角度去規(guī)劃、優(yōu)化網(wǎng)絡(luò)與業(yè)務(wù)系統(tǒng),不僅是保證網(wǎng)絡(luò)業(yè)務(wù)正常,還能為產(chǎn)品運營提供支撐,擴(kuò)大運營收入。
作者簡介:
陳健林,中移動網(wǎng)絡(luò)運維工程師,入網(wǎng)維坑已有三年,負(fù)責(zé)云數(shù)據(jù)中心SDN網(wǎng)絡(luò)架構(gòu)設(shè)計、運維、優(yōu)化等工作。
劉瑛,中國移動高級網(wǎng)絡(luò)運維工程師,負(fù)責(zé)云數(shù)據(jù)中心的SDN網(wǎng)絡(luò)架構(gòu)設(shè)計、運維、優(yōu)化等工作,具有豐富的運維實戰(zhàn)經(jīng)驗。