如何衡量數(shù)據(jù)中心的高可用及容災水平
數(shù)據(jù)中心的好與差有很多評判的方法,很多評價機構都是將多方面的因素考慮進來,對每種因素進行評分,再根據(jù)經(jīng)驗對每種因素給定權重,最終得出數(shù)據(jù)中心的評價結果,按照預先定義的數(shù)據(jù)中心等級,根據(jù)評價結果給數(shù)據(jù)中心定級。不少的數(shù)據(jù)中心評價機構盡量保證數(shù)據(jù)的真實性和權威性,一定要將數(shù)據(jù)中心分個三六九等,這其中就有兩項非常重要的參數(shù),就是一個數(shù)據(jù)中心的高可用性和數(shù)據(jù)中心的容災能力。往往這兩項會在整個數(shù)據(jù)中心評價中占據(jù)相當大的權重,很多數(shù)據(jù)中心在建設時考慮最多的也是這兩個方面。下面就展開來談談高可用性及容災。
何為高可用性?是指在規(guī)定的條件和規(guī)定的時刻或時間區(qū)間內,數(shù)據(jù)中心處于可執(zhí)行規(guī)定功能狀態(tài)的能力,它是數(shù)據(jù)中心可靠性、可維修性及可維護性的綜合體現(xiàn),一般用MTBF(mean time between failure)和MTTR(mean time to repair)兩個可量化的參數(shù)衡量。容災就是容忍災難,即在災難襲來時從容不迫,應付自如。對于數(shù)據(jù)中心來說,容災就是使一個數(shù)據(jù)中心具有應對一定災難襲擊,保持系統(tǒng)持續(xù)或不間斷運行的能力。這些災難包括天災(水災、火災、地震、龍卷風、海嘯、環(huán)境惡化)和人禍(操作失誤、程序缺陷、軟件錯誤或故障、硬件老化或次品、蓄意破壞、病毒、黑客攻擊、恐怖襲擊、戰(zhàn)爭)。衡量一個數(shù)據(jù)中心的高可用性以及容災的水平,應該考慮三方面的內容。
靈活的流量管控
數(shù)據(jù)流量是數(shù)據(jù)中心的生命線,一旦流量轉發(fā)不了或者有缺失對應用肯定會有影響,所以數(shù)據(jù)中心一定要保證數(shù)據(jù)不能丟失。然而,數(shù)據(jù)中心擁有的各種設備成千上萬,不可避免會出這樣那樣的問題,要保證數(shù)據(jù)流量不受影響,就需要對流量進行靈活管控。首先要對數(shù)據(jù)流量進行監(jiān)控,實時監(jiān)測網(wǎng)絡重要端口數(shù)據(jù)流量的變化,當出現(xiàn)明顯的波動時要引起高度注意;其次要有管控手段,當出現(xiàn)流量異常時,通過調整網(wǎng)絡路由或者網(wǎng)絡聚合端口路徑,避開問題鏈路和轉發(fā)路由表,讓應用業(yè)務不受影響。很多的數(shù)據(jù)中心會考慮在網(wǎng)絡側做轉發(fā)路徑的負載分擔或者備份,當其中的部分數(shù)據(jù)鏈路出問題時,及時切換;最后是嚴格過濾數(shù)據(jù)流量,避免異常流量入侵,對數(shù)據(jù)中心造成攻擊。很多的病毒攻擊都是通過異常流量進入數(shù)據(jù)中心內部的,最終造成系統(tǒng)的癱瘓,所以在數(shù)據(jù)中心的入口要做嚴格管控,從網(wǎng)絡協(xié)議的數(shù)據(jù)鏈路層直到應用會話層均要做防御,通過防火墻、網(wǎng)絡設備、入侵檢測等設備,將異常流量拒之門外。所有這些靈活的流量管控方法,將大大提升數(shù)據(jù)中心的高可用性。
單元化的業(yè)務部署
傳統(tǒng)數(shù)據(jù)中心業(yè)務量少,往往通過一個數(shù)據(jù)機房的數(shù)十臺服務器和存儲設備就可以搞定,系統(tǒng)一旦出現(xiàn)故障,很多數(shù)據(jù)也就可能丟失了。然而,現(xiàn)在隨著信息數(shù)據(jù)對人們的工作和生活變得至關重要,數(shù)據(jù)信息變得異常珍貴。數(shù)據(jù)中心動不動就將很多數(shù)據(jù)丟失或者泄露的話是沒法玩的,遲早關門大吉。而且,現(xiàn)在的數(shù)據(jù)增長飛快,海量的數(shù)據(jù)需要及時處理和保存,不能出差錯,這時就要從數(shù)據(jù)層面考慮如何部署。數(shù)據(jù)中心引入了單元化的設計思想,即將一種數(shù)據(jù)業(yè)務進行細分,形成一個個的單元,這個單元往往處于一個數(shù)據(jù)中心之內,而具有相同數(shù)據(jù)的單元處于其它機房或數(shù)據(jù)中心中,單元之間的數(shù)據(jù)通過實時交互,保持數(shù)據(jù)準確性。數(shù)據(jù)中心進行單元化業(yè)務部署之后,應用系統(tǒng)實際上在多個數(shù)據(jù)中心上都在運行,數(shù)據(jù)被存放到各個數(shù)據(jù)中心內,在每個數(shù)據(jù)中心內部到處也都是單元化的功能模塊,相互之間耦合的地方很少,這樣同樣可以大幅提升數(shù)據(jù)中心的高可用性。
故障容忍能力
數(shù)據(jù)中心對業(yè)務故障的容忍能力決定了數(shù)據(jù)中心的建設等級,要求數(shù)據(jù)中心全年故障時間越短的數(shù)據(jù)中心等級越高。提升一個數(shù)據(jù)中心的故障容忍度,將是數(shù)據(jù)中心容災高能力的體現(xiàn)。數(shù)據(jù)中心可以在三個地方做容災:一個是數(shù)據(jù)中心內部。數(shù)據(jù)中心內部在服務器、網(wǎng)絡、存儲方面做各種冗余設計,達到容災目的,當其中某個環(huán)節(jié)出現(xiàn)故障,自動進行業(yè)務切換,確保業(yè)務層面不受影響,當將故障排除后,再將業(yè)務切回。第二個是同城的數(shù)據(jù)中心。有些時候數(shù)據(jù)中心遇到的可能是整體性的故障,比如供電中斷或者空調故障等,導致整個數(shù)據(jù)中心無法穩(wěn)定運行,這時就可以將業(yè)務通過調整路由,轉移到同城的數(shù)據(jù)中心上。在同城的數(shù)據(jù)中心里有故障之前備份過來的數(shù)據(jù),有相同的應用軟件提供,同城數(shù)據(jù)中心直接接管系統(tǒng),向外提供服務。第三是異地數(shù)據(jù)中心。有些時候故障可能是全城的范圍,比如遇到了極端天氣,比如地震、海嘯、洪水、颶風等等,這些災害將對某個地區(qū)的數(shù)據(jù)中心都造成影響,多個數(shù)據(jù)中心都可能陷入癱瘓之中,這時通過異地數(shù)據(jù)中心做災備最安全。不過,由于數(shù)據(jù)中心在異地,有的設計為了安全,距離可達數(shù)萬公里,這樣網(wǎng)絡延遲對業(yè)務就會產(chǎn)生影響,所以做異地災備時,要將延遲時間考慮進去。比如一些數(shù)據(jù)庫數(shù)據(jù)做異地復制,可忍受的時效性延遲是3秒。在做異地災備時,就要考慮延遲時間是否滿足。通過在數(shù)據(jù)中心內部,同城和異地都部署備份,這將大大提升數(shù)據(jù)中心的容災水平。
數(shù)據(jù)中心通過以上三方面的建設和優(yōu)化,將可大幅提升數(shù)據(jù)中心的高可用性及容災水平,這是提升數(shù)據(jù)中心等級水平的最有效方式。