深信服:解決網(wǎng)絡(luò)瓶頸 提高災(zāi)備效率
隨著企業(yè)的發(fā)展,ERP、CRM、電子商務(wù)等應(yīng)用的部署,在企業(yè)效率提高的同時(shí),大量的數(shù)據(jù)也會(huì)伴隨著產(chǎn)生,并具有越來(lái)越重要的地位。據(jù)Gartner Group發(fā)布了一份報(bào)告,揭示了數(shù)據(jù)對(duì)企業(yè)運(yùn)營(yíng)的重要性:在經(jīng)歷了數(shù)據(jù)完全丟失而導(dǎo)致系統(tǒng)停運(yùn)的企業(yè)中,有2/5再也沒(méi)能恢復(fù)運(yùn)營(yíng),余下的企業(yè)也有1/3在兩年內(nèi)宣告破產(chǎn)。也就是說(shuō),六成企業(yè)因數(shù)據(jù)完全丟失而倒閉。
為保障數(shù)據(jù)的安全性,容災(zāi)建設(shè)必不可少,各種異地災(zāi)備中心、同城災(zāi)備中心,都在如火如荼的建設(shè)中。
災(zāi)備系統(tǒng)的影響因素
在災(zāi)備系統(tǒng)的建設(shè)中,主要的影響因素有一下幾點(diǎn):
存儲(chǔ)空間:
急速增長(zhǎng)的數(shù)據(jù)量給災(zāi)備系統(tǒng)帶來(lái)的最直觀的問(wèn)題是不足,需要購(gòu)買更多的存儲(chǔ)介質(zhì)(磁帶或磁盤)。
配套設(shè)施:
除了購(gòu)買介質(zhì)本身的支出外,設(shè)備部署空間、降溫、電能消耗等等附帶需求也隨之迅速增長(zhǎng)。
處理性能:
與存儲(chǔ)介質(zhì)不同,系統(tǒng)的處理能力(如CPU、I/O總線等)一般較難擴(kuò)展,通常只能通過(guò)硬件整體升級(jí)完成,如果不能通過(guò)技術(shù)手段有效平抑?jǐn)?shù)據(jù)量增長(zhǎng)對(duì)系統(tǒng)處理能力的壓力,系統(tǒng)可靠性將面臨頻繁硬件升級(jí)的嚴(yán)峻挑戰(zhàn)。
網(wǎng)絡(luò)傳輸:
災(zāi)備系統(tǒng)通常都需要異地部署。數(shù)據(jù)量的增加要求遠(yuǎn)程數(shù)據(jù)傳輸具有更高的帶寬;由于傳輸帶寬的限制,傳輸時(shí)間的延長(zhǎng)可能會(huì)降低系統(tǒng)運(yùn)行效率,甚至無(wú)法及時(shí)完成異地?cái)?shù)據(jù)傳輸,造成災(zāi)備系統(tǒng)不能發(fā)揮功效。
災(zāi)備系統(tǒng)木桶模型
實(shí)際的容災(zāi)系統(tǒng)設(shè)計(jì)過(guò)程中,我們重點(diǎn)關(guān)注的是RTO和RPO兩個(gè)指標(biāo)。
RTO全稱為:Recovery Time Objective,即:恢復(fù)時(shí)間目標(biāo)。RTO表示了從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行(即被恢復(fù))的時(shí)間。RTO有兩個(gè)組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開(kāi)始的決策時(shí)間(Decision Time)和進(jìn)行災(zāi)難恢復(fù)流程的實(shí)施時(shí)間(Deployment Time)。一般來(lái)說(shuō),恢復(fù)時(shí)間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越?。环粗?,恢復(fù)時(shí)間(RTO)越長(zhǎng),災(zāi)難恢復(fù)方案的成本較低,但是由于災(zāi)難造成的業(yè)務(wù)損失就較大;
RPO全稱為:Recovery Point Objective,即:恢復(fù)點(diǎn)目標(biāo)。 RPO是災(zāi)難發(fā)生后業(yè)務(wù)能夠容忍的數(shù)據(jù)丟失量,或者說(shuō)災(zāi)難發(fā)生造成的數(shù)據(jù)丟失量。一般來(lái)說(shuō), RPO越高(即,丟失的數(shù)據(jù)越少),容災(zāi)的成本越高,但是由于災(zāi)難造成的業(yè)務(wù)損失就越小;反之,RPO越低(即,丟失的數(shù)據(jù)較多),容災(zāi)的成本越低,但災(zāi)難造成的業(yè)務(wù)損失也越大。
災(zāi)備系統(tǒng)的各種因素都會(huì)影響到RTO和RPO指標(biāo)的實(shí)現(xiàn),但是,最終制約RTO和RPO目標(biāo)實(shí)現(xiàn)的將會(huì)是各種因素中最弱的因素,即:災(zāi)備系統(tǒng)的性能可以用木桶模型來(lái)解釋。
從存儲(chǔ)空間、配套設(shè)施、處理性能、網(wǎng)絡(luò)傳輸四個(gè)方面來(lái)分析,可以得到如下結(jié)果:
雖然企業(yè)對(duì)存儲(chǔ)空間的需求越來(lái)越大,但是隨著IOBS、RAIDS技術(shù)的發(fā)展,磁盤陣列的存儲(chǔ)容量和數(shù)據(jù)安全性都得到了很明顯的提高,基本可以滿足大多數(shù)企業(yè)的需求;
配套設(shè)置會(huì)影響災(zāi)備系統(tǒng)的運(yùn)營(yíng)成本,但是并不直接影響RTO和RPO指標(biāo)的實(shí)現(xiàn);
目前,高性能的CPU,處理能力很強(qiáng),處理性能也比較容易滿足。
但是網(wǎng)絡(luò)傳輸由于帶寬、價(jià)格、丟包、時(shí)延等問(wèn)題,往往成為災(zāi)備系統(tǒng)中的短板,并直接對(duì)RTO和RPO目標(biāo)的實(shí)現(xiàn)產(chǎn)生重要影響。接下來(lái)我們著重分析網(wǎng)絡(luò)傳輸這個(gè)災(zāi)備系統(tǒng)存在的瓶頸問(wèn)題。
廣域網(wǎng)傳輸問(wèn)題淺析
由于災(zāi)備系統(tǒng)通常需要異地部署,在不同的數(shù)據(jù)中心,需要采用廣域網(wǎng)進(jìn)行連接。通常廣域網(wǎng)的連接,主要有專線接入和VPN兩種方式,但是兩種方式,在傳輸過(guò)程中,都存在一些需要優(yōu)化的問(wèn)題:
1.數(shù)據(jù)帶寬有限,但是傳輸數(shù)據(jù)量較大
由于專線的租賃價(jià)格比較貴,往往從主數(shù)據(jù)中心的到災(zāi)備中心的專線只有僅僅10Mbps,但是每日需傳輸?shù)臑?zāi)備數(shù)據(jù)量大,經(jīng)常以百G來(lái)計(jì),數(shù)據(jù)無(wú)法在指定時(shí)間內(nèi)完成傳輸。并且,隨著業(yè)務(wù)的不斷增多,數(shù)據(jù)滯后也越來(lái)越多,數(shù)據(jù)的丟失風(fēng)險(xiǎn)也不斷攀升,RPO難保證……
在大多數(shù)情況,有限的帶寬和較大的傳輸數(shù)據(jù)量的矛盾在災(zāi)備系統(tǒng)建設(shè)中,經(jīng)常容易出現(xiàn)。
2.公網(wǎng)環(huán)境復(fù)雜,丟包延時(shí)嚴(yán)重
公網(wǎng)環(huán)境比較復(fù)雜,不可控因素更多,尤其是異地部署的災(zāi)備系統(tǒng),廣域網(wǎng)傳輸,中間節(jié)點(diǎn)較多,丟包和延時(shí)情況難免,同時(shí)由于我國(guó)過(guò)存在多個(gè)運(yùn)營(yíng)商,在跨運(yùn)營(yíng)商傳輸?shù)那闆r下,丟包和延時(shí)情況更為嚴(yán)重。
網(wǎng)絡(luò)環(huán)境對(duì)傳輸影響是非常巨大的,一條2Mb/s帶寬的ADSL線路,在不同延時(shí)情況下的數(shù)據(jù)吞吐情況如下圖所示:
可見(jiàn),當(dāng)延時(shí)達(dá)到200ms左右,實(shí)際的吞吐量只能達(dá)到帶寬所允許的最高數(shù)據(jù)吞吐量的10%左右。另外的100Mb/s帶寬的線路上面進(jìn)行相同的測(cè)試,得到的結(jié)果顯示在網(wǎng)絡(luò)延時(shí)大于200ms以后,100Mb/s帶寬線路的數(shù)據(jù)吞吐量和2Mb/s的線路幾乎下降到同樣的水平,所以說(shuō)在網(wǎng)絡(luò)延時(shí)較大的時(shí)候,網(wǎng)絡(luò)帶寬不論大小,傳輸能力都會(huì)大大降低。
3.傳輸機(jī)制需要優(yōu)化:
廣域網(wǎng)中使用最廣泛的傳輸協(xié)議就是TCP(Transfer Control Protocol)協(xié)議,TCP協(xié)議傳輸數(shù)據(jù)的時(shí)候,一端到另一端所正在傳輸?shù)臄?shù)據(jù)量受數(shù)據(jù)報(bào)窗口的大小限制,當(dāng)該窗口滿了以后,發(fā)送方就無(wú)法發(fā)送更多的數(shù)據(jù),直到接受方確認(rèn)已經(jīng)接收了窗口中的部分?jǐn)?shù)據(jù)。在部分對(duì)數(shù)據(jù)傳輸要求非常高的企業(yè),主數(shù)據(jù)中心和災(zāi)備中心之間通過(guò)1Gbps的專線互聯(lián),延時(shí)只有25ms,網(wǎng)絡(luò)帶寬足質(zhì)量好,但是災(zāi)備系統(tǒng)在運(yùn)作時(shí),速度極限只能跑到尷尬的180Mbps,徒有大帶寬卻白白浪費(fèi),RTO不達(dá)標(biāo)……
所以,廣域網(wǎng)中最廣泛使用的TCP協(xié)議也需要優(yōu)化。
深信服災(zāi)備優(yōu)化方案
作為國(guó)內(nèi)規(guī)模最大、創(chuàng)新能力最強(qiáng)的應(yīng)用層網(wǎng)絡(luò)設(shè)備供應(yīng)商,深信服經(jīng)過(guò)十幾年的技術(shù)積累和對(duì)先進(jìn)網(wǎng)絡(luò)的深刻研究和認(rèn)知之后,并結(jié)合客戶災(zāi)備系統(tǒng)遇到的主要問(wèn)題,率先在國(guó)內(nèi)提出了災(zāi)備優(yōu)化方案,針對(duì)廣域網(wǎng)傳輸存在的問(wèn)題,深信服提出了相對(duì)應(yīng)的解決方案。
高效的流緩存壓縮和數(shù)據(jù)消減技術(shù)解決數(shù)據(jù)量大與窄帶寬之間的矛盾。
深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案采高細(xì)粒度冗余數(shù)據(jù)消除技術(shù)解決,無(wú)損數(shù)據(jù)削減的方式,減少網(wǎng)絡(luò)中需要傳輸容災(zāi)數(shù)據(jù)總量,在有限的帶寬內(nèi)實(shí)現(xiàn)高效的傳輸,從而提升災(zāi)備速率。數(shù)據(jù)削減采用的技術(shù)為基于碼流特征的數(shù)據(jù)優(yōu)化技術(shù),以及無(wú)損數(shù)據(jù)流壓縮技術(shù),實(shí)現(xiàn)bit級(jí)重復(fù)數(shù)據(jù)刪除,災(zāi)備需傳輸流量可達(dá)到60%-90%的削減。
某檢驗(yàn)檢疫局,主數(shù)據(jù)中心在省會(huì)城市A,并在地市局B建立災(zāi)備中心,A到B之間只有4Mbps的專線互聯(lián),每日災(zāi)備數(shù)據(jù)需要從晚上完成到A到B的傳輸。但由于數(shù)據(jù)量大,往往在規(guī)定的備份時(shí)間窗口之內(nèi)無(wú)法完成傳輸,需要到第二天中午才把災(zāi)備數(shù)據(jù)傳輸完。而災(zāi)備數(shù)據(jù)和業(yè)務(wù)鏈路為共用專線,導(dǎo)致第二天上網(wǎng)B局人員訪問(wèn)業(yè)務(wù)系統(tǒng)速度非常慢。通過(guò)深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案對(duì)災(zāi)備傳輸進(jìn)行優(yōu)化,原有需要傳輸整晚甚至到第二天中午才傳完的數(shù)據(jù),部署后兩三個(gè)小時(shí)既已完成災(zāi)備數(shù)據(jù)的傳輸,加快了災(zāi)備效率,降低數(shù)據(jù)災(zāi)難風(fēng)險(xiǎn)。
優(yōu)化網(wǎng)絡(luò)的質(zhì)量,解決丟包延時(shí)等問(wèn)題對(duì)網(wǎng)絡(luò)傳輸?shù)挠绊憽?/strong>
在丟包存在、延時(shí)較高的情況下,網(wǎng)絡(luò)實(shí)際吞吐性能將大打折扣;同時(shí),災(zāi)備需傳輸?shù)臄?shù)據(jù)量大,也是耗時(shí)長(zhǎng)、RTO不達(dá)標(biāo)的一個(gè)原因。針對(duì)這個(gè)問(wèn)題,深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化提出鏈路質(zhì)量?jī)?yōu)化+無(wú)損數(shù)據(jù)削減的方案解決。針對(duì)公網(wǎng)線路,尤其跨運(yùn)營(yíng)商線路中的丟包延時(shí)問(wèn)題,通過(guò)鏈路質(zhì)量?jī)?yōu)化功能,采用改進(jìn)性的HTP算法優(yōu)化TCP協(xié)議,在丟包延時(shí)環(huán)境下大大提升網(wǎng)絡(luò)的吞吐性能;并通過(guò)基于碼流特征的數(shù)據(jù)優(yōu)化技術(shù),以及無(wú)損數(shù)據(jù)流壓縮技術(shù),大大消除災(zāi)備需傳輸?shù)臄?shù)據(jù)量,提升帶寬吞吐、削減傳輸數(shù)據(jù)量,從而實(shí)現(xiàn)災(zāi)備網(wǎng)絡(luò)的加速。
某媒體集團(tuán),主數(shù)據(jù)中心在北京,災(zāi)備中心在廣州,出口分別電信和聯(lián)通的公網(wǎng)線路,主要傳輸?shù)臄?shù)據(jù)類型為音視頻數(shù)據(jù)。由于受到跨運(yùn)營(yíng)商的影響,原有NetApp災(zāi)備系統(tǒng)受到網(wǎng)絡(luò)影響比較嚴(yán)重,傳輸速度平均為6Mbps,峰值只有10Mbps。通過(guò)深信服WOC容災(zāi)網(wǎng)絡(luò)優(yōu)化方案的部署,解決網(wǎng)絡(luò)質(zhì)量問(wèn)題,傳輸速度從6Mbps一下提高到了50Mbps,網(wǎng)絡(luò)性能得到顯著的提高。
優(yōu)化TCP傳輸機(jī)制,提高TCP連接的吞吐量,有效利用帶寬。
在一對(duì)災(zāi)備系統(tǒng)之間,往往是通過(guò)單TCP連接或是僅幾條TCP連接相連,而TCP本身因?yàn)槭艿絺鬏敶翱诘葏f(xié)議本身的限制,速度存在上限值。傳統(tǒng)的TCP協(xié)議傳輸窗口為64KB,在網(wǎng)絡(luò)延時(shí)為20ms時(shí),單條TCP連接吞吐僅為25Mbps。雖然許多災(zāi)備系統(tǒng)基于Unix開(kāi)發(fā),對(duì)TCP協(xié)議進(jìn)行了一部分優(yōu)化,但相對(duì)于1Gbps這樣的大帶寬,吞吐還是出于160Mbps-200Mbps這樣的低位,無(wú)法完全利用帶寬保障RTO。
針對(duì)TCP本身的低效性,深信服WOC災(zāi)備優(yōu)化方案通過(guò)TCP協(xié)議優(yōu)化+無(wú)損冗余數(shù)據(jù)削減功能,可大大提升整個(gè)網(wǎng)絡(luò)的吞吐。在某金融機(jī)構(gòu)實(shí)際測(cè)試中,對(duì)于一對(duì)災(zāi)備設(shè)備之間的廣域網(wǎng)傳輸,性能從160Mbps大幅提升至600Mbps,并可擴(kuò)展提升至2.5Gbps,滿足大帶寬災(zāi)備需求。