五個9高可靠的秘密 解析服務(wù)器容錯技術(shù)
相對于PC來說,服務(wù)器擁有更高的可用性和可靠性。隨著信息化的不斷深入和關(guān)鍵業(yè)務(wù)平臺的IT信息化進(jìn)程的推進(jìn),使得服務(wù)器面臨著有史以來最沉重的壓力,尤其是在ISP、NCP、金融、電信、證券、能源、科研等行業(yè)和部門的應(yīng)用需求,對服務(wù)器不斷提出挑戰(zhàn)。
這種挑戰(zhàn)其實本質(zhì)上就是7*24全天候穩(wěn)定運(yùn)行。如何確保在突發(fā)情況下服務(wù)器能夠正常運(yùn)轉(zhuǎn),并確保故障出現(xiàn)的時候不會帶來業(yè)務(wù)的中斷運(yùn)行,成為了服務(wù)器容錯技術(shù)的重中之重。
“容錯”,顧名思義是服務(wù)器對于系統(tǒng)運(yùn)行中產(chǎn)生的錯誤、故障的容納、糾錯能力,它是企業(yè)級應(yīng)用中對于服務(wù)器穩(wěn)定性追求的目標(biāo)。人們俗稱的99.999%就是對于服務(wù)器系統(tǒng)高穩(wěn)定性訴求的直觀體現(xiàn)。容錯服務(wù)器能夠允許出現(xiàn)一定的錯誤(故障),這些服務(wù)器通常都具備有自動修復(fù)和支持冗余的功能模塊。當(dāng)錯誤或者故障出現(xiàn)的時候,這些出錯的部件可以得到及時的修復(fù)或者切換,從而確保服務(wù)器不間斷運(yùn)行。在目前,服務(wù)器的容錯技術(shù)主要集中在服務(wù)器集群、雙機(jī)冗余備份、單機(jī)容錯技術(shù)三種。
服務(wù)器容錯技術(shù)并不是近幾年才出現(xiàn),早在上世紀(jì)八十年代的時候就已經(jīng)出現(xiàn)并得到應(yīng)用。容錯其實是來自國外(Fault Tolerant)的意譯,該詞最早來自當(dāng)時著名的Stratus公司。在上世紀(jì)八十年代第一代容錯技術(shù)開始進(jìn)入商用領(lǐng)域。當(dāng)時主要被應(yīng)用在金融、電信、證券、航空等行業(yè)領(lǐng)域。
隨后,服務(wù)器容錯技術(shù)得到進(jìn)一步發(fā)展,并先后經(jīng)歷了二代I860、三代HP PA-RISC、四代IA架構(gòu)容錯技術(shù)發(fā)展。目前談?wù)摰姆?wù)器容錯技術(shù)其實更主要的是針對單臺服務(wù)器而言。這種方式相比其他方式成本較低、容錯能力較高、可滿足大多數(shù)用戶的需求。接下來,我們會重點(diǎn)談?wù)剢螜C(jī)和雙機(jī)(冗余)容錯技術(shù)。
#p#
前面我們講過,服務(wù)器容錯技術(shù)主要由服務(wù)器集群、雙機(jī)熱備份和單機(jī)容錯技術(shù)。在這三種服務(wù)器容錯技術(shù)中,它們呈由低到高的級別遞進(jìn),也就是單機(jī)容錯技術(shù)級別最高,而集群技術(shù)的容錯技術(shù)級別最低。
雙機(jī)熱備份技術(shù)是一種系統(tǒng)級的容錯技術(shù),也就是采用軟硬一體的方式來實現(xiàn)容錯。一般它們是在兩臺服務(wù)器之外額外增添一個共享磁盤陣列,或者兩臺服務(wù)器中的RAID陣列,并通過相應(yīng)的雙機(jī)熱備份軟件共同實現(xiàn)。

雙機(jī)熱備容錯技術(shù),主要是“雙保險”的機(jī)制來確保其中任何一臺服務(wù)器出現(xiàn)故障,及時由另外一臺機(jī)器切換并保證業(yè)務(wù)的連續(xù)運(yùn)行。不過,由于這種方式往往需要借助另外一臺服務(wù)器時刻處于后備狀態(tài),對于硬件設(shè)施的投入和計算資源的利用來說,存在一定的浪費(fèi)。
相比之下,單機(jī)容錯技術(shù)則主要是通過部件冗余的方式來實現(xiàn)。這種單機(jī)容錯技術(shù)的容錯能力比服務(wù)器集群、雙機(jī)熱備的容錯能力都要高。
容錯服務(wù)器通常對CPU、內(nèi)存、磁盤和網(wǎng)卡甚至電源實現(xiàn)冗余備份,在任何部件出現(xiàn)問題的時候都不會造成系統(tǒng)宕機(jī)和數(shù)據(jù)丟失。目前很多基于工業(yè)標(biāo)準(zhǔn)的x86服務(wù)器都能實現(xiàn)這種冗余容錯機(jī)制,而且是以更具成本優(yōu)勢的方式來實現(xiàn)。
#p#
容錯服務(wù)器是通過硬件部件的冗余設(shè)計和同步技術(shù),確保故障帶來的影響降至最低。目前容錯服務(wù)器主要圍繞處理器來展開,就目前來說,很多服務(wù)器廠商都有自己的容錯服務(wù)器。
比如惠普就提供有專門面向關(guān)鍵業(yè)務(wù)容錯技術(shù)的NonStop(包括NonStop S和Integrity NonStop)系列服務(wù)器,該系列服務(wù)器就是根據(jù)處理器的不同而被劃分成兩大類,也就是采用MIPS的NonStop S和采用英特爾安騰芯片的Integrity NonStop服務(wù)器。
Integrity NonStop具有很多新的設(shè)計,其產(chǎn)品家族分為入門級、中高端和最高端服務(wù)器。去年惠普還拓展了安騰服務(wù)器家族,推出了適用于異構(gòu)環(huán)境的NS2100、NS2200。
另外還有兩家比較著名的容錯服務(wù)器廠商,包括NEC和Express5800/ft服務(wù)器和Stratus的ftServer服務(wù)器。后者在容錯服務(wù)器技術(shù)領(lǐng)域擁有較為成熟的經(jīng)驗,前后開發(fā)出基于Motorola M68000、Intel I860芯片、HP PARISC等不同處理器,以及VOS專有操作系統(tǒng)的服務(wù)器產(chǎn)品。后來噶公司逐漸采用了基于Linux、Windows等通用平臺代替專用的VOS操作系統(tǒng),以降低容錯服務(wù)器的應(yīng)用成本。

NEC通過對Stratus進(jìn)行投資控股,也獲得并采用了與其類似的容錯服務(wù)器的開發(fā)和推廣策略。在容錯技術(shù)領(lǐng)域,NEC早在2001年就推出了首個基于IA架構(gòu)的容錯服務(wù)器。其Express5800/ft系列在Windows及Linux平臺上的可靠性達(dá)到了99.999%,這種實時保護(hù)技術(shù)來源于STRATUS連續(xù)處理技術(shù)(Fundamentals of Continuous Pro-cessingDesign)。

目前,容錯技術(shù)從原來的電信、證券、金融等傳統(tǒng)關(guān)鍵應(yīng)用行業(yè)逐漸過渡到基礎(chǔ)性行業(yè),比如制造業(yè)、能源、物流、交通等等。此外,容錯服務(wù)器還將更多地會注重TCO總體擁有成本,而且將有更多的用戶會放棄傳統(tǒng)的雙機(jī)熱備的方式來維護(hù)復(fù)雜的集群服務(wù)器,轉(zhuǎn)而采用具有容錯技術(shù)的服務(wù)器平臺。