看透可靠性看透容錯
沙地建樓,搞不好就會 “樓歪歪”。信息化也是如此,沒有可靠性,業(yè)務(wù)也會沒有保障。據(jù)有關(guān)機構(gòu)統(tǒng)計,金融企業(yè)每次宕機損失平均為1000萬美元,公司聲譽等無形資產(chǎn)損失更是無法估量。系統(tǒng)可靠性,是信息化應(yīng)用的前提。
為了追求系統(tǒng)可靠性,企業(yè)在信息化建設(shè)上投入大量的資金,從“兩地三中心”,到系統(tǒng)冗余,數(shù)據(jù)備份,目的就是一個保障系統(tǒng)的安全可靠。對于關(guān)鍵業(yè)務(wù)應(yīng)用而言,需要系統(tǒng)7×24×365不間斷運行,對可靠性要求為99.999%,也就是全年累計的宕機時間不超過5分鐘。
為了追求可靠性,雙機冗余是最常采用的解決方案,也就是雙機熱備。通過采購2套系統(tǒng),當(dāng)一臺機器出現(xiàn)故障的時候,另外一臺機器接替其工作,確保系統(tǒng)不中斷運行,兩臺機器之間依靠心跳線偵測進行判斷和切換,接管服務(wù)。為了提高投資效率,兩套系統(tǒng)之間盡可能采用互備、主從、并行等不同工作方式。盡管如此,采用雙機熱備,軟件/硬件投資加倍,增加了用戶負(fù)擔(dān)。更為重要的是,采用心跳線偵測的方法,有時候會出現(xiàn)誤報的問題,增加了新的不安全的因素。
從技術(shù)上看,雙機熱備的系統(tǒng)可靠性只有99.9%的水平,全年累計宕機時間不會超過8.8小時。要想實現(xiàn)99.999%,也就是5個9的水平,只有選用容錯服務(wù)器。
容錯服務(wù)器的代表廠商是美國的Stratus公司。從1980年Bill Fost創(chuàng)辦Stratus至今,容錯服務(wù)器已有30多年歷史。期間容錯服務(wù)器得到了很多投資人青睞,英特爾就是Stratus的第2大股東。
與雙機熱備方案相比,容錯容易被用戶忽略,價格高是其中很重要的原因。以往,容錯服務(wù)器以往動輒上百萬元,接近了小型機價格。高價位影響了容錯的服務(wù)器的推廣應(yīng)用。但隨著x86芯片技術(shù)不斷進步,特別是多核技術(shù)的發(fā)展,容錯服務(wù)器迎來新的發(fā)展機遇。以Stratus為首,容錯開始拋棄專用芯片,采用x86通用芯片。如今Stratus入門級產(chǎn)品只需要10多萬元。
單就硬件成本來說,容錯還是高于雙機熱備。但從系統(tǒng)角度來考慮,特別是考慮軟件的成本,容錯服務(wù)器是一臺機器,操作系統(tǒng)、數(shù)據(jù)庫等軟件只需要購買一套,可以大大節(jié)省軟件的成本。也是因為這個原因,軟件廠商從商業(yè)利益的角度出發(fā),不會幫助Stratus等推廣容錯解決方案。軟件廠商更愿意幫助服務(wù)器廠商推廣雙機熱備的方案,追求雙贏。容錯只能是用戶的選擇。
影響系統(tǒng)可靠性的因素非常多,很多并不是雙機可以解決的。以Windows應(yīng)用為例,常有這樣的用戶體驗,重啟Windows有時候就可以解決問題。其中的原因就在于,無論是CPU、內(nèi)存,還是I/O在計算或者傳送數(shù)據(jù)過程中,都有可能受到電源波動、電磁等因素的干擾,產(chǎn)生錯誤的計算,影響系統(tǒng)可靠性。
只要是關(guān)鍵業(yè)務(wù)需要,無論計算量的大小,都需要高可靠性。以機場無人值守“Shuttle”火車為例,全部依靠系統(tǒng)控制,計算量不大,但要求具有很高可靠性,運行時間、開關(guān)門操控準(zhǔn)確無誤。稍有差池,就會釀成事故。在鋼鐵、電力、政府等很多應(yīng)用領(lǐng)域,對于可靠性都具有非常高的要求,容不得半點差池。
在技術(shù)上,借助“鎖步技術(shù)”,容錯服務(wù)器可以***程度校正硬件故障。在容錯服務(wù)器設(shè)計上,CPU、內(nèi)存、I/O等,全部采用冗余設(shè)計,并通過鎖步技術(shù),對每個計算過程進行比對,準(zhǔn)確無誤才會進入下一個步驟。因此其系統(tǒng)的可靠性可以達到5個9的 水平。
在國際上,容錯技術(shù)得到用戶的廣泛認(rèn)可。但在國內(nèi),用戶受廠商、集成商的影響比較大。從商業(yè)利益考慮,廠商往往不會主動推薦容錯技術(shù),影響了容錯在國內(nèi)的發(fā)展。根據(jù)數(shù)據(jù)統(tǒng)計,國內(nèi)采用容錯技術(shù)的用戶尚沒有國外的1/3。此外,關(guān)鍵業(yè)務(wù)應(yīng)用市場規(guī)模大,但單機數(shù)量小。在出貨量上沒有辦法與PC服務(wù)器相比,市場份額不大,在各種統(tǒng)計報表中,容錯往往被忽略,客觀上也影響力了用戶對容錯的關(guān)注。
4月23日,亞馬遜云計算數(shù)據(jù)中心故障為用戶提了個醒。對于可靠性是沒有辦法完全假手他人的,就連云計算也沒有辦法真正做到可以完全不關(guān)注底層基礎(chǔ)設(shè)施??煽啃赃€是需要引起高度關(guān)注的話題。在眾多高可靠性解決方案中,容錯技術(shù)是可選方案之一。
【編輯推薦】