信息系統(tǒng)可靠性影響因素與對策
對于一個信息系統(tǒng),特別是關(guān)鍵業(yè)務(wù)系統(tǒng)而言,可靠性非常重要。有數(shù)據(jù)統(tǒng)計顯示,金融信息系統(tǒng)每小時的停機代價是250萬美元,制造業(yè)最少也要2.8萬美元。這還僅僅是2000年的統(tǒng)計結(jié)果,如今企業(yè)對信息系統(tǒng)的依賴程度更高,停機所造成的損失也就更大。
對信息系統(tǒng)可靠性產(chǎn)生影響的因素有很多,有人為因素、過程處理和技術(shù)因素。其中,人的因素可以通過培訓(xùn)、認證來提高管理水平,減少因為經(jīng)驗缺乏導(dǎo)致的錯誤。對于處理過程中的偶然錯誤,這就需要系統(tǒng)具有足夠的技術(shù)能力。
在技術(shù)因素方面,導(dǎo)致系統(tǒng)失效的原因也有很多,例如硬件故障,設(shè)備驅(qū)動、操作系統(tǒng)和應(yīng)用軟件的故障。其中,隨著硬件制造工藝水平的提升,可靠性大大提高,與之相比,軟件故障的影響因素更為突出一些。那么在這種情況下,提高系統(tǒng)硬件的可靠性還有沒有意義?
答案是顯而易見的,特別對于關(guān)鍵業(yè)務(wù)系統(tǒng),很多用戶采用集群的方式來提升可靠性。集群的方式是通過雙機或者更多的機器,借助集群軟件來提升系統(tǒng)的可靠性。但其中一臺機器設(shè)備發(fā)生故障時,由另外一臺設(shè)備來接替故障設(shè)備的工作。最理想的狀況,是無縫切換,但在實際工作中往往做不到,有各種原因會導(dǎo)致系統(tǒng)切換不成功。此外,有時候也會導(dǎo)致在不該切換時候的誤切換,這都會降低系統(tǒng)的可靠性。
較之集群,容錯具有更高的可靠性級別。容錯系統(tǒng)從整體上可視為一臺機器,由兩套獨立硬件系統(tǒng)構(gòu)成,受時鐘鎖步系統(tǒng)控制,在相同指令周期內(nèi)執(zhí)行同一條指令(參見圖)。
容錯系統(tǒng)特有的ASIC故障檢測系統(tǒng)將對CPU、 內(nèi)存、 芯片組、磁盤、 I/O 等部件的處理結(jié)果進行比對,相同執(zhí)行下一步,不相同則從新計算。容錯系統(tǒng)不僅可有效應(yīng)對硬件故障,還可以避免各種不可預(yù)知的因素,如電磁干擾、尖峰脈沖等對可靠性的影響,避免潛在的計算錯誤所導(dǎo)致的風(fēng)險。因此對于關(guān)鍵業(yè)務(wù)應(yīng)用,應(yīng)該選擇具有更高可靠性的系統(tǒng)。
至于軟件故障對系統(tǒng)可靠性的影響,唯一的辦法就是升級軟件包,打補丁。但是無論如何,硬件系統(tǒng)的高可靠性基礎(chǔ),是不可或缺的條件。所謂皮之不存,毛之焉附?