保險公司災備系統(tǒng)建設淺析
為提高IT系統(tǒng)的可靠性,IT系統(tǒng)的容災建設已相當普遍。隨著許多企業(yè)實施業(yè)務系統(tǒng)大集中,針對IT系統(tǒng)的高可靠性和容災能力的需求日漸突出。
對于保險公司來說,其數(shù)據(jù)的安全性以及業(yè)務的連續(xù)運營的要求更高。雖然各保險公司十分重視災備系統(tǒng)的建設,陸續(xù)完成了基本容災系統(tǒng)的IT基礎架構建設,但如果沒有相應的災難恢復計劃,也沒有針對災難發(fā)生后的應對、決策、詳細的災難恢復步驟,容災系統(tǒng)將難以發(fā)揮真正功效。保險業(yè)越發(fā)展,數(shù)據(jù)“保險”越重要。相信在保監(jiān)會的政策支持和引導下,越來越多的保險公司終將為核心業(yè)務數(shù)據(jù)找到安全的容身之所,為保險業(yè)安全持續(xù)運行提供重要保證。
災備是災難備份的簡稱。它就是說利用技術手段、管理手段,或者任何可以獲取的管理資源,來確保一些關鍵的數(shù)據(jù)和處理關鍵數(shù)據(jù)的手段,以及關鍵的業(yè)務,在災難發(fā)生以后可以盡可能多、盡可能快地恢復的這么一個過程。災備的目的就是要確保關鍵的業(yè)務能夠持續(xù)不斷地運行,盡量的減少非計劃的宕機時間。
保險公司災備系統(tǒng)重要性
隨著保險公司業(yè)務的飛速發(fā)展,海量的業(yè)務數(shù)據(jù)對IT系統(tǒng)的依賴性也隨之增加,而數(shù)據(jù)處理的高可靠性和系統(tǒng)可用性就尤為關鍵。一旦IT系統(tǒng)運轉異常甚至崩潰,將直接導致異常嚴重的后果,相關的責任方不但會被追究責任,整個企業(yè)也要承擔由此引發(fā)的相應損失。
這些損失包括:
數(shù)據(jù)丟失:一旦數(shù)據(jù)由于某種原因永久性丟失,不但會給企業(yè)的運作帶來極大的困難,企業(yè)的商業(yè)信譽也必將受到致命的打擊,在當今社會,商譽已經是越來越重要的企業(yè)戰(zhàn)略資源,商譽的受損會使企業(yè)在競爭中處于劣勢,造成難以彌補的惡劣影響。特別是對于保險公司這種以商業(yè)信譽為生存條件的金融機構。
服務滯后:IT系統(tǒng)在由種種原因導致的系統(tǒng)不可用情況下,對于依靠IT系統(tǒng)對客戶進行快速、全面服務工作的企業(yè)成員來說,是一個極大的打擊,很多營銷工作因此失去寶貴的客戶資源,而已有的客戶資源也可能因此流失。
決策失準:由于只有依靠IT系統(tǒng)才可以迅速匯總統(tǒng)計企業(yè)所有數(shù)據(jù),因此如果由于系統(tǒng)不可用,將導致決策人員不能及時得到期望的數(shù)據(jù)結果,而在瞬息萬變的現(xiàn)代社會,決策的失準將浪費企業(yè)寶貴的機會。
在信息化系統(tǒng)高速發(fā)展的今天,如何保證數(shù)據(jù)安全和IT系統(tǒng)故障下的及時恢復已經成為每個保險公司業(yè)務體系穩(wěn)定運行的基礎。災難備份系統(tǒng)就是基于上述問題的最佳解決方案,災難備份系統(tǒng)是在企業(yè)IT系統(tǒng)發(fā)生故障甚至崩潰時,能迅速地將企業(yè)IT系統(tǒng)恢復到可用狀態(tài)的輔助IT系統(tǒng)。它可以保證企業(yè)IT系統(tǒng)在由各種原因引起的系統(tǒng)崩潰條件下,最大限度地保護企業(yè)資源,最快速地使企業(yè)重新開展各項工作。
對于導致IT系統(tǒng)崩潰的災難,我們分為兩類,第一類是不可預料錯誤導致的IT系統(tǒng)故障和崩潰;第二類是不可抗力下的嚴重自然災難導致的IT系統(tǒng)不可用。
(1)第一類災難通常是指IT系統(tǒng)本身存在的錯誤或人為錯誤,比如系統(tǒng)設計失誤,人為誤操作等原因導致的事故,影響到了IT系統(tǒng)數(shù)據(jù)安全和導致系統(tǒng)不可用。對于第一類災難,災難備份系統(tǒng)可以迅速恢復系統(tǒng)狀態(tài)到錯誤發(fā)生前,保證系統(tǒng)平穩(wěn)運行。
(2)第二類災難則指發(fā)生嚴重自然災害情況下,如地震,海嘯,臺風等嚴重自然災害導致的IT系統(tǒng)硬件損毀而使IT系統(tǒng)不可用和數(shù)據(jù)丟失情況。對于第二類災難,災難備份系統(tǒng)可以保證在發(fā)生計算機系統(tǒng)災難后,在遠離災難現(xiàn)場的地方重新組織系統(tǒng)運行和恢復數(shù)據(jù)。
上述兩種災難將不可避免地會發(fā)生在企業(yè)和企業(yè)使用IT系統(tǒng)上,所以IT系統(tǒng)災難備份就顯得十分重要。災難備份系統(tǒng)可以減少甚至避免災難對IT系統(tǒng)造成的影響。災難恢復的目標:一是保護數(shù)據(jù)的完整性,使業(yè)務數(shù)據(jù)損失最少甚至沒有業(yè)務數(shù)據(jù)損失。二是快速恢復運行,使業(yè)務停頓時間最短甚至不中斷業(yè)務。
災備技術系統(tǒng)的建設
災備技術中,核心的內容包括:存儲技術、災備體系結構技術和信息安全技術。
存儲技術是災備系統(tǒng)的基礎。存儲技術是對海量數(shù)據(jù)進行備份的技術,它由存儲設備和相應的軟件存儲技術組成,存儲設備包括,磁帶,磁盤,光盤等為存儲介質的硬件設備,存儲技術隨著科技的發(fā)展,已經發(fā)展的日新月異,現(xiàn)在最主要使用的是網絡存儲技術,通過局域網甚至廣域網將數(shù)據(jù)和存儲介質結合。
災備體系結構技術包括系統(tǒng)容錯技術、數(shù)據(jù)恢復技術、系統(tǒng)恢復技術、業(yè)務連續(xù)性服務。
災備信息安全技術主要用于保障數(shù)據(jù)在存儲與傳輸過程中的安全性問題、網絡系統(tǒng)的可靠和安全連接問題、計算機系統(tǒng)的安全性問題、使用用戶的身份安全問題和系統(tǒng)操作的不可抵賴性問題等。其核心包括:數(shù)據(jù)安全性技術、網絡安全技術、系統(tǒng)安全技術、身份安全技術、安全審計技術。
災備系統(tǒng)建設應從以下幾個方面著手:
1.建立負責災難備份系統(tǒng)的專門機構
首先,要建立災難備份系統(tǒng)的專門機構,由專門機構提出災難備份方案并管理和實施這個系統(tǒng)。災備系統(tǒng)方案應由董事會或高級管理層決策,并指定高層管理人員組織實施。由科技、業(yè)務、財務、后勤支持等災難備份相關部門組成專門機構進行后續(xù)管理。
2.災備系統(tǒng)需求分析
專門機構建立以后,就要分析災備需求。重要的信息系統(tǒng)災備需求包括:對數(shù)據(jù)處理中心的風險分析,對業(yè)務進行分析以及確定災難恢復目標。
3.災備系統(tǒng)方案確立
災備方案主要分為7個等級,企業(yè)選擇哪一級災備方案,要根據(jù)其業(yè)務對IT依賴的程度,如什么樣的數(shù)據(jù)必須在多長時間內恢復、哪種業(yè)務能承受多大的數(shù)據(jù)丟失等,要分析清楚各種業(yè)務的實際需求。
(1)等級零:無異地備份。
(2)等級一:備份介質異地存放。
(3)等級二:備份介質異地存放及備用場地。
(4)等級三:備份介質異地存放及備份中心。
(5)等級四:定時數(shù)據(jù)備份及備份中心。
(6)等級五:實時數(shù)據(jù)備份及備份中心。
(7)等級六:零數(shù)據(jù)丟失。
基于災備需求分析,一個完整的災備方案的設計將涉及各個災備等級的使用,并且綜合考慮技術手段、投資成本、管理方式等方面的因素,提出數(shù)據(jù)備份方案、建設備份處理系統(tǒng),災備中心、并制定相應規(guī)程和管理制度。
4.實施災備方案
按照所制定的災備方案,完成災備工作。實施過程中,要嚴格災備方案的要求和內容進行。落實相關的規(guī)章制度、應用災備方案、建設和運行災備中心。目前比較實用的的數(shù)據(jù)備份方式可分為:本地備份異地保存、遠程磁帶庫與光盤庫、遠程關鍵數(shù)據(jù)%2B定期備份、遠程數(shù)據(jù)庫復制、網絡數(shù)據(jù)鏡像、遠程鏡像磁盤等六種。
(1)本地備份異地保存:是指按一定的時間間隔(如一天)將系統(tǒng)某一時刻的數(shù)據(jù)備份到磁帶、磁盤、光盤等介質上,然后及時地傳遞到遠離運行中心的、安全的地方保存起來。
(2)遠程磁帶庫、光盤庫:是指通過網絡將數(shù)據(jù)傳送到遠離生產中心的磁帶庫或光盤庫系統(tǒng)。本方式要求在生產系統(tǒng)與磁帶庫或光盤庫系統(tǒng)之間建立通信線路。
(3)遠程關鍵數(shù)據(jù)%2B定期備份:本方式定期備份全部數(shù)據(jù),同時生產系統(tǒng)實時向備份系統(tǒng)傳送數(shù)據(jù)庫日志或應用系統(tǒng)交易流水等關鍵數(shù)據(jù)。
(4)遠程數(shù)據(jù)庫復制:在與生產系統(tǒng)相分離的備份系統(tǒng)上建立生產系統(tǒng)上重要數(shù)據(jù)庫的一個鏡像拷貝,通過通信線路將生產系統(tǒng)的數(shù)據(jù)庫日志傳送到備份系統(tǒng),使備份系統(tǒng)的數(shù)據(jù)庫與生產系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)變化保持同步。
(5)網絡數(shù)據(jù)鏡像:是指對生產系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)和重要的數(shù)據(jù)與目標文件進行監(jiān)控與跟蹤,并將對這些數(shù)據(jù)及目標文件的操作日志通過網絡實時傳送到備份系統(tǒng),備份系統(tǒng)則根據(jù)操作日志對磁盤中數(shù)據(jù)進行更新,以保證生產系統(tǒng)與備份系統(tǒng)數(shù)據(jù)同步。
(6)遠程鏡像磁盤:利用高速光纖通信線路和特殊的磁盤控制技術將鏡像磁盤安放到遠離生產系統(tǒng)的地方,鏡像磁盤的數(shù)據(jù)與主磁盤數(shù)據(jù)以實時同步或實時異步方式保持一致。磁盤鏡像可備份所有類型的數(shù)據(jù)。
5.制定災難恢復計劃
其主要目的是規(guī)范災難恢復流程,使重要的信息系統(tǒng)在災難發(fā)生后就能夠快速地恢復數(shù)據(jù)處理系統(tǒng)運行和業(yè)務運作,同時可以根據(jù)災難恢復計劃對其數(shù)據(jù)處理中心地災難恢復能力進行測試,并將災難恢復計劃作為相關人員培訓內容之一。
6.保持災難恢復計劃持續(xù)可用 在災難恢復計劃制定以后,為保證計劃的可用性和完整性,需要制定變更管理流程,定期審核制度和定期演練制度。
災備系統(tǒng)評價標準
災備系統(tǒng)主要有四個指標評價:分別是RTO、RPO、DOO和NRO。
RTO是恢復時間目標,這個指標就是容災恢復的時間指標。它的含義就是說從災難發(fā)生造成的業(yè)務中斷,一直到使業(yè)務能夠以繼續(xù)恢復所需要的這段時間。因此可以看出,如果RTO越短就意味著這個容災系統(tǒng)的容災能力越強。
RPO就是所謂的恢復點目標。什么是恢復點?恢復點是宕機以后數(shù)據(jù)開始恢復的時間點,RPO所對應的災難,所造成數(shù)據(jù)丟失情況,我們可以這樣來看,如果RPO等于零,換句話來說,也就相當于沒有造成數(shù)據(jù)丟失。因為從什么地方跌倒,就從什么地方爬起來,就沒有造成數(shù)據(jù)本身的丟失,當然對其他可能還是有損失的。否則的話就需要對業(yè)務進行恢復處理,需要對丟失數(shù)據(jù)進行修復。
第三個指標DOO,就是降級操作指標,這個時候它主要考慮宕機恢復以后到第二次故障的災難以后的時間。
第四個目標NRO,就是網絡恢復的目標,主要是考慮網絡恢復的時間。那么一個信息系統(tǒng)的災備,它的結構怎么來描述呢?那么在信息領域里面,災備系統(tǒng)可以描述為四大塊:那么哪四大塊呢?它其實是一個以存儲系統(tǒng)作為基本的支撐,以網絡作為基本的傳輸,以容錯的軟件、硬件技術作為直接的技術手段,以管理技術作為重要的輔助手段,這么四大塊所組成的一個綜合系統(tǒng)。
【編輯推薦】