小議銀行“存儲雙活”宕機(jī)事故
10月12日銀監(jiān)會下發(fā)的【2015】162號文件又一次將銀行信息系統(tǒng)的災(zāi)備問題推向了風(fēng)口浪尖。文件指出:“今年5月8日,某城市商業(yè)銀行核心系統(tǒng)數(shù)據(jù)庫發(fā)生故障,數(shù)據(jù)庫自動存儲管理(ASM)文件異常損壞,數(shù)據(jù)庫無法加載存儲磁盤組,導(dǎo)致數(shù)據(jù)庫服務(wù)器宕機(jī),災(zāi)備中心無法正常使用,造成該行柜面和渠道業(yè)務(wù)較長時間的中斷。”
仔細(xì)閱讀文件,我們不難發(fā)現(xiàn)此城市商業(yè)銀行并非缺乏相關(guān)災(zāi)備的解決方案,相反其同城災(zāi)備數(shù)據(jù)中心甚至采用了IBM Metro Mirror存儲級數(shù)據(jù)復(fù)制技術(shù),搭建起同城存儲“雙活”架構(gòu),號稱可以實(shí)現(xiàn)RPO=0,RTO=0,保證業(yè)務(wù)連續(xù)性的***等級需求。
讓我們先來看看什么是Metro Mirror
Metro Mirror同城存儲復(fù)制技術(shù)(以前也被稱為PPRC),是以存儲為基礎(chǔ)的、實(shí)時的、與應(yīng)用無關(guān)的數(shù)據(jù)遠(yuǎn)程鏡像功能??梢员WC是無數(shù)據(jù)丟失且具有完全恢復(fù)功能的災(zāi)難恢復(fù)解決方案。
Metro Mirror基于IBM的企業(yè)級存儲服務(wù)器,通過光纖通道,以邏輯卷為基本單位,將本地存儲設(shè)備上的數(shù)據(jù)同步鏡像到遠(yuǎn)端存儲設(shè)備上。
Metro Mirror的同步實(shí)現(xiàn)機(jī)制如下圖所示:
1. 在生產(chǎn)系統(tǒng)中的應(yīng)用程序?qū)?shù)據(jù)寫到生產(chǎn)系統(tǒng)的磁盤。
2. 生產(chǎn)系統(tǒng)中的磁盤數(shù)據(jù)傳輸?shù)絺浞葜行牡拇疟P
3. 當(dāng)生產(chǎn)數(shù)據(jù)都寫入備份中心存儲設(shè)備后,備份磁盤將寫完操作信息返給生產(chǎn)磁盤
4. 當(dāng)生產(chǎn)系統(tǒng)收到災(zāi)備系統(tǒng)傳回的已寫信息之后,生產(chǎn)機(jī)的磁盤系統(tǒng)通知主機(jī)該寫操作已完畢。
Metro Mirror技術(shù)能夠?qū)崿F(xiàn)RPO,RTO=0,從而做到存儲雙活,這話確實(shí)沒有錯。然而,這一結(jié)論僅限于存儲設(shè)備發(fā)生物理故障時才成立。而一旦數(shù)據(jù)本身發(fā)生損壞或人為刪除等邏輯故障時,同步雙活只會將錯誤的數(shù)據(jù)一式兩份,造成生產(chǎn)端和災(zāi)備端的存儲雙雙“悲劇”。
解決邏輯錯誤的辦法早已有之??煺占夹g(shù)可以按照設(shè)定的間隔時間,將存儲數(shù)據(jù)回退至最近一份正確數(shù)據(jù);而CDP技術(shù)更是能夠像錄像般記錄整個IO的讀寫,以***的數(shù)據(jù)丟失量進(jìn)行數(shù)據(jù)的“時光穿梭”。
然而,此次遭遇宕機(jī)事故的銀行,雖然下血本建了存儲雙活,但卻疏于防范“邏輯故障”這一潛在風(fēng)險,最終導(dǎo)致了問題的發(fā)生。
柏科數(shù)據(jù)VRD虛擬化網(wǎng)關(guān)解決方案,在支持雙活數(shù)據(jù)中心建設(shè)的同時,內(nèi)建快照與微秒級CDP,有效預(yù)防物理故障與邏輯故障,真正做到全方位的災(zāi)備保護(hù)。
除此以外,柏科數(shù)據(jù)VRD虛擬化網(wǎng)關(guān)還支持存儲虛擬化、遠(yuǎn)程精簡帶寬傳輸?shù)膹?fù)制等功能,不管是對過去架構(gòu)的兼容性,亦或異地災(zāi)備的構(gòu)建都能得到強(qiáng)有力的保障。
銀行災(zāi)備系統(tǒng)的建設(shè)是一件復(fù)雜而不容有失的任務(wù)。選擇能夠全方位應(yīng)對各種風(fēng)險,真正保證業(yè)務(wù)高可用與高可靠的災(zāi)備解決方案,將是我國銀行業(yè)信息化過程中需要著力解決的重要課題之一。