如何打造高可靠的全閃存陣列?
全閃存時代到來,“快”、“穩(wěn)”無疑是企業(yè)用戶的定心丸,那么如何打造一款高可靠的全閃存陣列?華為OceanStor Dorado V3具備全面的可靠性技術(shù)手段,帶來不一樣的高可靠體驗!
對于華為全閃存系統(tǒng)的可靠性,之前已經(jīng)從介質(zhì)可靠性、系統(tǒng)級可靠性、解決方案級可靠性三個層面進行了全面的介紹,本篇將著重從系統(tǒng)可靠性層面為大家做進一步的解讀。
冗余是硬件架構(gòu)的基礎(chǔ)
OceanStor Dorado V3采用模塊化和無源背板設(shè)計,所有模塊都采用冗余設(shè)計,且模塊間的互聯(lián)網(wǎng)絡(luò)也采用冗余鏈路,任何一個模塊故障,都不會影響業(yè)務(wù)連續(xù)性。
預(yù)警是關(guān)鍵技術(shù)
只有預(yù)防才是硬道理,相比模塊故障后的業(yè)務(wù)倒換,預(yù)防可以進一步降低對業(yè)務(wù)的影響,在預(yù)警后繼續(xù)保持業(yè)務(wù)的連續(xù)性,并提示客戶在適當(dāng)?shù)臅r間進行更換,大約68%的故障都可以通過提前預(yù)警進行規(guī)避。
OceanStor Dorado V3針對鏈路亞健康、壽命部件、高失效率器件進行預(yù)警,避免產(chǎn)品壽命末期或故障累積出現(xiàn)雙重故障導(dǎo)致業(yè)務(wù)中斷。具體預(yù)警部件包括內(nèi)存、BBU(備電模塊)、風(fēng)扇、SSD盤、互連的所有鏈路,通過全面的預(yù)警技術(shù),實現(xiàn)對這些部件的提前告警,提前維護,進而在業(yè)務(wù)受影響前進行更換,提高業(yè)務(wù)連續(xù)性。
故障檢測、修復(fù)和隔離是必備技術(shù)
該技術(shù)是發(fā)揮冗余部件能力的基礎(chǔ),同時也是華為存儲十幾年的持續(xù)積累結(jié)果,如果沒有該技術(shù),則冗余就是虛假冗余。OceanStor Dorado V3采用分層檢測隔離技術(shù),所謂分層,就是通過硬件邏輯層、驅(qū)動層、業(yè)務(wù)層三個層次模塊,自我檢測隔離和模塊間相互檢測隔離,實現(xiàn)了模塊間的解耦,有效避免故障模塊影響正常模塊的工作,以及故障擴散,真實實現(xiàn)系統(tǒng)高可用性。
關(guān)鍵部件高可靠是基礎(chǔ)中的基礎(chǔ)
作為整個系統(tǒng)的連接單元,背板是系統(tǒng)的關(guān)鍵部件。為了提升系統(tǒng)可靠性,背板采用無源化設(shè)計,必要的有源器件采用了1+1冗余設(shè)計,故障率極低,完全可以滿足系統(tǒng)可靠性要求。
作為存儲系統(tǒng)工作的大腦,控制器的重要性不言而喻。為了降低控制器的故障率,從器件選型到生產(chǎn)加工,再到嚴(yán)格的篩選過程,讓企業(yè)用戶獲得放心的產(chǎn)品。同時控制器實時的狀態(tài)監(jiān)控,可以隨時上報控制器的健康狀態(tài),方便用戶輕松維護。
SSD(固態(tài)硬盤)是數(shù)據(jù)存儲的最終部件,華為SSD的MTBF(盤平均故障間隔時間)為300萬小時,領(lǐng)先業(yè)內(nèi)水平50%,讓存放數(shù)據(jù)更放心,而且其關(guān)鍵的數(shù)據(jù)校驗算法、冗余配置、備電分組冗余等技術(shù),是SSD可靠的重要支撐。
BBU(備電模塊)是數(shù)據(jù)保護的關(guān)鍵部件,其壽命領(lǐng)先業(yè)內(nèi)水平66.6%,常溫狀態(tài)下系統(tǒng)整個生命周期免更換,并且具備三重安全保護。
華為OceanStor Dorado6000 V3正視圖
綜上,OceanStor Dorado V3具備部件、冗余、預(yù)警、故障檢測修復(fù)隔離四個層面的技術(shù)支撐,也是華為十幾年持續(xù)積累和創(chuàng)新的結(jié)果,為企業(yè)的核心業(yè)務(wù)運行保駕護航!