杜絕宕機(jī) 不同行業(yè)服務(wù)器RAS側(cè)重點(diǎn)
隨著IT的發(fā)展以及企業(yè)業(yè)務(wù)的增加,服務(wù)器成為了很多企業(yè)業(yè)務(wù)支持的平臺(tái)。尤其是在我國(guó),服務(wù)器的增長(zhǎng)勢(shì)頭非常強(qiáng)勢(shì)。但由于我國(guó)IT科技發(fā)展較晚,所以企業(yè)用戶(hù)在選購(gòu)服務(wù)器的時(shí)候往往不知道從何下手,甚至在采購(gòu)過(guò)程中遭遇奸商欺騙等行為。錢(qián)財(cái)損失是小,但耽誤企業(yè)業(yè)務(wù)的正常運(yùn)行可以說(shuō)那就大了。
服務(wù)器在采購(gòu)的時(shí)候要考慮多方面的因素,而安全性在“棱鏡”事件后也成迅速得到了企業(yè)事業(yè)單位用戶(hù)的重視。服務(wù)器的安全性主要體現(xiàn)在RAS性能上。RAS性能是指服務(wù)器的可靠性(Reliability)、可用性(Availability)以及可服務(wù)性(Serviceability)。具體RAS性能我們主要看一下幾個(gè)方面:System級(jí)別的RAS特性、CPU RAS特性、內(nèi)存RAS特性、I/O RAS特性等。
可以看出,RAS性能是一個(gè)綜合性指標(biāo),對(duì)于不同行業(yè)的用戶(hù)來(lái)說(shuō),其對(duì)RAS性能的要求也不盡相同。下面我們就來(lái)具體看一下這些內(nèi)容:
內(nèi)存的RAS性能尤其重要
服務(wù)器內(nèi)存在RAS性能中起到非常關(guān)鍵的作用,因?yàn)榉?wù)器中的所有計(jì)算幾乎都是跑在內(nèi)存中的,內(nèi)存性能的好壞直接影響到服務(wù)器的穩(wěn)定性,從而影響企業(yè)業(yè)務(wù)的可靠性。內(nèi)存的錯(cuò)誤率其實(shí)比想象中的要高(refer),內(nèi)存也因?yàn)槔匣仍驎?huì)出現(xiàn)性能降低,從而產(chǎn)生問(wèn)題而影響企業(yè)業(yè)務(wù)。
針對(duì)內(nèi)存方面的重要性,很多企業(yè)也采用了相應(yīng)優(yōu)化。例如目前許多x86服務(wù)器經(jīng)銷(xiāo)商的賣(mài)點(diǎn)宣傳就是集中在內(nèi)存上,比如服務(wù)器內(nèi)存的ECC特性,Spare Row、Chip Kill、Single Device Data Correction (SDDC)等,其中Chip Kill是IBM的專(zhuān)利技術(shù),主要用在高端服務(wù)器上。惠普服務(wù)器曾連續(xù)跑了二十年而沒(méi)有停機(jī),而寶德也有連續(xù)跑了五年沒(méi)有停機(jī)的例子。
#p#
處理器的RAS性能的重要性
處理器相信是大家都熟悉的一個(gè)部件,很多人在購(gòu)買(mǎi)PC和手機(jī)的時(shí)候,首先關(guān)注的就是處理器。
而在服務(wù)器領(lǐng)域,其服務(wù)器處理器與PC市場(chǎng)的型號(hào)并不相同,而是針對(duì)服務(wù)器市場(chǎng)的特定需求,英特爾推出了針對(duì)企業(yè)級(jí)的Xeon處理器,Xeon E3面向低端市場(chǎng),Xeon E5處理器面向中端市場(chǎng),面向高端市場(chǎng)的則是Xeon E7服務(wù)器。

Xeon平臺(tái)的可靠性、可用性和可維護(hù)性相比上一代處理器產(chǎn)品有了明顯的提升,其繼承了很多大型企業(yè)開(kāi)發(fā)中驗(yàn)證過(guò)的RAS技術(shù)。通過(guò)所有的CPU電路間的無(wú)檢測(cè)和恢復(fù)機(jī)制,避免由于CPU錯(cuò)誤帶來(lái)的系統(tǒng)故障,并可保證CPU內(nèi)部的數(shù)據(jù)傳輸和存儲(chǔ)的隨機(jī)錯(cuò)誤通過(guò)ECC數(shù)據(jù)糾正處理和指令重試技術(shù)恢復(fù)。
而且如今的處理器即使在發(fā)生不可恢復(fù)的錯(cuò)誤的時(shí)候也不會(huì)停止工作,只會(huì)繼續(xù)記錄所有的錯(cuò)誤信息,因此任何錯(cuò)誤原因都能夠迅速檢測(cè)出來(lái)。例如,Xeon E7在英特爾上一代的Xeon 7500為基礎(chǔ),建立了面向諸多高端計(jì)算應(yīng)用的支持,包括商業(yè)智能、實(shí)時(shí)數(shù)據(jù)分析和虛擬化等全新標(biāo)準(zhǔn)。可以確保數(shù)據(jù)的完整性能,從而提供整個(gè)數(shù)據(jù)中心的安全。
#p#
不同行業(yè)RAS性能的側(cè)重點(diǎn)不同
RAS能力是評(píng)判服務(wù)器的重要標(biāo)準(zhǔn)。但是由于RAS能力提升需要服務(wù)器的制造成本提升,而且對(duì)于不同行業(yè)的用戶(hù)來(lái)說(shuō),并不是所有的用戶(hù)都需要那些RAS指標(biāo),所以服務(wù)器提供商并不是將所有服務(wù)器的RAS性能都設(shè)定的面面俱到。需要根據(jù)具體業(yè)務(wù)來(lái)判定具體需求。
可靠性在行業(yè)應(yīng)用中最主要的是指雙擊熱備份。這是用戶(hù)非常喜歡提供服務(wù)器穩(wěn)定性的方式,雙擊熱備份就是一臺(tái)主機(jī)為工作計(jì)劃,另一臺(tái)主機(jī)為備份機(jī)器,在系統(tǒng)正常的情況下,工作機(jī)為信息系統(tǒng)提供支持,備份集提供監(jiān)視工作機(jī)的運(yùn)行,工作機(jī)也同時(shí)監(jiān)視備份機(jī)是否正在。

當(dāng)工作機(jī)出現(xiàn)問(wèn)題的時(shí)候,不能夠支持業(yè)務(wù)運(yùn)行,那么備份機(jī)就會(huì)主動(dòng)接管工作機(jī)的工作,繼續(xù)支持業(yè)務(wù)的運(yùn)行,從而確保業(yè)務(wù)的不間斷運(yùn)行。當(dāng)工作機(jī)經(jīng)過(guò)維修恢復(fù)正常后,它將會(huì)將原來(lái)的工作自動(dòng)抓回,恢復(fù)以往服務(wù)器的工作狀態(tài)。而備份集也有可能由于某些原因而出現(xiàn)異常,工作機(jī)則是負(fù)責(zé)通知工作人員,確保下一次切換的可靠性。
在不同行業(yè)中,不同的而延誤對(duì)可靠性的要求不同,例如在金融、電力和醫(yī)療等行業(yè),他們對(duì)計(jì)算機(jī)的可靠性要求非常高,所以習(xí)慣采用的是雙擊備份系統(tǒng)。雙擊備份可以時(shí)間運(yùn)行時(shí)的互相監(jiān)控,在發(fā)生故障的時(shí)候自動(dòng)切換保證業(yè)務(wù)7*24小時(shí)的穩(wěn)定運(yùn)行,從而提升了數(shù)據(jù)的安全性和業(yè)務(wù)的可靠性。
#p#
可用性指的是系統(tǒng)被請(qǐng)求使用時(shí)能夠迅速反饋并被正確操作的可能性。在一些行業(yè)中許多關(guān)鍵業(yè)務(wù)是不能在運(yùn)行過(guò)程中間斷的。例如商業(yè)智能分析、業(yè)務(wù)流程處理、核心數(shù)據(jù)庫(kù)等等,特別是在政務(wù)、國(guó)防、電信、金融等領(lǐng)域更是注重系統(tǒng)的可用性。
企業(yè)的關(guān)鍵業(yè)務(wù)一旦出現(xiàn)意外會(huì)給用戶(hù)造成極大的傷害,甚至是無(wú)法彌補(bǔ)的,所以這就對(duì)支持他的IT平臺(tái)提出了非常嚴(yán)格的要求。亞馬遜宕機(jī)時(shí)間一分中的損失就高達(dá)5萬(wàn)美元,所以停機(jī)事件在一些行業(yè)是不能出現(xiàn)的。雙備份技術(shù)可以迅速恢復(fù)系統(tǒng)性能,另外還有多子星系統(tǒng),滿(mǎn)足多節(jié)點(diǎn)服務(wù)需求等。
高鐵的IT系統(tǒng)是一個(gè)非常重要的部門(mén),其IT系統(tǒng)出現(xiàn)故障會(huì)造成整個(gè)交通的癱瘓,在高鐵運(yùn)營(yíng)管理中用到一種SSI標(biāo)準(zhǔn)刀片服務(wù)器,是由六個(gè)計(jì)算刀片和14個(gè)存儲(chǔ)刀片組成,集成度高,非常適合分散狀況下的運(yùn)行管理。
其實(shí)這個(gè)方案很簡(jiǎn)單,采用的是寶德PR6000M刀片服務(wù)器和雙擊熱備軟件,就形成了一個(gè)雙擊熱備系統(tǒng),兩臺(tái)服務(wù)器通過(guò)心跳線相連,在一臺(tái)服務(wù)器出現(xiàn)故障時(shí),另一臺(tái)機(jī)器能夠承擔(dān)全部的工作負(fù)荷,真正解決了集中管理與安全穩(wěn)定的問(wèn)題。
#p#
可維護(hù)性是指整個(gè)IT系統(tǒng)非常巨大,而又要求實(shí)時(shí)、動(dòng)態(tài)和效率時(shí),其承載平臺(tái)要有非常出色的擴(kuò)展能力。比如在需要高性能的時(shí)候需要增加處理器數(shù)量,內(nèi)存的擴(kuò)充和硬盤(pán)的擴(kuò)充等等,就像寶德的模塊化服務(wù)器、存儲(chǔ)服務(wù)器等,提供快速的解決問(wèn)題的能力。
例如,在銀行的核心業(yè)務(wù)數(shù)據(jù)庫(kù)方面,其要求確保7*24小時(shí)業(yè)務(wù)不當(dāng)機(jī)。如何解決這個(gè)難題呢?寶德服務(wù)器針對(duì)這個(gè)需求將銀行的核心業(yè)務(wù)部署在寶德的PR6850N服務(wù)器雙擊系統(tǒng)上,該服務(wù)器為6U四路服務(wù)器,擁有超過(guò)20項(xiàng)的RAS特性。
在發(fā)生故障后,兩臺(tái)PR6850N部署的虛擬機(jī)可以實(shí)現(xiàn)互相的接管,保證業(yè)務(wù)的不中斷,同時(shí)虛擬機(jī)部署的存儲(chǔ)實(shí)現(xiàn)整個(gè)虛擬機(jī)連同業(yè)務(wù)和數(shù)據(jù)庫(kù)的備份。而且這個(gè)方面還擁有非常出色的擴(kuò)展能力。。
文章總結(jié):服務(wù)器RAS性能能夠大幅提升系統(tǒng)的安全性,保證用戶(hù)的關(guān)鍵業(yè)務(wù)不間斷運(yùn)行,但是在提升RAS性能方面,隨之成本也會(huì)隨之上升。所以對(duì)于用戶(hù)來(lái)說(shuō),還應(yīng)該安裝自己行業(yè)的業(yè)務(wù)性能來(lái)選擇服務(wù)器。讓企業(yè)IT基礎(chǔ)架構(gòu)實(shí)現(xiàn)***性?xún)r(jià)比的配置。