十大X86服務器常見故障——硬件篇
原創(chuàng)說起X86平臺的CPU,我們可能會如數(shù)家珍的報出N多種,Inter的至強5600、至強7500,AMD強勁的12核心x86處理器--“Magny-Cours”(馬尼庫爾)等等。在它的基礎上,輔以帶ECC、ChipKill、熱插拔技術的內(nèi)存;防止數(shù)據(jù)異常丟失的RAID硬盤;提供不中斷電力供應的冗余電源等等共同構建出一個完整的X86服務器。
由于X86服務器和臺式機有著很多相似之處,從前期部署→中期維護→后期管理都有著異曲同工之妙。因此,X86應該算是我們廣為熟知的架構了。用得多了,遇到的故障自然不少,以下故障不知大家是否遇到過……
硬件故障篇
Top10 網(wǎng)卡
服務器網(wǎng)卡
故障回放:近幾日,內(nèi)網(wǎng)用戶通過代理服務器進行連接時不太穩(wěn)定,ping的速度有時低于1ms,有時高達500多ms,數(shù)值相差之大也說明了網(wǎng)絡時好時壞。起先判斷是蠕蟲病毒作祟,但經(jīng)過詳細篩查,確定非病毒引發(fā)的故障;再對網(wǎng)線進行測試,衰減、串擾、回波損耗等各項技術指標都在正常指標之內(nèi),最后更換網(wǎng)卡故障才得以解決。
解決方案:我們知道一款優(yōu)秀的網(wǎng)卡除了擁有高速率外,還需要關注2個技術指標,TOE(TCPOffloadEngine,TCP減負引擎)技術和RSS(Receive-sideScaling接收端調節(jié))技術,它們能大幅減輕CPU的資源,解決了輸入/輸出流(I/O)的瓶頸,使網(wǎng)絡吞吐大幅提升,這兩項技術可以使系統(tǒng)的響應指標的TPS值能提升2.1到2.5倍,所以一塊好的網(wǎng)卡是保證服務器快速、穩(wěn)定連接的保障。
一般來說,網(wǎng)卡出現(xiàn)故障的狀況較低,即便是損壞也可以使用獨立網(wǎng)卡代替,它的危害程度也不是很高。
危害程度:★★
控制難度:★
綜合評定:★☆
#p#
Top 9 風扇
服務器風扇組
故障回放:某服務器經(jīng)常死機或者自行重啟,在排除了軟件隱患后,把目光轉向了硬件平臺。檢測CPU、硬盤的溫度,全部超出標準,旋即拆開服務器,熱氣涌出,原是機箱內(nèi)的風扇壞掉了,溫度升高導致系統(tǒng)不穩(wěn)定。
解決方案:降低機箱內(nèi)的溫度主要是改變熱傳導率系數(shù),塔式服務器通過增加風扇物理數(shù)量和加快風扇轉速來引動氣流的循環(huán),排除熱量。效果非常好,噪音非常大;機架式和刀片式服務器由于空間有限則利用新型的“智能風扇”系統(tǒng)來控制空氣的流動。
這種風扇以“組”的方式出現(xiàn),每個“組”包括兩個串聯(lián)而成的冗余風扇,它們通過智能IC芯片來實時監(jiān)控風扇的轉速和服務器內(nèi)部的溫度,溫度過高時,智能芯片調高風扇的轉速以抑制熱量升高;低功耗運行時智能風扇系統(tǒng)將會自動降低風扇的轉速,減輕能耗的排放;而如果其中一個冗余風扇損壞,另外一個風扇會將其自身轉速提高一倍,完全彌補風扇停轉引起的風速不足情況,大大提高了服務器的穩(wěn)定性和可靠性。
危害程度:★★
控制難度:★★
綜合評定:★★
#p#
Top 8 電源模塊
服務器電源模塊
故障回放:某日清晨,剛剛走進機房就感覺一股熱浪迎面撲來,查看溫濕度表,顯示室內(nèi)溫度已經(jīng)超過了35℃,原因是空調系統(tǒng)短路,上一層的空氣開關跳閘,導致機房溫度急劇上升。立即檢查所有服務器,基本上都正常工作,只有一臺代理服務器出現(xiàn)了藍屏,重啟服務器,更換內(nèi)存都無法恢復,并且重裝系統(tǒng)過程中也同樣藍屏。
解決方案:對CPU、主板、內(nèi)存、硬盤進行詳細診斷,全部正常,對電源進行測試,發(fā)現(xiàn)電壓輸出非常不穩(wěn)定,將其拆開,一顆濾波電容已經(jīng)漏液,想必是機房溫度升高,電源負載過重,高頻整流濾波電路內(nèi)的二極管被擊穿所致,盡管尚能供電,卻是非常的不穩(wěn)定。立即尋找同型號的電源予以置換,服務器得以恢復正常。
為了保證今后此類故障不在出現(xiàn),所有服務器全部配備了冗余電源,一旦出現(xiàn)電源模塊損壞的故障可以立即恢復,大大降低了危害程度。
危害程度:★★★
控制難度:★★☆
綜合評定:★★☆
#p#
Top 7 CPU
服務器處理器
故障回放:筆者曾經(jīng)有一臺基于Intel雙核至強3040核心的服務器,開機無顯示,系統(tǒng)指示燈瘋狂的閃爍,懷疑是CPU與主板的接觸不良,將其更換到多路服務器主板的另外一個CPU插槽之上,依舊沒有反應。
解決方案:經(jīng)測量,CPU電壓居然降至1付以下,原來是CPU的VRM(VoltageRegulatorModule,電壓調節(jié)模塊)出現(xiàn)了故障,不能執(zhí)行主板上DC電路轉換,無法為CPU提供穩(wěn)定的工作電壓,只能更換CPU。
這個故障是比較致命,CPU的損壞將直接導致整個服務器的不可用,但是CPU本身的安全性是非常高的,故障率極低。所以在日常維護任務中,由于CPU的損壞導致的服務中斷較為少見,它的危害程度不算太高,如果是多路服務器更是不用擔心CPU損壞而帶來的服務器宕機了。
危害程度:★★★☆
控制難度:★★☆
綜合評定:★★★#p#
Top 6 內(nèi)存
mini服務器內(nèi)存
故障回放:一臺2GB*2內(nèi)存的服務器,由于自身承載的服務過多,服務器的處理數(shù)據(jù)的速度越來越慢,于是,另購2條同型號的內(nèi)存條來升級服務器。將這些內(nèi)存全部插入主板后,系統(tǒng)檢測只有6GB,另外2GB內(nèi)存神秘消失,反復的插拔新的內(nèi)存依舊無法正常檢測。
解決方案:帶著疑問查閱服務器的官方網(wǎng)站,終于得出結論,該服務器的內(nèi)存插槽是配對使用,1-4、2-5、3-6、7-10、8-11、9-12,新內(nèi)存插在了2、3槽,無法形成配對,自然只能檢測出一條內(nèi)存,將內(nèi)存插到5槽,8GB內(nèi)存順利被檢測。
服務器內(nèi)存的優(yōu)勢不僅僅體現(xiàn)在性能上,她在容錯能力同樣投入很多精力,目的是為整個平臺提供高穩(wěn)定環(huán)境,很多內(nèi)存采用的ECC(ErrorCorrectingCode,錯誤檢查和糾正)技術、Register、Chipkill都是為了提高內(nèi)存的穩(wěn)定性,使各個內(nèi)存條和插槽之間能更好的融合。
危害程度:★★★☆
控制難度:★★★
綜合評定:★★★☆
#p#
Top 5 硬盤
故障回放:某服務器近期經(jīng)常出現(xiàn)死機、無征兆的重啟,經(jīng)數(shù)據(jù)中心IT運維人員進行檢測后發(fā)現(xiàn)是硬盤工作時間太長,出現(xiàn)了物理壞道。于是立即將此硬盤拆下,將硬盤內(nèi)的數(shù)據(jù)導出,結果在轉移數(shù)據(jù)的過程中,不停地彈出I/O錯誤,這直接導致數(shù)據(jù)轉移的速度非常慢,且丟失了很多重要數(shù)據(jù)。
解決方案:這種情況多數(shù)是磁頭或者盤片出現(xiàn)了錯誤。聯(lián)系專業(yè)的數(shù)據(jù)恢復公司,拆開硬盤,果然是盤片出現(xiàn)了劃傷,好在劃傷面積并不大,更換磁頭后重新恢復數(shù)據(jù),恢復了95%以上的數(shù)據(jù),算是比較好的結果了。
這個故障發(fā)現(xiàn)的及時,在盤片沒有出現(xiàn)更多物理損傷前予以解決,如盤片損壞嚴重,數(shù)據(jù)將永久性丟失,為了避免這種狀況的發(fā)生我們需要做到以下幾點:
選擇質量上乘的服務器硬盤,比如:平均無故障時間超過1600000小時,年故障率低于0.55%,抗震方面要有300G/2ms的以上的耐沖擊能力等等;
關鍵服務器采用RAID模式,比如:RAID5,它由至少3塊硬盤組成,在向硬盤寫入數(shù)據(jù)信息的同時,還寫入校驗信息,當其中有1塊硬盤出現(xiàn)故障時,可以根據(jù)算法從另外2塊硬盤上得出這塊故障硬盤的數(shù)據(jù),安全性大大提高。
危害程度:★★★☆
控制難度:★★★☆
綜合評定:★★★☆
#p#
Top 4 RAID
故障回放:某企業(yè)更換新的數(shù)據(jù)中心,服務器需要逐步遷移,一臺文件服務器成為先行者。這是一臺采用的RAID1容災策略的服務器,遷移過程中沒有任何問題,但是使用不久一次雷暴天氣后服務器異常關閉,經(jīng)檢測防雷系統(tǒng)并沒有起到應有的作用,導致服務器兩塊硬盤同時損壞。
解決方案:對于RAID1來說,只能允許一塊硬盤的損壞,當2塊硬盤同時損壞后,數(shù)據(jù)將全部丟失,對于RAID3、5來說同樣如此;而對于RAID6,雖然支持兩塊硬盤同時掉線,但是第三塊盤再度掉線后,系統(tǒng)將也將全面崩潰!
上述故障數(shù)據(jù)將是不可逆性恢復,由此可見RAID技術雖好,仍有一些弊端,因此對于極其重要的服務器我們不僅僅要做出RAID的策略,還要將核心數(shù)據(jù)同步備份到其他介質,比如:磁帶、磁盤等。
危害程度:★★★☆
控制難度:★★★★☆
綜合評定:★★★★
#p#
Top 3 主板
故障回放:根據(jù)日志的記錄,Wsus服務器在凌晨2點宕機了,回滾當日監(jiān)控錄像和環(huán)境記錄,沒有任何異常,起初懷疑是病毒或者策略等軟件因素造成的意外狀況,但是重啟服務器時卻是另外一番景象。
開機→風扇轉動,電源模塊指示燈狂閃→尚未自檢,隨即再次啟動→電源模塊指示燈再次閃爍,如此周而復始。
解決方案:更換CPU、內(nèi)存插槽,更換電源模塊,插拔硬盤,故障依舊,將這些設備放置到同型號的服務器上,沒有任何問題。于是懷疑主板損壞,聯(lián)系廠家工程師,經(jīng)檢測確實是主板故障,更換主板后恢復正常。
同CPU一樣,主板的故障率是比較低的,但是它的危害程度卻遠高于CPU,對于多路服務器來講,單一CPU的損壞并不會影響整個服務器的運轉,我們失去的或許只是性能和速度;而對于主板,它幾乎沒有替代品,只能依靠廠家的更換,因此它的危險性較高。
危害程度:★★★★
控制難度:★★★★★
綜合評定:★★★★☆
#p#
Top 2 靜電
防靜電、雷擊的UPS已普及
故障回放:一間極為普通的機房內(nèi),春節(jié)過后,準備手動升級病毒庫,剛剛觸摸服務器,瞬間一個電火花出現(xiàn),緊接著服務器死機了,重新啟動服務器很多數(shù)據(jù)莫名其妙的丟失。
解決方案:不要小看這電火花,當人體接觸金屬物質產(chǎn)生電火花時,人體的靜電電壓已經(jīng)超過3000伏,而硬盤只需1000伏左右的靜電就會造成數(shù)據(jù)丟失,因此防靜電工作務必做好,如今機房最為普遍、最為簡便的防靜電措施就是鋪設防靜電地板,它不僅能過濾很多的靜電,在防火、防潮、防銹方面也起到很大作用,保護效果非常明顯。
另外,閃電、雷暴等自然災害也會造成硬件的損壞,這要破壞要遠遠高于靜電,所以保護硬件安全也需要部署B(yǎng)/C級防雷。
危害程度:★★★★☆
控制難度:★★★★★
綜合評定:★★★★☆
#p#
Top 1 不明原因的故障
故障回放:有故障現(xiàn)象,無故障原因
解決方案:類似的事情有很多,比如說系統(tǒng)藍屏,可能是軟件沖突,也可能是病毒,還可能是內(nèi)存,亦有可能是主板電容爆掉……,面對這種故障我們很難第一時間與以判斷,這個時候我們就需要在綜合的角度進行考量。
首先重裝系統(tǒng),排除軟件的故障;然后,逐一替換系統(tǒng)硬件,排除硬件故障的可能性;如問題依舊就需要考察服務器的應用環(huán)境是否正常,比如電力供應是否滿足需求,溫濕度是否在正常指標之內(nèi),機房的潔凈度是否合規(guī),服務期內(nèi)的灰塵是否太多等等。很多時候故障出現(xiàn)的時間并不固定,短則幾分鐘,長則數(shù)天,沒有任何規(guī)律,對于我們排錯和控制造成了很多麻煩,但是細心+耐心總能找出問題的關鍵點,最終解決。
危害程度:★★★★★
控制難度:★★★★★
綜合評定:★★★★★
除了硬件部分,筆者還特意總結了X86服務器軟件層面的十大故障分析。對此感興趣的讀者請關注51CTO系統(tǒng)頻道的《十大x86服務器常見故障——系統(tǒng)篇》。
本文是51CTO獨家特稿,如需轉載請標明出處。
【編輯推薦】