管理員須知:Web服務(wù)器宕機(jī)的診斷方法
如果你正面臨Web服務(wù)器宕機(jī)的問題,下面幾招可以幫你解決燃眉之急并避免再次出現(xiàn)此類事故。
過去20年里,網(wǎng)絡(luò)已成為文明的重要部分。從社會(huì)需求層次看,網(wǎng)絡(luò)需求排名僅低于飲用水與可靠電力供應(yīng),網(wǎng)絡(luò)為人類社會(huì)提供了更多的生產(chǎn)力,個(gè)人娛樂以及整體生活質(zhì)量改善在過去半個(gè)世紀(jì)的發(fā)展,是以往任何時(shí)期都無法比擬的。
網(wǎng)站
通過訪問網(wǎng)站滿足需求已經(jīng)被許多現(xiàn)代用戶接受:可以通過Web進(jìn)行學(xué)術(shù)研究、個(gè)人致富和訂披薩,用戶可以在舒適的家里完成這一切操作。為了競(jìng)爭(zhēng),最有信譽(yù)的企業(yè)也投身到世界級(jí)網(wǎng)站建設(shè)中,一般說來,就是深入Web服務(wù)器的開發(fā),配置和維護(hù)。隨著企業(yè)越來越依賴他們的Web服務(wù),這些服務(wù)器配置也變得越來越復(fù)雜,需要更加注重應(yīng)急預(yù)案,應(yīng)對(duì)服務(wù)器或集群宕機(jī)。
冗余與Web服務(wù)器
在進(jìn)行下一步之前,讓我們先強(qiáng)調(diào)冗余的重要性。過去,冗余解決方案不盡相同,但都涉及到物理硬件的采購(gòu)和部署實(shí)施。如今,虛擬化的廣泛應(yīng)用已造就了雪球效應(yīng),影響了冗余平臺(tái)的設(shè)計(jì)與實(shí)施。企業(yè)級(jí)環(huán)境依舊需要多臺(tái)服務(wù)器,只是沒有想象的那么多。無論哪款虛擬化平臺(tái),只是簡(jiǎn)單選擇一款而不進(jìn)行詳細(xì)規(guī)劃設(shè)計(jì)的話,距離減少web服務(wù)器宕機(jī)和失效時(shí)間目標(biāo),還有很長(zhǎng)的路要走。
步驟 1:發(fā)生什么事了?
系統(tǒng)管理員必須肩負(fù)起分析和判斷Web服務(wù)器宕機(jī)原因的責(zé)任。需要解決如下的問題:
• 是否是斷電,發(fā)電機(jī)測(cè)試以及其他類似問題影響了整體物理環(huán)境?
• 和Web服務(wù)器的通信是否已經(jīng)完全被阻斷,還是某些IP段依舊可以使用?
• 是否還可以管理服務(wù)器?
• 日志中是否有異常記錄?
這些只是少部分管理員們需要立即回答的問題,在深入診斷問題之前,先解決上述問題。
步驟 2:最簡(jiǎn)單的解決方案往往是最好的
有很多時(shí)候會(huì)陷入診斷高級(jí)問題的誤區(qū),分析各種可能的技術(shù)問題和疑難雜癥。而實(shí)際上,退一步想,從宏觀角度思考問題,可能解決已花費(fèi)無數(shù)工時(shí)和成本卻還未攻克的技術(shù)難題。例如,主機(jī)通電了嗎,或者是否有人無意間碰掉了電源線?如果機(jī)器確實(shí)已經(jīng)通電,但沒有任何網(wǎng)絡(luò)連接,需要檢查網(wǎng)線或者光纖是否沒有接上或者松動(dòng)。是的,這些看似明顯低級(jí)錯(cuò)誤的解決方法,你認(rèn)為都不可能發(fā)生,但任何有經(jīng)驗(yàn)的系統(tǒng)管理員會(huì)告訴你,這些狀況的發(fā)生頻率遠(yuǎn)比你想的要多的多。#p#
經(jīng)過上頁的兩個(gè)步驟,如果你的Web服務(wù)器還是宕機(jī)狀態(tài),別著急,還有下面三個(gè)步驟。
步驟3:如果基本故障處理方法沒有效果,怎么辦
現(xiàn)在你已經(jīng)檢查了所有電纜和其他外圍設(shè)備,可以試著使用ping命令探測(cè)設(shè)備狀況。幸運(yùn)的是,ping命令是所有平臺(tái)通用的,也是最簡(jiǎn)單的。如果可以在局域網(wǎng)內(nèi)ping通服務(wù)器,接著可以試試從局域網(wǎng)外ping服務(wù)器進(jìn)行檢測(cè)。這樣做可以迅速判斷問題是否產(chǎn)生在交換和路由層面,而不是服務(wù)器級(jí)別。此外,如果Web服務(wù)器已經(jīng)虛擬化,試著ping物理服務(wù)器自己的真實(shí)IP。這樣可以幫助你進(jìn)一步隔離問題。如果完全無法ping同服務(wù)器,而且也已經(jīng)確定完全檢查了網(wǎng)絡(luò)連接,那么就需要進(jìn)行更深入的分析了。
步驟 4:使盡渾身解數(shù),服務(wù)器依然宕機(jī)
已經(jīng)檢查過網(wǎng)線。也試過了ping服務(wù)器,依舊無法訪問服務(wù)器。好消息是,已經(jīng)可以將問題定位到物理服務(wù)器或操作系統(tǒng)本身了。換句話說,已經(jīng)可以開始集中經(jīng)理對(duì)現(xiàn)存的問題進(jìn)行排查。
接下來,我們才去從底層到高層的方式來逐層檢查問題,首先檢查網(wǎng)絡(luò)接口和本地網(wǎng)絡(luò)配置是否正常。DHCP是否啟動(dòng)?Web服務(wù)器是否指向正確的DNS服務(wù)器?如果是這樣,可以根據(jù)使用的操作系統(tǒng)平臺(tái),檢查Web服務(wù)是否正常開啟。在Windows環(huán)境,需要檢查服務(wù)器是否具有Web服務(wù)的角色。在Linux環(huán)境下,檢查會(huì)更復(fù)雜,可以試試查找http相關(guān)的文件或服務(wù)來確保服務(wù)器是否正在運(yùn)行。
步驟 5:絕境下需要?jiǎng)佑媒^招
如果以上方法都不奏效,檢查日志并嘗試查明在Web服務(wù)器宕機(jī)時(shí)日志中記錄的那些信息。將這些信息發(fā)給在故障處理和解決領(lǐng)域更有經(jīng)驗(yàn)的專業(yè)人士,可能會(huì)獲得更多的幫助。同樣的,如果已經(jīng)確認(rèn)網(wǎng)絡(luò)連接不是問題,就可以使用Wireshark抓包工具對(duì)網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)進(jìn)行抓取分析,以此協(xié)助處理問題。
總而言之,服務(wù)器宕機(jī)的原因多種多樣。斷電、配置錯(cuò)誤、防火墻設(shè)置錯(cuò)誤、甚至是來自互聯(lián)網(wǎng)的惡意流量,都可能引發(fā)源站宕機(jī)并讓系統(tǒng)管理員們抓狂。所有這些問題都足以讓企業(yè)決策者對(duì)冗余解決方案的設(shè)計(jì)和實(shí)施加以重視,同樣的針對(duì)故障處理流程的設(shè)計(jì)和制定,還需要根據(jù)企業(yè)自身網(wǎng)絡(luò)的實(shí)際情況為依據(jù)。