從支付寶故障看服務(wù)器擴(kuò)容一:事前準(zhǔn)備篇
原創(chuàng)【51CTO獨(dú)家特稿】2009年10月29日15:30分很多淘寶網(wǎng)的淘友們突然發(fā)現(xiàn)支付寶不能使用了,官方的解釋是“系統(tǒng)緊急維護(hù)”,但是很多人對(duì)這個(gè)公告并不買賬,因?yàn)榘凑仗詫毜膽T例,維護(hù)多在凌晨進(jìn)行,不會(huì)選擇交易量瘋狂的下午,更嚴(yán)重的是很多買家付款后系統(tǒng)仍顯示“待付款”,于是很多人都紛紛猜測(cè)淘寶網(wǎng)已被黑客光顧?
17:00以后,淘寶網(wǎng)的交易流程陸續(xù)恢復(fù)正常,淘友們賬戶中的money也沒(méi)有縮水。對(duì)于眾淘友們來(lái)說(shuō),錢沒(méi)少就已經(jīng)皆大歡喜了,而僅僅一個(gè)多小時(shí)的中斷時(shí)間也是無(wú)關(guān)痛癢的,而對(duì)于我們這些每天管理服務(wù)器的IT人士來(lái)說(shuō),這個(gè)事件給我們一個(gè)大大的警示。
淘寶網(wǎng)給我們的最終解釋是:2009年10月29日下午15時(shí)30分左右,支付寶方面發(fā)現(xiàn)系統(tǒng)運(yùn)轉(zhuǎn)緩慢,采取服務(wù)器緊急擴(kuò)容來(lái)應(yīng)對(duì)這些流量不足。我們不禁要問(wèn)流量不足的問(wèn)題為什么IT部門沒(méi)有事先預(yù)判到?為什么要采取緊急擴(kuò)容?在擴(kuò)容前以及擴(kuò)容后我們都需要注意哪些事項(xiàng)?我們不妨說(shuō)一說(shuō)。由于這方面所涉及的點(diǎn)比較多,我們把服務(wù)器擴(kuò)容的注意事項(xiàng)分成三個(gè)篇章來(lái)講述,首先說(shuō)說(shuō)事前準(zhǔn)備篇。
我們知道,不管是暴露在網(wǎng)外的,諸如電子商務(wù)、OA、郵箱等公用服務(wù),還是置身于內(nèi)網(wǎng)的活動(dòng)目錄、DNS、ERP等專屬服務(wù),它們的存在都是一個(gè)機(jī)構(gòu)正常運(yùn)行的保證,任何時(shí)候都不能出現(xiàn)中斷的情形。而如果服務(wù)器所營(yíng)造的平臺(tái)不能滿足當(dāng)前的應(yīng)用需求而必須要做出更換或者擴(kuò)容的時(shí)候,我們必須做好充足的準(zhǔn)備工作。
服務(wù)器擴(kuò)容事前準(zhǔn)備篇A、擴(kuò)容實(shí)施的時(shí)間
每一個(gè)服務(wù)都有存在的價(jià)值,即便是短暫的停歇也會(huì)造成重大的損失,所以我們?cè)谧龇?wù)器擴(kuò)容時(shí)要選擇合適的時(shí)間。最佳的時(shí)間段應(yīng)該在凌晨2:00~5:00之間,這個(gè)時(shí)間段使用的用戶較少,服務(wù)器的短暫維護(hù)不會(huì)造成太大的影響。而如果是跨國(guó)企業(yè),我們還要考慮到時(shí)差的因素,維護(hù)的時(shí)間最好安排在周六的凌晨進(jìn)行,這基本上算是公用的休息時(shí)段。
服務(wù)器擴(kuò)容事前準(zhǔn)備篇B、冗余服務(wù)器
如果某一項(xiàng)服務(wù)只有一臺(tái)服務(wù)器,那么我們必須考慮到它的冗余問(wèn)題,在升級(jí)、擴(kuò)容之前,我們必須為其準(zhǔn)備一臺(tái)冗余服務(wù)器,以防止擴(kuò)容失敗造成服務(wù)不可用的情形,因?yàn)檫@個(gè)冗余服務(wù)器只是臨時(shí)使用,所以為了不增加成本我們可以在其他服務(wù)器上建立一個(gè)虛擬化服務(wù)器作為冗余,待擴(kuò)容平穩(wěn)結(jié)束,未出現(xiàn)任何問(wèn)題時(shí),我們即可拆除這個(gè)虛擬化冗余。
服務(wù)器擴(kuò)容事前準(zhǔn)備篇C、軟、硬件的綜合考評(píng)
一個(gè)新的應(yīng)用系統(tǒng)(比如:OA、FMS)誕生往往要經(jīng)過(guò)很多版本的測(cè)試,呈現(xiàn)給最終用戶手中的必定是最穩(wěn)定的正式版,但是這個(gè)新系統(tǒng)是不是完美無(wú)暇了呢?它和我們現(xiàn)行系統(tǒng)的兼容性如何?能否平穩(wěn)過(guò)渡?這都是需要我們?cè)谡綄?shí)施前做出正確的評(píng)估和相應(yīng)的測(cè)試的。
而增加硬件我們則要充分評(píng)價(jià)其兼容性和動(dòng)能指標(biāo),對(duì)某臺(tái)服務(wù)器需要大的改動(dòng)(比如增加多塊硬盤)則需要詳細(xì)計(jì)算它的最大輸出功率是否滿足需求,其散熱是否能達(dá)到相應(yīng)指標(biāo),它采用的是何種RAID技術(shù),同其他硬盤的RAID是否能完美的融合在一起。
服務(wù)器擴(kuò)容事前準(zhǔn)備篇D、數(shù)據(jù)中心的承壓能力
如果當(dāng)前數(shù)據(jù)中心不能滿足日益增長(zhǎng)的信息需求,那么僅僅是對(duì)一臺(tái)服務(wù)器進(jìn)行擴(kuò)容改造有時(shí)是杯水車薪的,所以我們看到最多的就是多臺(tái)服務(wù)器的更換或者是大量增加。
這種部署是IT運(yùn)維人員最喜歡的,因?yàn)楦鉏T的都迷戀于追新,況且這種部署可以有充分的實(shí)施和測(cè)試過(guò)程,相對(duì)比較容易。但是我們不要忽略一個(gè)重要問(wèn)題,那就是大量的增加服務(wù)器破壞了整個(gè)數(shù)據(jù)中心的電力、散熱等恒定因素,我們需要重新計(jì)算UPS的供電能力,精密空調(diào)系統(tǒng)的恒溫恒濕能力,這也是前期準(zhǔn)備階段不容忽視的。
服務(wù)器擴(kuò)容事前準(zhǔn)備篇E、通告
隸屬于本網(wǎng)的所有用戶都有信息知情權(quán),在作出服務(wù)器擴(kuò)容之前我們要通過(guò)Web公告或者郵件群發(fā)等形式告知所有用戶,哪個(gè)時(shí)段做維護(hù),哪些服務(wù)不能使用,并建議用戶做好相關(guān)文件的備份等工作。
OK,注意到這些事項(xiàng)后我們即可進(jìn)去正式的實(shí)施階段,我們?cè)谙乱黄恼聦?huì)講述服務(wù)器擴(kuò)容的具體實(shí)施注意事項(xiàng)。
【編輯推薦】