系統(tǒng)管理自測(cè)32問(wèn)之23:故障處理體系
譯文【51CTO精選譯文】本文是《Limoncelli的測(cè)試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個(gè)問(wèn)題》當(dāng)中的第23題:當(dāng)某塊硬盤(pán)發(fā)生問(wèn)題時(shí),你的整套服務(wù)器體系能否繼續(xù)運(yùn)作?
服務(wù)器上的所有數(shù)據(jù)都應(yīng)該處于RAID 1/5/6/10或其它類似機(jī)制的保護(hù)之下。服務(wù)器的設(shè)計(jì)應(yīng)該嚴(yán)格遵從“生存能力架構(gòu)”,也就是說(shuō)能夠在某些組件發(fā)生故障時(shí)維持正常的運(yùn)行狀態(tài)。
曾幾何時(shí),計(jì)算機(jī)中的任何部件出了問(wèn)題,整套體系只能徹底崩盤(pán)。事實(shí)上,組件的故障就相當(dāng)于整體的故障。一塊硬盤(pán)掛掉了,花是備份資料、恢復(fù)數(shù)據(jù)、更換硬盤(pán)就要花上一整天的時(shí)間。悲劇啊,如果這會(huì)兒你正打算把某項(xiàng)接近尾聲的工作一口氣忙完;悲劇啊,如果公司正好組織了一次激動(dòng)人心的戶外活動(dòng)??傊脖P(pán)出了毛病,一整天就肯定得搭進(jìn)去。
如今一切都不同了。我們有“生存系統(tǒng)”作為堅(jiān)強(qiáng)的后盾。如果每塊硬盤(pán)都具備另一塊鏡像硬盤(pán)作為替補(bǔ),那么矩陣中的任何個(gè)體發(fā)生故障都不會(huì)導(dǎo)致整體中斷。如此一來(lái),發(fā)生服務(wù)中斷的可能性只有一種——硬盤(pán)及其替補(bǔ)同時(shí)損壞。據(jù)統(tǒng)計(jì),這套體系能夠在用戶感受到之前給予我們寶貴的數(shù)小時(shí)甚至一天時(shí)間進(jìn)行破損硬盤(pán)更換。這種限時(shí)處理當(dāng)然要比花一天時(shí)間恢復(fù)數(shù)據(jù)要好得多。
現(xiàn)在好了,“業(yè)務(wù)中斷”變成了“組件故障”,管理員的生活是多么美好??!
過(guò)去RAID成本高昂,因此也不常見(jiàn),可以說(shuō)是有錢(qián)人才會(huì)考慮的奢侈方案。但現(xiàn)在這種處理方式已經(jīng)非常普遍,價(jià)格不貴,甚至常常是免費(fèi)的(指通過(guò)軟件實(shí)現(xiàn))。哦,其實(shí)常見(jiàn)還不準(zhǔn)確,我其實(shí)想說(shuō)這是必須的?;ㄒ惶鞎r(shí)間中斷服務(wù)搞什么數(shù)據(jù)恢復(fù),這不僅意味著預(yù)先規(guī)劃的疏漏,更是種極端低效的時(shí)間管理觀念。斷了就斷了,拿一天時(shí)間去安慰瞬間損失了數(shù)小時(shí)、數(shù)月乃至數(shù)年工作成果的客戶,這種行為不叫貼心,而是純粹的浪費(fèi)時(shí)間。
我個(gè)人的經(jīng)驗(yàn)很簡(jiǎn)單:?jiǎn)⒂糜脖P(pán)鏡像,其它硬盤(pán)組成RAID 1或者更高級(jí)別的矩陣。
【眾所周知,RAID 6最少要由2T容量的硬盤(pán)組成,對(duì)吧?因此只把這種大容量硬盤(pán)組成RAID 5實(shí)在是種浪費(fèi)。就從RAID 6或者RAID 10入手吧,現(xiàn)在的主流硬件都能滿足要求;不過(guò)好像有點(diǎn)跑題了…】
下面要提到一些特例情況。
特例一:“總?cè)萘炕蚺R時(shí)空間不足”。這話說(shuō)得沒(méi)啥技術(shù)含量哈。
特例二:整套備份機(jī)制處于更高的實(shí)施水平,例如:
1. 使用類似谷歌文件系統(tǒng)這樣的冗余文件方案。此類系統(tǒng)會(huì)將數(shù)據(jù)至少同時(shí)存儲(chǔ)三份。而IBM公司的GPFS本地RAID(簡(jiǎn)稱GNR)也采取類似的解決辦法。
2. 本地保存的只是從其它位置傳輸過(guò)來(lái)的數(shù)據(jù)的只讀副本。但如果要保證復(fù)制速度,RAID 5能夠提供令人滿意的性能表現(xiàn)。
3. 一次性設(shè)備。舉例來(lái)說(shuō),一臺(tái)表態(tài)圖像網(wǎng)頁(yè)服務(wù)器或者DNS“二級(jí)緩存”——這類服務(wù)器能夠在極短時(shí)間內(nèi)自動(dòng)重新建立。如果大家手頭要用到數(shù)百套此類系統(tǒng),但又沒(méi)采購(gòu)RAID卡,那除了悲劇我很難找到其它形容詞。
【51CTO.com譯文,轉(zhuǎn)載請(qǐng)注明原文作譯者和出處?!?/p>
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測(cè)試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個(gè)問(wèn)題:
- A.面向公眾的處理方式:
- B. 現(xiàn)代化團(tuán)隊(duì)處理方式:
- *4.你在維基詞條中是否具備獨(dú)特的“策略及流程”類說(shuō)明?
- 5.日常所采用的密碼安全性有保障嗎?
- 6.技術(shù)團(tuán)隊(duì)的代碼是否處于源碼控制系統(tǒng)的監(jiān)管之下?
- 7.你的團(tuán)隊(duì)有沒(méi)有使用bug跟蹤系統(tǒng)?
- 8.在你的bug/項(xiàng)目管理方面,穩(wěn)定性問(wèn)題的優(yōu)先級(jí)是否高于新功能?
- 9.你的團(tuán)隊(duì)有堅(jiān)持記錄“設(shè)計(jì)文檔”的習(xí)慣嗎?
- 10.一旦發(fā)生問(wèn)題,有沒(méi)有一套機(jī)制專門(mén)用于記錄故障信息?
- C. 業(yè)務(wù)操作方式:
- D. 自動(dòng)化處理方式:
- E. 團(tuán)隊(duì)管理方式:
- F. 硬件發(fā)生故障時(shí)的處理方式:
- G. 安全性處理方式:
- *28.業(yè)務(wù)中所用到的臺(tái)式機(jī)、筆記本電腦以及服務(wù)器是否運(yùn)行著自動(dòng)更新且無(wú)需確認(rèn)提示的反惡意軟件?
- *29.企業(yè)中是否向員工下發(fā)了書(shū)面的安全性規(guī)章制度?
- 30.你有沒(méi)有對(duì)所有相關(guān)領(lǐng)域進(jìn)行周期性的安全審查?
- 31.是否有相關(guān)機(jī)制允許管理者在一小時(shí)內(nèi)關(guān)閉所有用戶賬戶?
- 32.是否有相關(guān)機(jī)制允許管理者在一小時(shí)內(nèi)改變所有特權(quán)(主控)密碼?
【編輯推薦】
- 云數(shù)據(jù)時(shí)代:RAID模式已過(guò)時(shí)?
- RAID數(shù)據(jù)恢復(fù)技術(shù)揭秘
- 技術(shù):RAID對(duì)服務(wù)器的要求和應(yīng)用