在數(shù)據(jù)中心人們所做的10件蠢事
我們都經(jīng)歷過 —— 犯了愚蠢的錯誤還希望沒人看到它,祈禱這個錯誤不會對系統(tǒng)或者網(wǎng)絡(luò)產(chǎn)生負面影響。通常這些錯誤都沒問題,只要錯誤不是發(fā)生在數(shù)據(jù)中心。數(shù)據(jù)中心能讓你的 個人失誤出現(xiàn)在終端用戶的機器上的。但是當(dāng)你在服務(wù)器機房,你就需要反復(fù)檢查那些失誤。不管你是在配置數(shù)據(jù)中心或者是管理它,你都要時刻保持高度謹(jǐn)慎。
好吧,你懂他們所說的***計劃……最終還是會出差錯。但知道但是了解的一些常見的錯誤,還可以幫助你避免失誤。
1: 出丑的電纜
你知道一句古老的格言——切割之前先測量兩次(謀定后動)。有多少次你訪問一個數(shù)據(jù)中心看到到處都是電纜?在地板上,掛在天花板跌落下來,繞在服務(wù)器架子 上和越過桌子。這應(yīng)該不會發(fā)生。電纜鋪設(shè)應(yīng)給予它所需要的謹(jǐn)慎。它不僅是一個安全隱患,也正是等待發(fā)生的災(zāi)難。有人糾纏下去-您冒著法律訴訟和數(shù)據(jù)丟失的 風(fēng)險,都是因為有人懶得去測量要用的電纜或花時間去系住一些超5類網(wǎng)線。 take the time to zip tie some Cat5.
2:喝酒惹的禍
我知道,這看起來似乎很瘋狂。但我親眼目睹了很多次。管理員(或者其他IT員工),進入數(shù)據(jù)中心后,手拿酒瓶,將其放在某設(shè)備上或是塞入其中。轉(zhuǎn)眼之間, 設(shè)備就這樣被毀了還不給你任何挽救的機會。每個數(shù)據(jù)中心應(yīng)該有一個醒目的標(biāo)志,“呆在數(shù)據(jù)中心的時間里,禁止喝酒或攜帶食物。”該項規(guī)定必須以零容忍的態(tài) 度或一視同仁的強制執(zhí)行。甚至和酒有關(guān)的都應(yīng)當(dāng)禁止。
3:用電故障
這涉及到幾乎任何和電有關(guān)的問題:突然斷電,缺乏備用電池,沒有發(fā)電機,太依靠單一電源。在數(shù)據(jù)中心,電就是你(數(shù)據(jù)中心)唯一有意義的生命。沒有他 (電),你的數(shù)據(jù)中心什么也不是。同時,電也是你最害怕的對手。如果你沒有按照你所需的電路來設(shè)計防止電路故障的話,你的數(shù)據(jù)中心就處于危險的邊緣。確保 所有的斷路器(和任何其他有可能引起電路損耗的開關(guān))都已覆蓋,還有火警,不切斷開關(guān)的位置將可能會引發(fā)如惡作劇一般的后果。
4: 安全疏忽
你給出了多少能夠進入你的數(shù)據(jù)中心的鑰匙?你是否有每個鑰匙相關(guān)聯(lián)的每個名字的電子表格?如果沒有,為什么?如果你不保持紀(jì)錄誰能夠進入數(shù)據(jù)中心,你就相 當(dāng)于打開門,并且說“進來偷我的數(shù)據(jù)”,那次你支持進出口敞開著,以便你能夠?qū)⒌镀?wù)器和電纜帶進來,是什么回事?多少次這個敞開的門是無人值守的?或 者當(dāng)你為了使你的工作更容易,而將安全碼給了實習(xí)生或者快遞人員?。……看看這個正在哪里發(fā)生?
5: 類似豬舍的瑕疵
當(dāng)你踏入數(shù)據(jù)中心的時候,你的***印象的什么?你會不會將公司的CEO帶進數(shù)據(jù)中心,并且說“這就是你花錢建造的宮殿?”或者在讓董事長瞧見你的工作之前,你需要一天的時間去注意?
6: 文檔丟失
你到底是如何標(biāo)注那個網(wǎng)絡(luò)的?它的域名證書是什么,它在放在那臺服務(wù)器上?如果你要出去度假,你忽視了你數(shù)據(jù)中心的文檔,那么某個命令在另外的人手上會有 點戲劇性。更有甚者,會忘記了域管理的證書。我知道,我知道-這概率很小。但是,有個叫墨菲(參考墨菲法則)的家伙,他知道,你也知道最終會怎么樣。如果 你不對你的數(shù)據(jù)中心撰寫文檔,總有一天命運女神總會因為你的懶惰和混亂將你撇下。
7: 桌面娛樂
你發(fā)現(xiàn)了多少次你或者其他員工將數(shù)據(jù)中心的機器當(dāng)桌面臺式機使用?除非那機器是Linux或者Mac系統(tǒng),否者你會發(fā)現(xiàn)像sexy.exe之類的病毒在你 的數(shù)據(jù)中心中蔓延。誠然,終端用戶也可能會造成這種情況,但是為什么我們要在數(shù)據(jù)中心的內(nèi)部網(wǎng)絡(luò)中冒這樣風(fēng)險呢?當(dāng)然,邀你的朋友們在數(shù)據(jù)中心舉行一個 WOW和CoD的局域網(wǎng)Party是非??岬摹?nbsp;但,我們***還是別這樣做。
8:遺忘的承諾
你***一次親自訪問你的數(shù)據(jù)中心是什么時候?或者你僅僅只是看過然后就忘了?你認為因為你能夠隨處遠程訪問就沒事了嗎?真替你羞恥。你必須常規(guī)性親自造訪 數(shù)據(jù)中心。 這個造訪不需要一整天的時間。僅僅是過去檢查一下電池、溫度、線纜等等。 如果你沒有與數(shù)據(jù)中心所需的面對面的時間,你可能會親手造成一場災(zāi)難。
9:觀光錄像
你對你的數(shù)據(jù)中心感到非常驕傲:真是太自豪了,以致想向外界炫耀。因此你帶來了媒體;你允許游客行走穿越,并且領(lǐng)會它絕對的帥氣。但是其中一個游客太過好 奇,導(dǎo)致網(wǎng)絡(luò)宕機。你已經(jīng)在這個數(shù)據(jù)中心投入了數(shù)十萬美元(或者僅僅幾萬——或者甚至只有幾千)。你無法承擔(dān)公眾對技術(shù)領(lǐng)域好奇而導(dǎo)致災(zāi)難的風(fēng)險。
10: 午夜屠夫
別否認:你眼睛花了整整一夜在你的數(shù)據(jù)中心。無論是你的服務(wù)器重建還是網(wǎng)絡(luò)掉線,晚上為了熬夜時不讓自己睡著已經(jīng)喝了無數(shù)杯咖啡。著名的一句話,如果你已 經(jīng)在工作上花了九個或者十個小時,那么你***需要做的就是花另外五個或者十個小時來試圖修些什么。大多數(shù)情況你為了修復(fù)它又弄壞了比你所需要修復(fù)的更多東 西。你可以嘗試換班讓其他人來干,別為了當(dāng)英雄而把自己鎖在數(shù)據(jù)中心里“無論多久”,放聰明點。
其他錯誤?
你是否目擊因為一些簡單的錯誤而造成數(shù)據(jù)中心的災(zāi)難事件(或者自己就干過)?把你的經(jīng)歷與我們一起共享吧。
英文原文:10 stupid things people do in their data centers
譯文鏈接:http://www.oschina.net/translate/10-stupid-things-people-do-in-their-data-centers