講述:一個VMware維護人員每天、每周及每月的工作
有時,VMware管理員如走過場一樣執(zhí)行日常維護任務(wù)。他們做X、檢查Y然后把把Z的脈搏。但是很重要的一點是要弄明白這么做的目的。
維護工作不僅僅是要維持系統(tǒng)在線,它同樣保證您可以從現(xiàn)有投資中獲得最大收益。雖然ESX、vSphere、vCenter和Workstation都是成熟和穩(wěn)定的虛擬化技術(shù),但是它們依然需要進行日常維護。
花費一些時間去了解您的架構(gòu),然后制定VMware維護計劃以滿足您的SLA(service level agreement)級別并盡量減少工作壓力。下面的綱要中包含了一些最佳實踐,但是每個虛擬化架構(gòu)各有不同,您需要選擇最適合的方式。
VMware維護工作根據(jù)頻率可以大致分解為:每天、每周和每月。
VMware日常維護工作
我每天要進行的維護工作如下:
◇ 查看報警郵件。郵箱監(jiān)控是一種持續(xù)的、被動的、而且一旦正確設(shè)置后不需花費很多精力的監(jiān)控方式。當您逐漸熟悉系統(tǒng)架構(gòu)后,還可以區(qū)分出警報的不同類型,識別哪些是緊急的需要立即處理,哪些是需要逐步去改變的。
假設(shè)某個特定的數(shù)據(jù)庫在每天的固定時間發(fā)送CPU占用率過高的警報,那么最好調(diào)節(jié)一下報警設(shè)置的條件和頻率。不要忘了《狼來了》的故事,避免因為過多無關(guān)緊要的警報而忽略了那些關(guān)鍵問題。
◇ 巡視服務(wù)器所在的房間。雖然我也設(shè)置了警報,但通過對主機所在的房間進行一次快速的巡視我可以馬上判斷出發(fā)生了什么,這非常有用,尤其是忽略了某個警報的時候可以補救。
所有的風(fēng)扇都在運行嗎?是否出現(xiàn)內(nèi)存差錯?SAN系統(tǒng)中的磁盤驅(qū)動器正常嗎?通過觀察硬件上的指示燈我可以獲得基本的狀態(tài)信息。我還會快速檢查一下不間斷電源的供電電壓,以及現(xiàn)在的運行時間。知道了這些,一旦發(fā)生災(zāi)難,我可以知道有多少時間可用來關(guān)閉設(shè)備。除了這些快速觀察外,我還經(jīng)常使用HP公司在宿主機上集成的Lights-Out端口來檢測硬件狀態(tài)和溫度,尤其在沒有物理登陸宿主機或SAN的時候,這么做非常有必要。
◇ 環(huán)視一圈vCenter/VirtualCenter。我會執(zhí)行所有還未完成的任務(wù),瞥一眼ESX主機的性能然后感受一下各個組件是否正常。當您對系統(tǒng)每天的性能表現(xiàn)足夠熟悉的時候,就很容易看出問題。相信我,無論系統(tǒng)看起來多么協(xié)調(diào),在某些時候都會出現(xiàn)問題。這個過程如同您很熟悉自己在靜止時的心跳,同時還需要通過跑步機或騎自行車來定期檢驗一下。
VMware每周維護工作
每周我會執(zhí)行如下動作:
◇ 備份vCenter/VirtualCenter數(shù)據(jù)庫。我的現(xiàn)有系統(tǒng)變化不太頻繁,因此一周執(zhí)行一次數(shù)據(jù)庫清理和管理服務(wù)器的全備份就可以了。如果您的系統(tǒng)處于不斷地動態(tài)變化中,可以頻率高一些。依然要強調(diào)那個老問題:如果您希望將來可以重建,擁有數(shù)據(jù)庫的備份很重要。
VMware每月維護工作
每月我們進行如下的管理行為:
◇ 清理存儲。如果存在過期的快照,最好盡快清理掉。如果無法確定是否存在,可以通過VMware SiteSurvey查看。
◇ 檢查服務(wù)協(xié)議。您是否已經(jīng)升級了售后服務(wù)?到了做新的預(yù)算來購買所需支持服務(wù)的時候了嗎?
◇ 預(yù)想將來要做的升級。目前為止,所有的工作都在圍繞保持系統(tǒng)正常工作上。讓我們向后一步,閉上眼睛不妨從相反的角度來考慮:您希望系統(tǒng)如何工作?怎樣可以改善業(yè)務(wù)?然后找出一條正確的路來實現(xiàn)。這聽起來像在做白日夢,不過或許這會成為您一天中最高效的一段時間。
【編輯推薦】