數(shù)據(jù)中心新的自動化運維技術
自從數(shù)據(jù)中心引入了云計算、虛擬化等大咖技術,立刻變了模樣,這些技術大幅提升了數(shù)據(jù)中心的運行效率,給數(shù)據(jù)中心帶來了諸多好處。不過,任何事情都有兩面性,我們在享受新技術帶來的益處時,也給數(shù)據(jù)中心運維的管理帶來了不便,需要管理對象的數(shù)量、規(guī)模及復雜度均呈現(xiàn)指數(shù)級增長,傳統(tǒng)人工干預、保姆式管理監(jiān)控與故障處理的方式肯定無法滿足要求了。比如對于公有云及大型私有云,服務器數(shù)量往往可以達到數(shù)萬到數(shù)十萬、百萬規(guī)模,各類系統(tǒng)云服務及租戶的業(yè)務應用負載數(shù)量,也達到了數(shù)以百萬乃至***的程度,這樣全靠人工維護不現(xiàn)實,必須引入自動化、智能化運維的管理模式,將人均維護管理效率從平均每人數(shù)十臺服務器,提升到平均每人數(shù)千臺服務器。運維的管理不能成為數(shù)據(jù)中心上云發(fā)展的絆腳石,也要跟得上數(shù)據(jù)中心的發(fā)展。本文將著重介紹幾種現(xiàn)代運維中運用的新技術手段。
自動化人工故障修復機制
數(shù)據(jù)中心難免會出現(xiàn)這樣那樣的問題,靠人工發(fā)現(xiàn)不僅速度慢,而且容易誤判。不妨將這個識別工作交由軟件來處理。首先,要建立一個故障模式庫,長期積累各種曾經或者可能會出現(xiàn)的故障預判、識別,這個故障庫內容要實時保持更新,不斷將一些新的故障類型和經驗輸入進去。其次,將故障判斷的方法告知軟件設備,由軟件自動完成判斷,軟件根據(jù)從數(shù)據(jù)中心各個設備收集上來的運行參數(shù),與故障模式庫里保存的參數(shù)進行對比,如果發(fā)現(xiàn)有相同的,認為是數(shù)據(jù)中心出故障了。***,數(shù)據(jù)中心可以采取告警方式通知運維人員,也可以由軟件執(zhí)行一鍵式修復。這個取決于業(yè)務的重要性以及數(shù)據(jù)中心故障經驗積累的豐富性,萬一恢復動作錯誤,可能會引發(fā)二次故障,給數(shù)據(jù)中心帶來更大的損失,所以修復機制一定要慎重,非緊急的業(yè)務故障不建議采用自動修復,待人員確認之后再去手工執(zhí)行修復。實際上,云計算的引入增加了數(shù)據(jù)中心故障自動檢測和修復的難度,所有的應用業(yè)務都已和物理硬件設備脫離,形成了一個純軟件的虛擬世界,復雜的虛擬系統(tǒng)給故障的排查和分辨都帶來了難度,這給自動化人工故障修復帶來了極大挑戰(zhàn)。不過,數(shù)據(jù)中心運維走自動化的路已不可避免,過多的人力成本對于任何一個高速擴張的數(shù)據(jù)中心都無法承受。
日志和監(jiān)控信息集中管理與控制
傳統(tǒng)數(shù)據(jù)中心中,各軟硬件系統(tǒng)的日志監(jiān)控信息往往相對零散孤立,沒有實現(xiàn)與業(yè)務和用戶的自動關聯(lián),當出現(xiàn)故障時,甚至還需要依此登錄到每臺設備上去排查,效率低下。在有些數(shù)據(jù)中心雖然部署了網管系統(tǒng)、日志服務器,依然需要人工檢查。當數(shù)十萬的設備同時輸出日志時,海量的數(shù)據(jù)根本沒有辦法進行檢查,這時就要統(tǒng)一對這些信息進行分析和判斷。很多數(shù)據(jù)中心建設運維管理云平臺,就是要將這些海量數(shù)據(jù)進行統(tǒng)一處理,依然是通過提前設定判斷條件,然后發(fā)現(xiàn)不符合常規(guī)的日志及時進行告警。云平臺的判斷條件忽略了日志告警的設備差異,只關心對業(yè)務有影響的日志信息,設計一些特有的判斷故障的條件,這些條件需要和各種設備廠商溝通好,證實這些判斷是有效的,然后在云平臺中部署。云平臺的功能很強大,僅僅是依靠設備主動輸出日志來診斷是遠遠不夠的,它還可以主動從數(shù)據(jù)中心的任何一個環(huán)節(jié)采集監(jiān)控信息,這些監(jiān)控信息可以實時反映整個數(shù)據(jù)中心系統(tǒng)運行的綜合狀態(tài),一旦出現(xiàn)異常的參數(shù)或者有變化的數(shù)值,就要引起警惕,輸出告警。
大數(shù)據(jù)的機器學習機制
傳統(tǒng)數(shù)據(jù)中心的故障發(fā)現(xiàn)與修復建議的處理,主要依賴云平臺收集的日志和監(jiān)控信息,通過運維人員長期積累的歷史經驗進行判斷,人的行為是最不可靠的,很多時候經驗都是錯誤的,而機器則不會出錯,只要你給它足夠的學習信息,它就可以做出正確的判斷。最近Master很火,Master是一款會下圍棋的機器人,在最近的圍棋比賽中,取得了60勝1和的成績,1和還是因為掉線被系統(tǒng)判和,落敗者包括聶衛(wèi)平等***圍棋高手,這說明只要給設備足夠的學習時間,它的智慧可以遠遠超過人類。運維的管理也可以引入機器學習技術,通過對數(shù)據(jù)中心運維海量數(shù)據(jù)的分析,利用大數(shù)據(jù)建模,自動化地、智能化地挖掘出更多高價值的、運維人員認知范圍外的故障模式與系統(tǒng)優(yōu)化模式,從而進一步提升系統(tǒng)運維的效率。通過大數(shù)據(jù)機器學習,對大規(guī)模運維場景下的性能與故障規(guī)律分析、趨勢預測及故障根因識別定位,提升機器自動化運維的能力,最終其將超過人工運維的判斷準確性,就像機器人下圍棋一樣,最終機器運維數(shù)據(jù)中心也要大大超過人們自動去做。人們只要去研究如何讓這些機器正確學習,學習好就可以了。
顯而易見,云數(shù)據(jù)中心新的自動化運維技術特點主要是:自動化、自學習。由機器自我學習,自動完成數(shù)據(jù)中心的運維和故障修復。未來的數(shù)據(jù)中心雖然規(guī)模更大,系統(tǒng)更復雜,但在運維的管理上要從簡,實現(xiàn)自動化運維管理。數(shù)據(jù)中心運維將人的因素排除,讓數(shù)據(jù)中心形成一個完全的自治系統(tǒng),實現(xiàn)成為真正的無人數(shù)據(jù)中心。當然,數(shù)據(jù)中心的自動化運維還有很長的路要走,沒有哪個數(shù)據(jù)中心能夠真正脫離人工參與。這就像自動駕駛汽車技術發(fā)展一樣,技術復雜,并徹底改變了現(xiàn)有的生活方式,要人們接受需要很長時日。對于數(shù)據(jù)中心也一樣,自動化運維技術雖好,但仍不夠成熟,很多人持觀望的態(tài)度,但愿未來這類技術可以很快完善起來。