詳解數(shù)據(jù)中心的運維自動化和DevOps
嘉賓介紹
智錦
這是真名和全名(編輯注:雖然智這個姓氏比較少)。
2006年~2011年,在支付寶負責系統(tǒng)運維工作,是阿里集團和國內(nèi)***批從事運維自動化系統(tǒng)體系建設者。
2011年到2014年, 在建設銀行總行負責運維工具和私有云的建設,運用互聯(lián)網(wǎng)的經(jīng)驗和開源軟件做了一些二次開發(fā)。
目前創(chuàng)辦杭州云霽科技,致力于把運維自動化經(jīng)驗和DevOps的思想做成產(chǎn)品。
主題簡介
現(xiàn)在“運維自動化”、“云計算”、“DevOps”很熱,也有很多解釋,但很多人的理解是狹義的甚至錯誤的。本期分享嘉賓 智錦 將分享其在大型互聯(lián)網(wǎng)企業(yè)和大型傳統(tǒng)行業(yè)的工作感受,并從整個數(shù)據(jù)中心的運維管理體系建設出發(fā) ,分享這幾年他親身實踐所總結(jié)出來的一些觀點。
分享實錄
我在支付寶的時期,剛好是支付寶快速發(fā)展的時期,業(yè)務每年翻4倍,僅僅3年時間,就從100臺機器達到了上萬臺機器,最早的運維自動化是被業(yè)務倒逼,被動的發(fā)現(xiàn)問題解決問題的過程。這個經(jīng)歷,大部分業(yè)務快速發(fā)展的互聯(lián)網(wǎng)公司的都會碰到,解決方式也都差不多,前段時間大眾點評運維總結(jié)的非常好。
互聯(lián)網(wǎng)的運維自動化,我總結(jié)為:“自下而上,野蠻生長”,見效快,但很難有資源停下來思考,相當于華山的劍宗。
我去建行之后,有機會系統(tǒng)的讀了老外的ITIL、COBIT等***實踐,也看了不少IBM、HP、BMC的運維產(chǎn)品??陀^的說,老外的方法論和***實踐很牛逼,雖然說軟件太復雜,落地難,相當于華山的氣宗。
在和從前在互聯(lián)網(wǎng)的實踐經(jīng)驗驗證之后,突然有一天仰望天空的朵朵白云,豁然開朗,從此劍氣雙修,打通任督二脈,運維自動化的功力大進。
以上為開個玩笑。不過我現(xiàn)在關注的重點主要是整個數(shù)據(jù)中心的運維管理體系建設,下面分享的也是我這幾年實踐的一些觀點。可能離中小型互聯(lián)網(wǎng)公司比較遠一點,會顯得務虛一點。
現(xiàn)在“運維自動化”、“云計算”、“devops”很熱,也有很多解釋,但很多人的理解是狹義的甚至錯誤的。 比如,“運維自動化”這個詞已經(jīng)被人叫爛了,但大部分人理解的運維自動化,其實只能叫“操作自動化”。再比如,puppet 非常熱,很多人覺得puppet是一個自動化工具,其實puppet的本質(zhì)和精華是一個配置管理工具。
再說云計算。云計算代表了一種互聯(lián)網(wǎng)思維的全新技術路線,其核心思想是采用低成本、標準化的開放硬件和開源軟件構(gòu)建基礎設施,通過自服務和自動化實現(xiàn)基礎設施資源的交付及運維管理,通過分布式系統(tǒng)實現(xiàn)系統(tǒng)處理能力的***擴展,并借助合適的應用架構(gòu)彌補基礎軟硬件的不足,滿足高可用方面的要求。但是云計算實施之后,基礎設施規(guī)模急劇膨脹,我們可以發(fā)現(xiàn)運維的復雜度是不減反增了。
數(shù)據(jù)中心的運維管理定義
以前我提過一個黑盒運維與白盒運維的觀點。做了很多年的運維,卻有可能不知道運維的定義是什么。先來給數(shù)據(jù)中心的運維管理下個定義吧!看看什么是運維。
國際分析機構(gòu)Garnter把數(shù)據(jù)中心的運維工作總結(jié)為“I&O(Infrastructure & Operation)”,也就是基礎設施管理和運行管理這兩個領域?;A設施服務是上線前,如何“建設基礎設施”。Opertion是上線后,如何管理業(yè)務活動。
我是認為自動化是運行維護的一個方面。 我對于廣義運維自動化的理解,就是體系和閉環(huán)的建立。基礎設施層面的閉環(huán)是一個運維和運維銜接的小閉環(huán),在運行管理領域,涉及到了運維和開發(fā)的大閉環(huán),也就是DevOps。最終的一個現(xiàn)象是,完全的服務化和完全的自動化。
IT運維和IT服務管理的區(qū)別,就是一個是被動,一個是主動。
說明:圖大型私有云o和i成本比較 是本期中唯一源自網(wǎng)上的,也是根據(jù)garnter報告畫的圖,看了一下大致符合我的認知,就用了,沒有去考證。
#p#
未來數(shù)據(jù)中心能力
六化是我們對未來數(shù)據(jù)中心能力的一個歸納總結(jié)。
“六化”分別指的是:
◆虛擬化
◆自動化
◆一體化
◆標準化
◆可視化
智能化全面提升數(shù)據(jù)中心運行管理的各方面能力。可以認為這六化 合在一起才是廣義的自動化。
運維場景三要素
但是運維的業(yè)務場景無法窮盡,最核心的是如何建立這一個閉環(huán)的系統(tǒng)?這是大家最關注的。最關鍵的還是透過現(xiàn)象看本質(zhì)。
運維的三要素是什么?不是服務器、存儲、網(wǎng)絡,而是數(shù)據(jù)、流程、操作。這三者的編排和組合,就能完成所有的運維場景。 而這中間數(shù)據(jù)和流程是最核心的,操作只是具體的實施手段而已。
運維自動化三個階段和閉環(huán)流程
這張圖是純干貨,體現(xiàn)的是運維自動化三個不同階段。
右下角的是最初級階段, 工具、流程、數(shù)據(jù)耦合的很厲害,要么都管,要么三不管, 小團隊還能應付, 一旦團隊擴大了就很難。
左下角則中級階段, 流程驅(qū)動數(shù)據(jù),再驅(qū)動操作,形成一個小的閉環(huán)。
最上方則是我們期望的最理想的架構(gòu), CMDB做為總控節(jié)點,通過數(shù)據(jù)掌控所有的流程和工具。
這是我們最終實現(xiàn)的閉環(huán)流程。