云計算引擎:按需供應(yīng)服務(wù)的自動化技術(shù)
2011年11月30日,由BMC軟件舉辦的云計算管理技術(shù)大會在上海舉行,會上各路專家將就云計算愿景、云計算應(yīng)用、云計算管理、業(yè)務(wù)服務(wù)管理(BSM)等話題展開精彩探討。以下是BMC中國高級軟件顧問邱兢先生的精彩演講:
其實相對于自服務(wù)門戶或者監(jiān)控工具來說,自動化在云計算里面是比較吃虧的,因為自動化技術(shù)是隱含在云計算平臺后面,對客戶來講即看不到自服務(wù)的界面,運維人員也無法看到非常漂亮的監(jiān)控界面。但就像大家選車一樣,車的引擎好壞往往決定了這部車的價值。自動化之于云計算,正如車的引擎。接下來的時間里,我將就云計算里面,BMC是怎么通過自動化解決方案為客戶提供完整的云計算服務(wù)進行介紹。
BMC中國高級軟件顧問 邱兢
首先請大家看兩組圖,左上角是郵局,在過去沒有自動郵件分撿機時需要花大量人力做這樣的分類,這樣在一個地區(qū)里面可能有幾十甚至上百個人專門做郵件的分類,但當(dāng)90年代引入了這種郵件自動分撿機以后整個效率大大提高了,這是自動化的好處。第二組圖是80年代電話程控交換機引入前,我們打電話需要有專門的人員進行接線,一個人員只能處理十幾條線路;但有了電話程控交換機,今天一個通信管理人員已經(jīng)能夠負責(zé)上萬家用戶線路。所以我們可以發(fā)現(xiàn),即使是在傳統(tǒng)行業(yè),采用了自動化以后,首先是整體成本下降了,因為人力減少。第二,效率提升了?,F(xiàn)在郵件傳達的速度,甚至我們打電話的速度,跟原來是不可同日而語的。除此之外,對于我們作為用戶來講是一個服務(wù)體驗的改變及服務(wù)質(zhì)量的提升。這兩個是非常好的例子,告訴我們說,即使沒有IT,沒有云計算,傳統(tǒng)行業(yè)也是需要有自動化技術(shù)。
今天我們講云計算,對于一個企業(yè)來講,我們認為其實是一條曲折的道路,這里面會經(jīng)歷以下四個階段,我們稱之為云所需具備的能力。***,具備單點設(shè)備的能力。首先我需要一個基礎(chǔ)的架構(gòu),在這個基礎(chǔ)架構(gòu)上面搭建一個虛擬化環(huán)境。第二,在此基礎(chǔ)架構(gòu)上需要具備自動化能力,能夠通過自動化的方式對相關(guān)設(shè)備進行驅(qū)動,這個設(shè)備有可能是虛擬化平臺,甚至有可能是虛擬化平臺里面的數(shù)據(jù)庫或者是中間件這樣的組件級對象。第三是整合管理能力,我們所需要的不僅是單點設(shè)備處理能力,更希望云平臺提供端到端的管理能力。最終我們要站在服務(wù)的角度去進行用戶需求的捕捉,其目的是能夠讓IT資源以可以讓用戶理解的方式直接提供給最終用戶。這四個能力無論是私有云,混合云還是公共云來講,都是需要的。
在08年云計算剛開始在業(yè)界出現(xiàn)時,BMC發(fā)現(xiàn)所謂的云計算思路跟BSM的概念基本是吻合的,因為云計算相當(dāng)于是BSM(業(yè)務(wù)服務(wù)管理)的一個***實踐。在這個***實踐當(dāng)中,自動化是非常重要的一個組成部分,從應(yīng)用自動化,數(shù)據(jù)庫自動化,服務(wù)器自動化,網(wǎng)絡(luò)自動化都是屬于這種關(guān)鍵的能力,也是云計算所需要的能力??赡苡腥艘獑枺瑸槭裁次覀冃枰狪T的自動化,今天管理IT,如果不需要自動化也可以管理得蠻好,用了IT自動化以后可能成本還會增加。我們從以下四個方面解釋為什么需要IT的自動化。首先從成本考慮,一個服務(wù)器管理成本基本等于你去購買一臺全新的物理服務(wù)器成本的三倍。今天我們還要在物理服務(wù)器上虛擬多個服務(wù)器,因此其實我們所面向的管理對象比原來更多,那么管理成本的劇增是毫無疑問的。第二,質(zhì)量。根據(jù)每三方機構(gòu)的調(diào)查,在所有IT故障當(dāng)中,有80%是因為不恰當(dāng)?shù)淖兏渲迷斐傻摹T谶@種情況下,我們引用IT自動化手段可以把配置步驟流程化和合理化,盡量減少人為失誤。第三,90%的問題是已知和可避免的,在IT自動化范疇里面我們需要做一些合規(guī)檢查,能夠在問題還沒有發(fā)生之前,通過合規(guī)檢查的手段及早發(fā)現(xiàn)存在的一些技術(shù)風(fēng)險和漏洞。第四,應(yīng)用發(fā)布速度的問題。今天不管是哪個行業(yè),企業(yè)的業(yè)務(wù)系統(tǒng)越來越復(fù)雜,涉及的邏輯組件和相關(guān)部件會越來越多,對于企業(yè)來說應(yīng)用發(fā)布所需要的環(huán)節(jié)復(fù)雜化了,通常應(yīng)用發(fā)布所需要時間比預(yù)期超出60%。如果沒有自動化軟件的協(xié)助,這些時間是無法縮短的。
根據(jù)我們BMC在許多自動化項目的經(jīng)驗,我們總結(jié)出一個企業(yè)在邁向自動化運維過程當(dāng)中,可能會有四個階段,分別為標(biāo)準(zhǔn)化,腳本化,產(chǎn)品化和服務(wù)化。標(biāo)準(zhǔn)化的意思是說,在這個階段,企業(yè)可能意識到我需要有一些IT操作的流程,雖然我沒有一些自動化的工具,但是我可以通過人,通過文檔的方式把IT日程的操作固化下來形成一個標(biāo)準(zhǔn)。這樣以后涉及到相同類似操作的時候我們沿用這個標(biāo)準(zhǔn)來進行操作的執(zhí)行。第二個階段是腳本化,當(dāng)我有了標(biāo)準(zhǔn)化以后,之前所設(shè)定的一些簡單標(biāo)準(zhǔn)化IT操作流程可以通過腳本實現(xiàn),這種情況下可以讓內(nèi)部的IT人員寫一些腳本,再派人定期去運行一些腳本,或者利用crontab自動運行腳本。進入第三個階段,當(dāng)腳本使用越來越多的時候,企業(yè)會考慮到我要引用一些產(chǎn)品進來,可能是針對服務(wù)器的自動化,可能是針對桌面機,可能是針對網(wǎng)絡(luò)的自動化。第四個階段是服務(wù)化。服務(wù)化更多是指云計算當(dāng)中的自動化概念,在這個階段自動化不僅僅面向IT運維的部門,而是通過自動化把IT資源便利地交付給最終用戶,這個我們稱之為服務(wù)化的概念。對于大部分企業(yè)來講,不一定一定會經(jīng)過這四個階段,但是基本上會經(jīng)歷這些事情,有可能是三個階段有可能是兩個階段,但是你該做的這些事還是需要去做的。
***個階段我們稱之為標(biāo)準(zhǔn)化階段,哪一些東西我們可以把它標(biāo)準(zhǔn)化流程化呢?我們在銀行的客戶比較常見,就是每天做巡檢。早上來了以后要安排一個人員登入到每一臺服務(wù)器上面去,敲一個指令或者多個指令查看系統(tǒng)的狀態(tài),或者有時候沒辦法做正常監(jiān)控的時候,可能要看一下應(yīng)用系統(tǒng)配置文件的情況是怎么樣的,這些都屬于日常的操作。另外還有一個例子,我們經(jīng)常會有一些業(yè)務(wù)系統(tǒng)的升級,一般來講,一套固定的業(yè)務(wù)系統(tǒng),我升級步驟基本是固定的,從做數(shù)據(jù)庫的字段表修改,到應(yīng)用的文件分發(fā),或者文件的解壓等等這些都是標(biāo)準(zhǔn)化流程。企業(yè)會把這些東西作為IT的流程固化形成一個文檔,交給下面的人去做。首先在不考慮其他情況下,不考慮人力成本,不考慮出錯的情況下,我們認為這已經(jīng)比完全沒有流程要好。但我們可以算一下工作量。比如今天有200臺服務(wù)器可能是一個中型企業(yè)需要管理的,以我們做日常巡檢為例子,一個人需要登入一臺服務(wù)器查看配置文件,登入一臺機器需要花兩分鐘時間,200臺服務(wù)器共花6.7個小時,如果每天都安排一個人去做這樣的事情,每周需要耗時33.5人時,或3.5人天,每年需要182.5人天。這還僅僅是一項檢查,而我們常??梢钥吹?,客戶的這種巡檢列表往往長達上百個。當(dāng)我的巡檢范圍更多的情況下,我們耗的人天會更加大。
所以在第二個階段,我們可以看看剛才的問題有沒有可能通過腳本來實現(xiàn)。這里是一個很基本的腳本代碼,把這個腳本到那臺機器上運行之后去采集一個數(shù)據(jù),接下來對檢查結(jié)果進行輸出,貌似用腳本的方式可以把時間成本降低了,因為我只要把這個腳本發(fā)下去,***回收上來一個反饋值,我就可以完成工作了,大不了我把這個值再拿一個表記下來。但是使用腳本會有什么問題呢?***,腳本應(yīng)該怎么樣進行定向發(fā)布,剛才我講的只是一個通用腳本,但是很多時候,我們的服務(wù)器組是按照我業(yè)務(wù)系統(tǒng)類型進行劃分的,我需要去檢查的這些項并不是保證我每一臺服務(wù)器都是一樣。第二個問題,這個檢查要求變了怎么辦,我們還需要派人專門去修改特定的腳本。所以我們使用腳本程序存在三大問題,***類是不安全性。腳本是以明文出現(xiàn)的,包括你需要登入的話要有用戶名/密碼,另外會摻雜其它訪問信息。第二是難維護,當(dāng)你進行修改的時候,你怎么來維護腳本。第三部分是難管理。
所以在第三階段,企業(yè)考慮我能不能引用一些業(yè)界成熟的產(chǎn)品。這個圖上我們以應(yīng)用發(fā)布為例,基本來講,我們會涉及到四個團隊,首先業(yè)務(wù)系統(tǒng)會有應(yīng)用開發(fā)的小組進行一個應(yīng)用系統(tǒng)的打包,打完包在真正把的業(yè)務(wù)包部署到生產(chǎn)環(huán)境之前需要做一些驗證,這是由我們測試或QA部門來完成的,接下來當(dāng)這些包已經(jīng)發(fā)下去以后,運維團隊要進行維護,這個維護除了要維護業(yè)務(wù)系統(tǒng)以外,還要保證你現(xiàn)有服務(wù)器系統(tǒng)本身上面操作系統(tǒng)版本是能夠按照你的應(yīng)用系統(tǒng)要求進行升級的。第四部分安全的管理團隊可能也需要定期做檢查。通常來說,如果是一些產(chǎn)品化的話,我們會引用不同產(chǎn)品。但BMC我們提供的是一整套的自動化管理的平臺,它能夠把我剛才講的這幾個方面,從OS到數(shù)據(jù)庫到中間件到應(yīng)用,從發(fā)布到控制等的所有環(huán)節(jié)在一個平臺上完整的去實踐它。
自動化層面上我們會涉及包括從底層網(wǎng)絡(luò)設(shè)備自動化;第二,服務(wù)器自動化,無論是物理的服務(wù)器,或者虛擬化平臺;第三是數(shù)據(jù)庫的自動化;另外是中間件自動化以及應(yīng)用自動化。接下來再做一個對比,我們做一個業(yè)務(wù)系統(tǒng)上線,下面是傳統(tǒng)用手工的方式去做的,上面是通過BMC自動化軟件去完成的。首先可以看到,在手工階段,可能是由一個業(yè)務(wù)系統(tǒng)的用戶提出這么一個變更要求,一個新的業(yè)務(wù)系統(tǒng)上線我們需要去購買服務(wù)器,即使今天不去購買物理的服務(wù)器也需要去部署一個虛擬的服務(wù)器,這樣我就需要有專門人去做。接下來交給網(wǎng)管,按照企業(yè)本身的要求,把指定的IP綁定,把我的服務(wù)器接入到網(wǎng)絡(luò)當(dāng)中去。接下來服務(wù)器要放到生產(chǎn)環(huán)境去,需要打補丁,需要有專門的技術(shù)人員做服務(wù)器的加固。前面三部分完成之后才是業(yè)務(wù)系統(tǒng)的部署,專門一個人來做業(yè)務(wù)系統(tǒng)應(yīng)用的部署。***企業(yè)考慮到,可能這個系統(tǒng)面向的用戶量比較大,還需要增加一個Load balance。在真實的企業(yè)環(huán)境中,當(dāng)然不是每個環(huán)境同一個人,也許是同一個人做不同的事,但是整個過程耗時是比較長的,需要從底層基礎(chǔ)到應(yīng)用。通過BMC自動化,我們可以實現(xiàn):首先用戶提出這么一個變更要求,自動化管理軟件可以通過操作流程的邏輯調(diào)度把它串聯(lián)起來,當(dāng)這個步驟失敗的話,應(yīng)該怎么處理,通過這樣一整套平臺讓業(yè)務(wù)系統(tǒng)能夠快速上線。當(dāng)然講到這里,其實我們還沒有到云,這是在自動化管理的階段。
第四個階段,也就是云計算的階段,我們稱之為服務(wù)化,自動化是面向服務(wù)的。自動化管理所對應(yīng)的是資源管理,首先資源管理主要分為幾大塊,一個是服務(wù)器和應(yīng)用自動化,另外網(wǎng)絡(luò)上面我們可以直接對物理的網(wǎng)絡(luò)設(shè)備做配置。再一個是數(shù)據(jù)庫的自動化,在云環(huán)境當(dāng)中部署相應(yīng)數(shù)據(jù)庫的軟件。包括對于存儲,可以直接到存儲物理的層面上對它進行空間劃分。BMC的Cloud Lifecycle Management能夠支持業(yè)界主流的平臺和系統(tǒng),如VMWare、XEN等主流的虛擬化平臺。對于網(wǎng)絡(luò)這塊我們開箱支持思科網(wǎng)絡(luò)設(shè)備。在存儲方面我們支持Netapp等。這些都是對于現(xiàn)有主流產(chǎn)品的支持。將來怎么辦呢?我們可以看到在資源管理這里我們有供應(yīng)者API,這個API是BMC留給將來更多廠商的一個接口。如果對于客戶新增加的設(shè)備,可以利用API來對它進行支持,通過API你可以調(diào)用第三方設(shè)備的專業(yè)管理平臺來進行統(tǒng)一管理。第二,云平臺管理員服務(wù)藍圖,這是把服務(wù)的定義轉(zhuǎn)化為真正的IT部署。在部署當(dāng)中,我可以部署在單臺的VM或者兩臺的VM,除了在VM里面安裝操作系統(tǒng)外,接下來VM是要接入到網(wǎng)絡(luò)層面去,我們會在網(wǎng)絡(luò)層面上通過虛擬的網(wǎng)卡進行配置,這里面做的事情遠遠不像我們看到的那么簡單,它在底下做了很多自動化的操作配置。第三,端到端的自動化的部署。在我們方案里面,我們進行操作系統(tǒng)部署和應(yīng)用部署,并且提供操作系統(tǒng)的加固。什么是加固呢?當(dāng)你完成這些應(yīng)用部署以后,你需要去做一些合規(guī)檢查,這些都是在部署過程當(dāng)中完成的,所以我們稱之為端到端,而不是僅僅停留在某一個層面上。第四個特性我們可以按照服務(wù)等級進行資源配置。比如在一個制造行業(yè),今天要用云計算,我可能要把兩個業(yè)務(wù)系統(tǒng)放到云計算里面來,一個是OA系統(tǒng),一個是面向外面用戶的網(wǎng)站。我們的策略引擎是通過標(biāo)簽的技術(shù),當(dāng)業(yè)務(wù)系統(tǒng)部署前要選擇一個服務(wù)的級別,它會根據(jù)服務(wù)級別的判斷該業(yè)務(wù)系統(tǒng)應(yīng)該放在哪一個預(yù)先定義好服務(wù)級別的資源池,然后調(diào)用資源管理模塊完成真正的部署。
我們網(wǎng)絡(luò)自動化的配置可以根據(jù)多租戶進行劃分,,在網(wǎng)絡(luò)部署上會做Vlan的自動劃分,保證不同租戶的數(shù)據(jù)流在不同的Vlan中。另外,CLM自動化網(wǎng)絡(luò)部署的時候,不光配置路由器交換機,同時也支持像防火墻、負載均衡這一類設(shè)備。這個我們稱之為在物理層面上保證多租戶用戶數(shù)據(jù)的安全。第二個跟安全相關(guān)的是,當(dāng)我的業(yè)務(wù)系統(tǒng)進入到云平臺以后,其實它是需要定期做合規(guī)檢查的,一個是本身系統(tǒng)級別補丁的合規(guī),另外業(yè)務(wù)系統(tǒng)本身由于公司制度所要求也需要有一個合規(guī)的檢查。這時候?qū)υ乒芾砥脚_的自動化要求就不僅僅是軟件或操作系統(tǒng)部署,而具有合規(guī)檢查的能力。所以,從這兩個方面保證了用戶云計算平臺的安全。一個是應(yīng)用層面一個是網(wǎng)絡(luò)物理層面。
接下來介紹兩個案例,***個案例是服務(wù)自動化的案例,客戶是摩根士丹利。在業(yè)務(wù)需求方面,由于摩根史丹利有兩個服務(wù)中心,他們發(fā)現(xiàn)在業(yè)務(wù)系統(tǒng)的升級過程中,首先,需要花人工去做的時間比較長,沒辦法保證業(yè)務(wù)的連續(xù)性;第二,人工去做有時候會有一些失誤造成計劃外宕機。所以在這種情況下,他們經(jīng)過了多方比較,***選擇了BMC的Bladelogic解決方案,通過Bladelogic幫助他們提高了員工效率,估計每年節(jié)省27萬美元。第二個案例是公共云的案例,客戶是澳洲電信,使用CLM后,澳洲電信日常操作和安裝任務(wù)所花的時間從天降到分鐘級。
每個企業(yè)的IT愿景是不同的,在座各位無論你們目前是處于自動化的***階段還是第二階段,或者希望往第三階段,第四階段邁進。BMC作為業(yè)界自動化領(lǐng)先的廠商,我們希望通過豐富的解決方案和項目當(dāng)中大量豐富的經(jīng)驗,能夠給大家提供更多的支持,能夠為大家實現(xiàn)IT管理目標(biāo)作出我們***的努力,謝謝。