Platform:從高性能計(jì)算到云計(jì)算
自企業(yè)計(jì)算拉開帷幕的六十多年來,計(jì)算模式出現(xiàn)了兩大變化:首先是大型機(jī)計(jì)算模式,隨后是客戶/服務(wù)器計(jì)算模式,現(xiàn)在,“云計(jì)算”成為第三代IT應(yīng)用模式,也是分布式計(jì)算和數(shù)據(jù)中心發(fā)展道路上的新階段。
無論采用什么模式,IT部門都面臨著這樣的難題:如何快速且經(jīng)濟(jì)高效地提供IT資源以支持業(yè)務(wù)應(yīng)用??蛻魴C(jī)/服務(wù)器計(jì)算模式極大地增強(qiáng)了IT部門實(shí)施可信賴計(jì)算基礎(chǔ)架構(gòu)的能力,可支持不同的業(yè)務(wù)部門和應(yīng)用程序。
然而,客戶機(jī)/服務(wù)器模式也付出了代價(jià)。它導(dǎo)致了服務(wù)器蔓延、資金和運(yùn)營成本的急劇攀升,同時(shí),越來越復(fù)雜的數(shù)據(jù)中心也很難快速配置和有效管理以滿足不斷變化的需求。此外,由于應(yīng)用程序的工作負(fù)載是不斷變化的,因此專用于單一應(yīng)用程序的服務(wù)器通常得不到充分利用。對計(jì)算資源的管理也面臨很多挑戰(zhàn),為了配置資源以滿足業(yè)務(wù)部門對新應(yīng)用部署要求,IT部門不得不采購和部署一臺(tái)或多臺(tái)配備管理軟件的新服務(wù)器,這常常需要數(shù)周甚至數(shù)月才能實(shí)現(xiàn),導(dǎo)致業(yè)務(wù)的延誤。
隨著集群、網(wǎng)格等分布式計(jì)算架構(gòu)的出現(xiàn)和成熟,企業(yè)用戶可以很方便地訪問共享、可擴(kuò)展的IT基礎(chǔ)架構(gòu),用大眾化硬件的價(jià)格獲得極高的計(jì)算能力和資源利用率。雖然最初部署集群和網(wǎng)格的主要目的是為了完成計(jì)算密集型的科學(xué)計(jì)算任務(wù)——它們常常被稱為高性能計(jì)算(HPC)應(yīng)用程序,但部署這些架構(gòu)方面的經(jīng)驗(yàn)同樣適用于普通企業(yè)應(yīng)用程序,也就是說,它們可以直接用于云計(jì)算模式——這是資源共享的、有益于最終用戶和IT部門的一種新模式。事實(shí)上,云計(jì)算就是集群、網(wǎng)格計(jì)算的一種自然延伸,它幫助我們更方便、靈活地管理和使用計(jì)算資源。
就像軟件從一種專有、集中式的模式轉(zhuǎn)變?yōu)橐环N開放、分布式的架構(gòu),云計(jì)算也呈現(xiàn)迅速發(fā)展的趨勢,極大地改變了IT服務(wù)的交付方式,使客戶可以按需、自助地使用IT資源。
云計(jì)算的實(shí)質(zhì)
那么,在企業(yè)環(huán)境下,云計(jì)算到底是什么?
簡單地說,云計(jì)算是一種IT交付模式,通過一種自助服務(wù)式、按使用量付費(fèi)的訪問模式,把大規(guī)模、共享的基礎(chǔ)架構(gòu)和計(jì)算資源作為一種服務(wù)來提供。雖然云計(jì)算利用了最近出現(xiàn)的新技術(shù),但它實(shí)際上是一種業(yè)務(wù)趨勢,而不是技術(shù)趨勢。
從技術(shù)上講,云計(jì)算具有以下幾個(gè)主要特點(diǎn):
•基礎(chǔ)架構(gòu)共享——如今的企業(yè)數(shù)據(jù)中心需要滿足眾多用戶對資源不斷變化的需求,云計(jì)算能夠動(dòng)態(tài)地共享企業(yè)IT資源,以便經(jīng)濟(jì)高效地滿足需求。
•可擴(kuò)展性——為了應(yīng)對與日俱增的工作負(fù)載需求,并支持整個(gè)企業(yè),云計(jì)算必須具有可以大幅擴(kuò)展的IT資源的靈活性??蓴U(kuò)展性和靈活性讓云計(jì)算服務(wù)提供商可以兌現(xiàn)或者至少接近這個(gè)承諾——可根據(jù)需要,交付不受限制的IT服務(wù)。
•自助服務(wù)式——云計(jì)算讓客戶可以通過基于服務(wù)的解決方案訪問IT資源。IT資源及創(chuàng)建的詳細(xì)內(nèi)容對于用戶來說是透明的。
•按使用量付費(fèi)——由于云計(jì)算資源可以根據(jù)工作負(fù)載的需求添加或移除,用戶只要為實(shí)際使用的資源付費(fèi)。當(dāng)服務(wù)需求降低后,甚至無需付費(fèi)。
#p#
從高性能計(jì)算到云計(jì)算
雖然現(xiàn)在有多種途徑實(shí)現(xiàn)從現(xiàn)有的客戶/服務(wù)器基礎(chǔ)架構(gòu)轉(zhuǎn)向云計(jì)算,但是對于企業(yè)用戶來說,有三種途徑是最主要的,也是被實(shí)踐證明是最有效的。
這三種途徑分別是:
•從虛擬機(jī)到云——對于已經(jīng)在虛擬機(jī)上部署應(yīng)用程序的用戶來說,可以將虛擬服務(wù)器結(jié)合起來,形成可管理的虛擬機(jī)集群。隨著虛擬機(jī)集群數(shù)量激增,資源共享的需求也相應(yīng)增加,企業(yè)開始部署虛擬化管理平臺(tái)來自動(dòng)調(diào)配虛擬機(jī)和跨虛擬機(jī)集群的計(jì)算資源,從而形成了由企業(yè)內(nèi)部IT部門來運(yùn)營的私有云。
•從網(wǎng)格到云——一些企業(yè)已經(jīng)在運(yùn)行網(wǎng)格。這種分布式系統(tǒng)由IT人員管理,通常是計(jì)算密集型或數(shù)據(jù)密集型的應(yīng)用共享來共享這些資源。虛擬機(jī)技術(shù)并不用在網(wǎng)格中,因?yàn)槊總€(gè)應(yīng)用程序都很容易消耗一臺(tái)服務(wù)器上的所有資源。此外,多臺(tái)服務(wù)器也常常一起使用,以運(yùn)行并行應(yīng)用程序。通過部署云管理軟件,網(wǎng)格就可以擴(kuò)大應(yīng)用范圍,以支持更多類型的應(yīng)用程序。采用虛擬化技術(shù)和資源配置工具可以將企業(yè)網(wǎng)格變成私有云。
•從桌面到云——應(yīng)用程序可以從專用服務(wù)器遷移到共享基礎(chǔ)架構(gòu)上,并從客戶端設(shè)備進(jìn)行訪問。
企業(yè)可以選擇上述途徑中的任何一種,甚至為不同的應(yīng)用程序或不同的業(yè)務(wù)部門同時(shí)選擇幾種途徑來實(shí)現(xiàn)云計(jì)算。為了確保成功,采用云計(jì)算應(yīng)該遵循有條不紊、循序漸進(jìn)的步驟,而不是指望一蹴而就。取得的進(jìn)展取決于特定應(yīng)用程序?qū)蓴U(kuò)展性和成本效益的需求,或者取決于對業(yè)務(wù)流程自動(dòng)化等功能的要求。
從企業(yè)的實(shí)際應(yīng)用考慮,最適合快速實(shí)現(xiàn)云計(jì)算的企業(yè)是那些已經(jīng)采用了集群和網(wǎng)格計(jì)算技術(shù)的企業(yè)和組織機(jī)構(gòu),因?yàn)樗鼈円呀?jīng)完成了對計(jì)算資源的整合和共享調(diào)度,只需要增加對資源的自動(dòng)化管理和調(diào)度,就可以實(shí)現(xiàn)云計(jì)算。
成功案例:歐洲核子研究中心(CERN)利用Platform ISF實(shí)現(xiàn)私有云
憑借強(qiáng)大的計(jì)算能力,歐洲原子核研究組織(CERN)為遍布48個(gè)國家270個(gè)研究中心的17000余名科研人員在全球范圍內(nèi)展開合作,共同破解物質(zhì)和宇宙的種種奧秘提供了保障。
#p#
挑戰(zhàn)
為了進(jìn)一步加快研究進(jìn)展,CERN需要構(gòu)建經(jīng)濟(jì)高效、能夠管理任何服務(wù)器上虛擬機(jī)管理程序和操作系統(tǒng)、共享的計(jì)算基礎(chǔ)設(shè)施。為此,CERN建立了一個(gè)大型的強(qiáng)子對撞機(jī)(LHC)集群,并采用Platform LSF管理LHC集群工作負(fù)載。CERN結(jié)構(gòu)基礎(chǔ)設(shè)施(Fabric Infrastructure)小組負(fù)責(zé)人Tony Cass博士說:“我們從1997年就開始使用Platform LSF管理工作負(fù)載,Platform LSF同樣適用于LHC。特別是當(dāng)需要添加云功能時(shí),與Platform LSF來自同一廠商的Platform ISF看起來再合適不過了。”
解決方案
Platform ISF為CERN的大批科學(xué)家提供了一套私有云計(jì)算基礎(chǔ)設(shè)施,為多個(gè)虛擬和物理平臺(tái)提供高效的工作負(fù)載應(yīng)用管理。Platform ISF把不同平臺(tái)組合到單一動(dòng)態(tài)的共享基礎(chǔ)設(shè)施中,在資源較少的情況下顯著提高了平臺(tái)的利用率。此外,科學(xué)家們可以選擇自己的應(yīng)用環(huán)境,動(dòng)態(tài)控制項(xiàng)目,確保自己能充分發(fā)揮私有云的功效——而這一切都是在成本更低的情況下實(shí)現(xiàn)的。
LHC項(xiàng)目給Cass博士領(lǐng)導(dǎo)的團(tuán)隊(duì)帶來了一些新的挑戰(zhàn)。LHC項(xiàng)目中大多數(shù)應(yīng)用程序是高度專業(yè)化的,需要非常好的持續(xù)性,這給集群帶來了很高的要求。支持LHC項(xiàng)目的新集群由200臺(tái)服務(wù)器組成,新集群整體利用率只有10%左右。為了提高利用率需要對服務(wù)器進(jìn)行虛擬化。新的虛擬化集群支持多種虛擬機(jī)管理程序,包括HyperV和Xen。這為實(shí)驗(yàn)團(tuán)隊(duì)帶來了更大的靈活性,可以為自己的應(yīng)用程序選用最好的平臺(tái)。然而,多種虛擬化技術(shù)的使用給整個(gè)環(huán)境增添了管理的復(fù)雜性,于是Cass及其團(tuán)隊(duì)決定采用Platform ISF管理解決方案,作為同時(shí)管理虛擬環(huán)境和物理環(huán)境的工具。
Platform ISF讓Cass及其團(tuán)隊(duì)對環(huán)境擁有更大的控制權(quán),而且通過自動(dòng)處理虛擬機(jī)管理程序不但實(shí)現(xiàn)許多任務(wù)的自動(dòng)化管理,簡化了管理工作,還提高了管理效率。Platform ISF是整個(gè)解決方案的核心,它可以管理資源和應(yīng)用環(huán)境,并提供讓用戶能夠根據(jù)需要來預(yù)留和使用資源的契約接口。
Cass說:“Platform ISF能夠集成我們的所有資源,所以我們認(rèn)為它是一種有用的補(bǔ)充,可以管理所有這些虛擬機(jī)管理程序。Platform ISF具有的獨(dú)立性本身就讓我們很感興趣,因?yàn)槲覀兊目蒲协h(huán)境高度重視能夠順應(yīng)新發(fā)展形勢的工具,而不是讓我們被舊形勢所束縛。”
Platform ISF部署在一個(gè)支持LHC的集群上,而Platform ISF Adaptive Cluster部署在負(fù)責(zé)進(jìn)行批處理工作的HPC集群上——該集群由 3800臺(tái)多核服務(wù)器組成。這讓CERN可以建立起私有云環(huán)境,必要時(shí)共享不同集群之間的資源。
Cass說:“Platform ISF Adaptive Cluster可以與現(xiàn)有的Platform LSF網(wǎng)格工作負(fù)載管理解決方案結(jié)合起來,為我們的用戶和研究中心提供利用共享數(shù)據(jù)中心資源來管理集群所需的可擴(kuò)展性和靈活性,同時(shí)符合我們對開放標(biāo)準(zhǔn)的要求?!?/p>
成果
利用Platform云平臺(tái)實(shí)現(xiàn)私有云的另一個(gè)優(yōu)點(diǎn)是減少了專用的LHC集群服務(wù)器。 “如果我們可以通過提高服務(wù)器利用率,從現(xiàn)有的LHC環(huán)境中減少150臺(tái)服務(wù)器(原來是200臺(tái)服務(wù)器),那么我們就可以大幅度節(jié)省電力和冷卻成本,并且能在不增加硬件預(yù)算的前提下,把服務(wù)器重新部署到批處理集群中去?!盋ass博士說。
Cass還計(jì)劃允許實(shí)驗(yàn)團(tuán)隊(duì)通過自助服務(wù)直接訪問集群?!叭绻覀兡茏孭latform ISF自動(dòng)配置服務(wù)器,以滿足實(shí)驗(yàn)團(tuán)隊(duì)提出來的工作負(fù)載要求,就將減輕我們的管理負(fù)擔(dān)。過去,在靜態(tài)資源環(huán)境中,利用Platform LSF可以減少管理日常應(yīng)用的工作量;而現(xiàn)在,Platform ISF通過將耗時(shí)的人工管理轉(zhuǎn)變?yōu)樽詣?dòng)化的資源調(diào)配和管理,使我們能更有效地管理虛擬機(jī)和物理機(jī)組成的混合環(huán)境?!盋ass預(yù)測,使用Platform ISF后,他們有望大幅減少重新配置批處理集群以滿足不斷變化的工作負(fù)載所需的工作量。