阿里巴巴集群管理系統(tǒng)Sigma混布數(shù)據(jù)開放
互聯(lián)網(wǎng)普及的20年來,尤其是近10年移動(dòng)互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+的浪潮,使互聯(lián)網(wǎng)技術(shù)滲透到各行各業(yè),滲透到人們生活的方方面面,這帶來了互聯(lián)網(wǎng)服務(wù)規(guī)模和數(shù)據(jù)規(guī)模的大幅增長(zhǎng)。日益增長(zhǎng)的服務(wù)規(guī)模和數(shù)據(jù)規(guī)模帶來數(shù)據(jù)中心的急劇膨脹。在大規(guī)模的數(shù)據(jù)中心中,傳統(tǒng)的運(yùn)維方式已經(jīng)不能滿足規(guī)模化的需求,于是基于自動(dòng)化調(diào)度的集群管理系統(tǒng)紛紛涌現(xiàn)。
這些系統(tǒng)往往有一個(gè)共同的目標(biāo),就是提高數(shù)據(jù)中心的機(jī)器利用率。在龐大的數(shù)據(jù)中心服務(wù)器規(guī)模下,平均利用率每提高一點(diǎn),就會(huì)帶來非??捎^的成本節(jié)約。這一點(diǎn)我們可以通過一個(gè)簡(jiǎn)單的計(jì)算來感受一下。假設(shè)數(shù)據(jù)中心有N臺(tái)服務(wù)器,利用率從R1提高到R2,能節(jié)約多少臺(tái)機(jī)器? 不考慮其他實(shí)際制約因素的情況下,假設(shè)能節(jié)約X臺(tái),那么我們有理想的公式:
N*R1 = (N-X)*R2
=> X*R2 = N*R2 – N*R1
=> X = N*(R2-R1)/R2
如果我們有10萬臺(tái)服務(wù)器,利用率從28%提升到40%,那么代入上述公式有:
N = 100000(臺(tái)), R1 = 28%, R2 = 40%
X= 100000* (40-28)/40 = 30000(臺(tái))
也就是說10萬臺(tái)服務(wù)器,利用率從28%提升到40%,就能節(jié)省出3萬臺(tái)機(jī)器。假設(shè)一臺(tái)機(jī)器的成本為2萬元,那么節(jié)約的成本就有6個(gè)億。
但是遺憾的是,根據(jù)蓋特納和麥肯錫前幾年的調(diào)研數(shù)據(jù),全球的服務(wù)器利用率并不高,只有6%到12%。即使通過虛擬化技術(shù)優(yōu)化,利用率還是只有7%-17%;這正是傳統(tǒng)運(yùn)維和粗放的資源使用模式帶來的***問題。調(diào)度系統(tǒng)的主要目標(biāo)就是解決這個(gè)問題。
通過資源的精細(xì)化調(diào)度,以及虛擬化的手段,比如Virtual Machine或容器技術(shù),讓不同服務(wù)共享資源,堆疊高密部署,可以有效的提升資源利用率。但是這種模式對(duì)在線業(yè)務(wù)的應(yīng)用上存在瓶頸。因?yàn)樵诰€業(yè)務(wù)間的資源共享,高密部署會(huì)帶來各個(gè)層面的資源使用競(jìng)爭(zhēng),從而增加在線服務(wù)的延遲,尤其是長(zhǎng)尾請(qǐng)求的延遲。對(duì)于在線業(yè)務(wù)來說,延遲的增加往往立刻反應(yīng)到用戶的流失和收入的下降,這是在線業(yè)務(wù)無法接受的。而近年來隨著大數(shù)據(jù)的普及,對(duì)實(shí)時(shí)性要求并不高的批量離線作業(yè)規(guī)模越來越大,在資源使用上,逐漸和在線業(yè)務(wù)的體量相當(dāng),甚至超過了在線業(yè)務(wù)。于是很自然想到,將離線業(yè)務(wù)和在線業(yè)務(wù)混合部署在一起運(yùn)行會(huì)怎樣? 能否在犧牲一些離線作業(yè)延遲的情況下,充分利用機(jī)器資源,又不影響在線的響應(yīng)時(shí)間?
阿里巴巴從15年開始做了這個(gè)嘗試。在這之前,阿里內(nèi)部針對(duì)離線和在線場(chǎng)景,分別各有一套調(diào)度系統(tǒng): 從10年開始建設(shè)的基于進(jìn)程的離線資源調(diào)度系統(tǒng)Fuxi(伏羲),和從11年開始建設(shè)的基于Pouch容器的在線資源調(diào)度系統(tǒng)Sigma。 從15年開始,我們嘗試將延遲不敏感的批量離線計(jì)算任務(wù)和延遲敏感的在線服務(wù)部署到同一批機(jī)器上運(yùn)行,讓在線服務(wù)用不完的資源充分被離線使用以提高機(jī)器的整體利用率。這個(gè)方案經(jīng)過2年多的試驗(yàn)論證、架構(gòu)調(diào)整和資源隔離優(yōu)化,目前已經(jīng)走向大規(guī)模生產(chǎn),并已服務(wù)于電商核心應(yīng)用和大數(shù)據(jù)計(jì)算服務(wù)ODPS業(yè)務(wù)?;觳贾笤诰€機(jī)器的平均資源利用率從之前的10%左右提高到了現(xiàn)在的40%以上,并且同時(shí)保證了在線服務(wù)的SLO目標(biāo)。
我們了解到,近年來解決資源調(diào)度和集群管理領(lǐng)域特定問題的學(xué)術(shù)研究也在蓬勃發(fā)展。但是考慮到學(xué)術(shù)研究和實(shí)際真實(shí)的生產(chǎn)環(huán)境還是存在很大差異。首先是用于學(xué)術(shù)研究的機(jī)器規(guī)模都相對(duì)較小,可能無法暴露出實(shí)際生產(chǎn)規(guī)模的問題;其次是學(xué)術(shù)研究中所用的數(shù)據(jù)往往不是實(shí)際生產(chǎn)環(huán)境產(chǎn)生的,可能會(huì)對(duì)研究的準(zhǔn)確性和全面性產(chǎn)生影響。因此我們希望將這個(gè)阿里內(nèi)部核心混布集群的數(shù)據(jù)開放出來,供學(xué)術(shù)界研究。希望學(xué)術(shù)界能在有一定規(guī)模的真實(shí)生產(chǎn)環(huán)境數(shù)據(jù)中,尋找到資源調(diào)度和集群管理更好的模式和方法,能夠指導(dǎo)優(yōu)化實(shí)際生產(chǎn)場(chǎng)景,將機(jī)器利用率和服務(wù)質(zhì)量提高到一個(gè)更高的水平。我們一期先開放1000臺(tái)服務(wù)器12個(gè)小時(shí)的數(shù)據(jù)。數(shù)據(jù)格式描述和數(shù)據(jù)下載鏈接放在了github工程中:https://github.com/alibaba/clusterdata;歡迎查閱。有任何問題和建議可以通過郵件反饋給我們: alibaba-clusterdata@list.alibaba-inc.com