自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里巴巴云原生混部系統(tǒng) Koordinator 正式開源

原創(chuàng) 精選
云計(jì)算 云原生 開源
脫胎于阿里巴巴內(nèi)部,經(jīng)過多年雙 11 打磨,為每年為公司節(jié)省數(shù)十億的混部系統(tǒng) Koordinator 今天宣布正式開源。通過開源,我們希望將更好的混部能力、調(diào)度能力開放到整個(gè)行業(yè),幫助企業(yè)客戶改進(jìn)云原生工作負(fù)載運(yùn)行的效率、穩(wěn)定性和計(jì)算成本。

作者 | 逐靈

混部是什么?

業(yè)界很多互聯(lián)網(wǎng)公司或多或少都有布局將不同特征類型工作負(fù)載協(xié)同調(diào)度的技術(shù)方向,充分利用負(fù)載之間的消峰填谷效應(yīng),讓工作負(fù)載以更穩(wěn)定、更高效、更低成本的方式去使用資源。這樣的一套系統(tǒng)或機(jī)制,也就是業(yè)界時(shí)常提及的 “混部”概念。

阿里巴巴的混部:

阿里巴巴在 2011 年開始探索容器技術(shù),并在 2016 年啟動(dòng)混部技術(shù)研發(fā),至今經(jīng)過了多倫技術(shù)架構(gòu)升級(jí),最終演進(jìn)到今天的云原生混部系統(tǒng)架構(gòu),實(shí)現(xiàn)了全業(yè)務(wù)規(guī)模超千萬(wàn)核的云原生混部,混部天平均 CPU 利用率超 50%,幫助阿里巴巴節(jié)省了大量的資源成本。

混部是在互聯(lián)網(wǎng)企業(yè)內(nèi)部重金打造的成本控制內(nèi)核,凝聚了眾多的業(yè)務(wù)抽象和資源管理的思考優(yōu)化經(jīng)驗(yàn),因此混部通常都需要數(shù)年的打磨實(shí)踐才能逐漸穩(wěn)定并產(chǎn)生生產(chǎn)價(jià)值。是不是每家企業(yè)都需要很高的門檻才能使用混部,都需要大量的投入才能產(chǎn)生價(jià)值?那讓我們的Koordinator來(lái)嘗試給出回答。

Koordinator 正是基于內(nèi)部超大規(guī)模混部生產(chǎn)實(shí)踐經(jīng)驗(yàn)而來(lái),旨在為用戶打造云原生場(chǎng)景下接入成本最低、混部效率最佳的解決方案,幫助用戶企業(yè)實(shí)現(xiàn)云原生后持續(xù)的紅利釋放。

一、Koordinator 是什么?

Koordinator: 取自 coordinator,K for Kubernetes,發(fā)音相同。語(yǔ)意上契合項(xiàng)目要解決的問題,即協(xié)調(diào)編排 kubernetes 集群中不同類型的工作負(fù)載,使得他們以最優(yōu)的布局、最佳的姿態(tài)在一個(gè)集群、一個(gè)節(jié)點(diǎn)上運(yùn)行。

谷歌內(nèi)部有一個(gè)調(diào)度系統(tǒng)名叫 Borg,是最早做容器混部的系統(tǒng),在其論文公開發(fā)表之前在行業(yè)上一直是非常神秘的存在。云原生容器調(diào)度編排系統(tǒng) Kubernetes 正是受 Borg 設(shè)計(jì)思想啟發(fā),由 Borg 系統(tǒng)的設(shè)計(jì)者結(jié)合云時(shí)代應(yīng)用編排的需求重新設(shè)計(jì)而來(lái)。Kubernetes 良好的擴(kuò)展性使其能適應(yīng)多樣的工作負(fù)載,幫助用戶很好的解決工作負(fù)載日常運(yùn)維效率。

Koordinator 是完全基于 Kubernetes 標(biāo)準(zhǔn)能力擴(kuò)展而來(lái),致力于解決多樣工作負(fù)載混部在一個(gè)集群、節(jié)點(diǎn)場(chǎng)景下的調(diào)度、運(yùn)行時(shí)性能以及穩(wěn)定性挑戰(zhàn)。項(xiàng)目包含了混合工作負(fù)載編排的一套完整解決方案,包括精細(xì)化資源調(diào)度、任務(wù)調(diào)度、差異化 SLO 三大塊。通過這樣一套解決方案實(shí)現(xiàn):

幫助企業(yè)用戶更多工作負(fù)載接入 kubernetes,特別是大數(shù)據(jù)、任務(wù)處理相關(guān)的工作負(fù)載,提高其運(yùn)行效率和穩(wěn)定性

通過開源技術(shù)標(biāo)準(zhǔn),幫助企業(yè)用戶在云上、云下實(shí)現(xiàn)一致的技術(shù)架構(gòu),提升運(yùn)維效率

幫助企業(yè)用戶合理利用云資源,在云上實(shí)現(xiàn)可持續(xù)發(fā)展

二、Koordinator 有什么優(yōu)勢(shì)?

混部需要一套完整、自閉環(huán)的調(diào)度回路,但在企業(yè)應(yīng)用混部的過程中,將要面臨的兩大挑戰(zhàn)是:

  • 應(yīng)用如何接入到混部平臺(tái)
  • 應(yīng)用如何在平臺(tái)上能夠運(yùn)行穩(wěn)定、高效

Koordinator 吸取了阿里巴巴內(nèi)部多年的生產(chǎn)實(shí)踐經(jīng)驗(yàn)教訓(xùn),針對(duì)這兩大挑戰(zhàn)針對(duì)性的設(shè)計(jì)了解決方案,旨在幫助企業(yè)真正意義上的用上混部,用好 Kubernetes,而不是秀技術(shù)秀肌肉。

Koordinator 1.0 的整體架構(gòu)如下圖所示,為了用戶提供了完整的混部工作負(fù)載編排、混部資源調(diào)度、混部資源隔離及性能調(diào)優(yōu)解決方案,幫助用戶提高延遲敏感服務(wù)的運(yùn)行性能,挖掘空閑節(jié)點(diǎn)資源并分配給真正有需要的計(jì)算任務(wù),從而提高全局的資源利用效率。

1.超大規(guī)模生產(chǎn)實(shí)踐經(jīng)驗(yàn)錘煉

2021 雙 11 之后阿里對(duì)外宣布了“首次!統(tǒng)一調(diào)度系統(tǒng)規(guī)?;涞?,全面支撐阿里巴巴雙 11 全業(yè)務(wù)”:

作為阿里巴巴的核心項(xiàng)目,阿里云(容器團(tuán)隊(duì)和大數(shù)據(jù)團(tuán)隊(duì))聯(lián)合阿里巴巴資源效能團(tuán)隊(duì)、螞蟻容器編排團(tuán)隊(duì),歷時(shí)一年多研發(fā)和技術(shù)攻堅(jiān),實(shí)現(xiàn)了從“混部技術(shù)”到今天“統(tǒng)一調(diào)度技術(shù)”的全面升級(jí)。

今天,統(tǒng)一調(diào)度已實(shí)現(xiàn)阿里巴巴電商、搜推廣、MaxCompute 大數(shù)據(jù)的調(diào)度全面統(tǒng)一,實(shí)現(xiàn)了 pod 調(diào)度和 task 高性能調(diào)度的統(tǒng)一,實(shí)現(xiàn)了完整的資源視圖統(tǒng)一和調(diào)度協(xié)同,實(shí)現(xiàn)了多種復(fù)雜業(yè)務(wù)形態(tài)的混部和利用率提升,全面支撐了全球數(shù)十個(gè)數(shù)據(jù)中心、數(shù)百萬(wàn)容器、數(shù)千萬(wàn)核的大規(guī)模資源調(diào)度。

作為云原生混部的踐行者,阿里巴巴是真刀真槍的在生產(chǎn)環(huán)境中推進(jìn)混部技術(shù)理念,并在去年雙 11 完成了超過千萬(wàn)核的混部規(guī)模,通過混部技術(shù)幫助阿里巴巴雙 11 節(jié)約超過 50% 的大促資源成本,在大促快上快下鏈路上提速 100%,助力大促實(shí)現(xiàn)絲滑的用戶體驗(yàn)。

回頭去看,阿里巴巴堅(jiān)定的推進(jìn)混部技術(shù),主要是考慮到以下方面帶來(lái)的問題:

  • 利用率不均衡:在非混部時(shí)代,幾大資源池之間的資源利用率不均衡,大數(shù)據(jù)資源池利用率極高長(zhǎng)期缺乏算力,而電商資源池日常利用率比較低,空閑了大量的計(jì)算資源,但出于災(zāi)備設(shè)計(jì)又不能直接下掉機(jī)器提高在線密度?;觳康某踔允亲屓仲Y源調(diào)度更合理,在日常態(tài)通過混部將大數(shù)據(jù)的任務(wù)調(diào)度到電商資源池中,充分利用這部分空閑的資源。
  • 大促備戰(zhàn)效率低:在大促時(shí)為了減少大促資源采購(gòu),希望在大促時(shí)能夠借用大數(shù)據(jù)資源池,部署電商任務(wù)支撐流量洪峰同時(shí)。在非混部時(shí)代,這樣的彈性資源借用只能通過騰挪機(jī)器的方式推進(jìn),大促支持的效率較低很難大規(guī)模實(shí)施。

正是在雙 11 這樣的峰值場(chǎng)景驅(qū)動(dòng)之下,阿里的混部調(diào)度技術(shù)持續(xù)演進(jìn),積累了大量的生產(chǎn)實(shí)踐經(jīng)驗(yàn),到今天已經(jīng)是第三代即云原生全業(yè)務(wù)混部系統(tǒng)。這樣一套基于云原生理念的混部技術(shù)解決方案,脫胎于阿里巴巴,希望通過開源社區(qū)輻射到整個(gè)行業(yè),幫助企業(yè)在云原生容器調(diào)度方向上加速快跑。

2.聚焦混部技術(shù),支持豐富的場(chǎng)景

混部是一套針對(duì)延遲敏感服務(wù)的精細(xì)化編排+大數(shù)據(jù)計(jì)算工作負(fù)載混合部署的資源調(diào)度解決方案,核心技術(shù)在于:

  • 精細(xì)的資源編排,以滿足性能及長(zhǎng)尾時(shí)延的要求,關(guān)鍵點(diǎn)是精細(xì)化的資源調(diào)度編排策略及 QoS 感知策略
  • 智能的資源超賣,以更低成本滿足計(jì)算任務(wù)對(duì)計(jì)算資源的需求,并保證計(jì)算效率的同時(shí)不影響延遲敏感服務(wù)的響應(yīng)時(shí)間

上圖是 Koordinator 混部資源超賣模型,也是混部最關(guān)鍵最核心的地方。其中超賣的基本思想是去利用那些已分配但未使用的資源來(lái)運(yùn)行低優(yōu)先級(jí)的任務(wù),如圖所示的四條線分別是:

  • limit: 灰色,高優(yōu)先級(jí) Pod 申請(qǐng)的資源量,對(duì)應(yīng) kubernetes 的 Pod request
  • usage: 紅色,Pod 實(shí)際使用的資源量,橫軸是時(shí)間線,紅線也就是 Pod 負(fù)載隨時(shí)間的波動(dòng)曲線
  • short-term reservation: 深藍(lán)色,是基于 usage 過去一段時(shí)間(較短)的資源使用情況,對(duì)其未來(lái)一段時(shí)間的資源使用情況的預(yù)估,reservation 與 limit 之間也就是已分配未使用(預(yù)估未來(lái)一段時(shí)間也不會(huì)使用)的資源,可以用于運(yùn)行短生命周期批處理任務(wù)
  • long-term reservation: 淺藍(lán)色,類似于 short-term reservation 但預(yù)估使用的歷史周期較長(zhǎng),從 reservation 到 limit 之間的資源可用于較長(zhǎng)生命周期的任務(wù),其可用資源相比 short-term 更少但穩(wěn)定性更高

這一套資源模型支撐了阿里巴巴內(nèi)部全業(yè)務(wù)的混部,足夠精煉的同時(shí)也具備很強(qiáng)的靈活性。Koordinator 整個(gè)混部資源調(diào)度的大廈構(gòu)建在這樣一個(gè)資源模型的基礎(chǔ)之上,配合上優(yōu)先級(jí)搶占、負(fù)載感知、干擾識(shí)別和 QoS 保障技術(shù),構(gòu)建出混部資源調(diào)度底層核心系統(tǒng)。Koordinator 社區(qū)將圍繞這個(gè)思路投入建設(shè),持續(xù)將混部場(chǎng)景的調(diào)度能力展開,將阿里巴巴內(nèi)部豐富場(chǎng)景支持的經(jīng)驗(yàn)輸出到社區(qū),解決企業(yè)面臨的真實(shí)業(yè)務(wù)場(chǎng)景問題。

3.雙零傾入,超低接入成本

企業(yè)接入混部最大的挑戰(zhàn)是如何讓應(yīng)用跑在混部平臺(tái)之上,這第一步的門檻往往是最大的攔路虎。Koordinator 針對(duì)這一問題,結(jié)合內(nèi)部生產(chǎn)實(shí)踐經(jīng)驗(yàn),設(shè)計(jì)了“雙零侵入”的混部調(diào)度系統(tǒng)。

第一個(gè)零傾入,是指對(duì) Kubernetes 平臺(tái)的零傾入。行業(yè)內(nèi)的人大多知道,將 Kubernetes 應(yīng)用于企業(yè)內(nèi)部的復(fù)雜場(chǎng)景混部時(shí),因?yàn)檫@樣或者那樣的原因總是需要對(duì) Kubernetes 做一定量的修改,特別是節(jié)點(diǎn)管理(Kubelet)部分,這部分修改本身具備較大的技術(shù)門檻,同時(shí)也為給后續(xù)的 Kubernetes 版本升級(jí)帶來(lái)巨大的挑戰(zhàn)。企業(yè)為了解決這一問題,往往需要專門的團(tuán)隊(duì)來(lái)維護(hù)這一些定制化的修改,并且具備很大的沉默成本,等到線上出現(xiàn)問題或者需要升級(jí)新版本時(shí),熟悉這份修改的同學(xué)可能已不知去向。這給企業(yè)帶來(lái)了很大的技術(shù)風(fēng)險(xiǎn),往往讓混部技術(shù)的推廣受阻。而 Koordinator 混部系統(tǒng),設(shè)計(jì)之處即保證了不需要對(duì)社區(qū)原生 Kubernetes 做任何修改,只需要一鍵安裝 Koordinator 組件到集群中,不需要做任何配置,既可以為 Kubernetes 集群帶來(lái)混部的能力。同時(shí),在用戶不啟用混部能力時(shí),不會(huì)對(duì)原有的 Kubernetes 集群有任何形式的打擾。

第二個(gè)零傾入,是指對(duì)工作負(fù)載編排系統(tǒng)的零傾入。想像一下,在企業(yè)內(nèi)部的 Kubernetes 集群之上提供混部能力之后,將面臨的問題是如何將企業(yè)的工作負(fù)載接入進(jìn)來(lái),以混部的方式運(yùn)行。一般情況下將會(huì)面臨的兩種情況是:

  • 工作負(fù)載具備企業(yè)私有運(yùn)維特性,由平臺(tái)或運(yùn)維團(tuán)隊(duì)的系統(tǒng)管理這些工作負(fù)載的日常升級(jí)發(fā)布、擴(kuò)容縮容,而企業(yè)推進(jìn)混部的容器或 SRE 團(tuán)隊(duì)與平臺(tái)運(yùn)維團(tuán)隊(duì)之間,存在著組織的鴻溝(或大或小),如何推動(dòng)平臺(tái)團(tuán)隊(duì)改造工作負(fù)載管理機(jī)制,對(duì)接混部的協(xié)議,也是一個(gè)不小的挑戰(zhàn)。
  • 工作負(fù)載以原生的 Deployment/StatefulSet/Job 的方式管理,對(duì)其 Kubernetes 內(nèi)部的設(shè)計(jì)實(shí)現(xiàn)或改造成本超出了團(tuán)隊(duì)的預(yù)期,也將成為推行混部的挑戰(zhàn)。

Koordinator 針對(duì)應(yīng)用接入層的改造成本,設(shè)計(jì)了單獨(dú)的工作負(fù)載接入層(Colocation Profile),幫助用戶解決工作負(fù)載接入混部的難題,用戶只需要管理混部的配置(YAML)即可靈活的調(diào)度編排哪些任務(wù)以混部的方式運(yùn)行在集群中,非常的簡(jiǎn)單且靈活。當(dāng)前 Koordinator 為用戶提供了混跑 Spark 任務(wù)的樣例,未來(lái),社區(qū)將持續(xù)豐富工作負(fù)載接入層的特性,支持更多場(chǎng)景的零傾入接入。

4.云上、云下一致的用戶體驗(yàn)

Koordinator 開源項(xiàng)目是阿里巴巴云原生 2.0 的重點(diǎn)戰(zhàn)役,用戶除在自己的環(huán)境中可以體驗(yàn)到 Koordinator 混部帶來(lái)的技術(shù)紅利,也可以將其部署到任意一個(gè)云廠商中,保持混合云、多云的架構(gòu)一致。當(dāng)然,也可以在阿里巴巴提供的多款云產(chǎn)品中獲得一致的用戶體驗(yàn),一次設(shè)計(jì)對(duì)接多處發(fā)揮價(jià)值。

可以看到,除了支持內(nèi)部超大規(guī)模的業(yè)務(wù)混部外,Koordinator 也是阿里云容器服務(wù)集成的解決方案,社區(qū)將持續(xù)的保持活力,致力于將混部變成平民化、通用化、標(biāo)準(zhǔn)化的技術(shù)能力。

三、為什么要開源?

最早做容器混部的是 Borg, 在 Google 內(nèi)部運(yùn)行超過 15 年,最新公開的資料是 Borg: the next Generation[1]。國(guó)內(nèi)互聯(lián)網(wǎng)公司內(nèi)部推進(jìn)混部接近 10 年,其中阿里巴巴的混部技術(shù)也經(jīng)歷過了 3 代技術(shù)架構(gòu)升級(jí)變遷,最終走到全局混部的終極形態(tài)。混部幫助阿里巴巴的電商、搜索、大數(shù)據(jù)業(yè)務(wù)極大的提高了大促的備戰(zhàn)效率,也為歷年的雙 11 大促節(jié)省了大量的計(jì)算資源。

我們堅(jiān)信,云原生混部是企業(yè)容器調(diào)度技術(shù)發(fā)展的必然方向,只有通過工作負(fù)載的混合編排,才能在業(yè)務(wù)多可用區(qū)災(zāi)備架構(gòu)下實(shí)現(xiàn)更好的資源利用效率,才能充分的發(fā)揮不同類型負(fù)載的消峰填谷效應(yīng),從而完全的發(fā)揮出計(jì)算資源潛力,最大化釋放云計(jì)算的價(jià)值。

Koordinator 的開源,希望讓更多的企業(yè)能夠看見并用上云原生混部的能力,幫助企業(yè)加速云原生化的過程。在技術(shù)上,Koordinator 能夠幫助企業(yè)實(shí)現(xiàn)更多的負(fù)載能夠接入到 Kubernetes 平臺(tái),豐富容器調(diào)度的工作負(fù)載類型,繼而發(fā)揮出工作負(fù)載錯(cuò)峰分時(shí)的特征,從而實(shí)現(xiàn)效率、成本上的收益,保持長(zhǎng)期可持續(xù)發(fā)展的健康形態(tài)。

當(dāng)前,Koordinator 已經(jīng)支持了 Spark 任務(wù)場(chǎng)景的混部,同時(shí)也提供了低成本接入混部的解決方案,期待看到你的混部應(yīng)用案例,聽到你的反饋!未來(lái),Koordinator 社區(qū)將持續(xù)的豐富混部的場(chǎng)景及業(yè)務(wù)形態(tài),支持 Flink、Hadoop、AI Jobs、音視屏任務(wù)等,盡情期待。

參考鏈接[1]:https://research.google/pubs/pub49065/

責(zé)任編輯:武曉燕 來(lái)源: 阿里開發(fā)者
相關(guān)推薦

2022-05-17 13:40:21

云原生混部開源

2022-04-12 15:54:12

阿里云云原生開源

2022-03-22 08:41:13

阿里巴巴云原生大數(shù)據(jù)

2017-09-06 16:31:55

阿里巴巴

2019-01-28 10:10:36

開源技術(shù) 趨勢(shì)

2020-09-18 13:59:20

阿里巴巴云原生平臺(tái)

2013-11-07 12:24:41

蘇寧云商阿里巴巴

2013-10-30 16:40:55

阿里巴巴阿里云云計(jì)算

2012-09-17 10:20:11

2018-12-14 11:00:18

2010-06-28 10:43:47

2012-09-11 10:09:54

阿里云

2009-03-02 10:24:53

阿里巴巴招聘馬云

2015-08-05 16:48:12

阿里巴巴

2013-08-08 10:34:50

阿里巴巴BAT

2019-09-27 10:30:28

技術(shù)研發(fā)開源

2017-10-21 16:04:48

阿里巴巴

2010-06-03 10:58:51

馬云婚戀觀

2013-08-22 09:41:52

阿里巴巴去IOE王堅(jiān)

2013-02-19 10:47:13

阿里巴巴阿里云·搜索阿里云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)