自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

乘云向未來 | 字節(jié)跳動(dòng)多云演進(jìn)及降本之實(shí)踐

云計(jì)算
在11月10日-24日舉辦的“乘云·向未來”火山引擎公共云·城市分享會(huì)上,火山引擎以“字節(jié)跳動(dòng)多云演進(jìn)及降本實(shí)踐”為題,介紹分享了字節(jié)跳動(dòng)多云算力架構(gòu)和火山引擎云原生技術(shù),以及如何解決多云環(huán)境下的部署、運(yùn)維、數(shù)據(jù)和成本等挑戰(zhàn)。

在萬物上云的時(shí)代,多云架構(gòu)已經(jīng)成為企業(yè)上云戰(zhàn)略的重要趨勢。據(jù)IDC報(bào)告,到2023年,全球85%的企業(yè)將采用多云架構(gòu)。與單一云服務(wù)相比,多云架構(gòu)具有更高的彈性和可擴(kuò)展性,可以更好地應(yīng)對企業(yè)的業(yè)務(wù)需求和突發(fā)的云服務(wù)問題。

然而,如何讓不同的云平臺(tái)之間實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的無縫對接?如何將資源利用率發(fā)揮到極致?為了防止出現(xiàn)“信息孤島”等問題,云原生的實(shí)踐者們不斷探索多云環(huán)境下的解決方案。

在11月10日-24日舉辦的“乘云·向未來”火山引擎公共云·城市分享會(huì)上,火山引擎以“字節(jié)跳動(dòng)多云演進(jìn)及降本實(shí)踐”為題,介紹分享了字節(jié)跳動(dòng)多云算力架構(gòu)和火山引擎云原生技術(shù),以及如何解決多云環(huán)境下的部署、運(yùn)維、數(shù)據(jù)和成本等挑戰(zhàn)。

以下為演講實(shí)錄:


圖片

字節(jié)跳動(dòng)為什么選擇多云

火山引擎技術(shù)脫胎于字節(jié)跳動(dòng)的技術(shù),同時(shí)融入到字節(jié)業(yè)務(wù)中。伴隨字節(jié)業(yè)務(wù)的發(fā)展,火山引擎的技術(shù)也在不斷發(fā)展進(jìn)步。

談到多云化,大家會(huì)談到字節(jié)為什么選擇多云?概括起來講是三個(gè)原因。

第一是業(yè)務(wù)性方面的訴求2017—2018年,抖音快速發(fā)展從1萬DAU增長到1億DAU,有著極大的資源需求,而任何單朵云都不能在短時(shí)間供應(yīng),這個(gè)時(shí)候選擇多云是業(yè)務(wù)發(fā)展不可回避的問題。同時(shí),不同的業(yè)務(wù)有不同的硬件和算力需求,而不同的云服務(wù)商也有不同的算力供給。企業(yè)在選擇云服務(wù)時(shí),會(huì)考慮稀缺資源和業(yè)務(wù)支撐的因素。直播電商近年來風(fēng)靡,需要分布式資源的支撐。如果自建IDC和資源,業(yè)務(wù)上會(huì)耗時(shí)較長,隨著業(yè)務(wù)發(fā)展,企業(yè)采購云資源是必要的。

第二個(gè)重要因素就是經(jīng)濟(jì)性。具有大量互聯(lián)網(wǎng)化業(yè)務(wù)的公司,如果持有大量資源,會(huì)造成一定的經(jīng)濟(jì)損失,所以會(huì)選擇云服務(wù)進(jìn)行支撐。還有,不同資源的成本不同,所以不同公司也會(huì)根據(jù)自己的需求,選擇合適的云服務(wù)商。

第三個(gè)重要因素就是安全性。數(shù)據(jù)主權(quán)、安全合規(guī)、防綁定等問題,會(huì)導(dǎo)致企業(yè)在業(yè)務(wù)發(fā)展中不自覺地選擇多家云服務(wù)商,形成多云的現(xiàn)象。

由于上述問題的存在,字節(jié)跳動(dòng)的技術(shù)團(tuán)隊(duì)堅(jiān)定地選擇了多云作為基礎(chǔ)架構(gòu)發(fā)展的主要路徑。


圖片

字節(jié)多云下的云原生之路

那么在多云情況之下,如何用好云呢?這是一個(gè)非常關(guān)鍵的命題。在談如何用好多云之前,先回顧一下字節(jié)跳動(dòng)多云下的云原生之路。

2016年,由于字節(jié)跳動(dòng)不同業(yè)務(wù)使用了不同的自管資源,導(dǎo)致出現(xiàn)了資源浪費(fèi)、管理開發(fā)、運(yùn)維困難、容量口徑不一致等問題,影響了業(yè)務(wù)的穩(wěn)定性和效率。伴隨頭條的快速增長,字節(jié)跳動(dòng)啟動(dòng)了云建設(shè)。

2017年,互聯(lián)網(wǎng)競爭格局加劇,我們需要大量開發(fā)人員快速開發(fā)和迭代系統(tǒng),這時(shí)候就要招聘大量的開發(fā)人員。但是新招聘的開發(fā)人員不熟悉公司的開發(fā)體系,需要培訓(xùn)和適應(yīng)。如何讓開發(fā)人員用自己的原生熟悉的方式,快速進(jìn)入到業(yè)務(wù)的開發(fā)過程中,從而對業(yè)務(wù)的發(fā)展起到助力作用,這是不得不解決的問題。由于各個(gè)團(tuán)隊(duì)技能不一樣,開發(fā)出來的業(yè)務(wù)系統(tǒng)也會(huì)對線上的互聯(lián)互通相應(yīng)的管理治理造成一些挑戰(zhàn),所以需要把這些技術(shù)和經(jīng)驗(yàn)沉淀下來。于是,我們采用了服務(wù)網(wǎng)格的架構(gòu),統(tǒng)一監(jiān)控告警的方式,支持多種語言適配服務(wù)網(wǎng)格,幫助不同業(yè)務(wù)開發(fā)人員快速進(jìn)入業(yè)務(wù)迭代中去,把服務(wù)治理能力、穩(wěn)定性治理能力、流量調(diào)動(dòng)能力等公共能力沉淀到底層平臺(tái),賦能平臺(tái)的發(fā)展。

我們在2019年做了很多市場活動(dòng),比如央視春晚紅包,需要大量的云資源。我們的推廣業(yè)務(wù)原來是大顆粒的,要適配和調(diào)優(yōu)不同的云,成本很高。這種局面之下,對于推廣大顆粒的業(yè)務(wù)而言,要去適配不同云的資源,又產(chǎn)生了適配和調(diào)優(yōu)成本。在活動(dòng)過程中我們發(fā)現(xiàn),有一些推廣側(cè)的業(yè)務(wù),可以進(jìn)行一定程度的降級,額外節(jié)約出來很多資源,更好地支撐對應(yīng)活動(dòng)的展開。如果還像過往方式展開,成本是非常不經(jīng)濟(jì)的,因此需要提高云資源彈性,更敏捷地響應(yīng)活動(dòng)需求,從而降低資源成本。

2020年,隨著推廣業(yè)務(wù)完成演進(jìn),通過把離線在線混合在一起,提高了使用率。我們對存儲(chǔ)進(jìn)行了大范圍的改造,推高了整體的運(yùn)行效率。

業(yè)務(wù)發(fā)展過程中,由于資源需求很大,我們經(jīng)常要在多云之間切換,增加了運(yùn)維成本。云原生應(yīng)用多云的能力幫助我們節(jié)省時(shí)間,快速適配不同的云。目前,抖音和頭條能夠?qū)崿F(xiàn)1周左右快速適配不同的云,快速解決云的切換,這對業(yè)務(wù)來說是非常有幫助的。

2021年,從資源多云到應(yīng)用多云,字節(jié)跳動(dòng)正式實(shí)現(xiàn)了全場景應(yīng)用編排和資源管理的標(biāo)準(zhǔn)化和統(tǒng)一化。

字節(jié)今天擁有500多個(gè)k8s生產(chǎn)集群,其聯(lián)邦管理節(jié)點(diǎn)數(shù)超過21萬,單集群規(guī)模達(dá)到20000以上,微服務(wù)數(shù)超過10萬級別。每天,生產(chǎn)系統(tǒng)有3萬次服務(wù)更新,這為迭代和創(chuàng)新提供了強(qiáng)大的支撐,同時(shí)保證了業(yè)務(wù)的穩(wěn)定性。此外,離線任務(wù)容器數(shù)高達(dá)240M+,通過云原生的混合部署,有效地節(jié)省了企業(yè)的資源成本。

圖片

多云面臨的四大挑戰(zhàn)

多云發(fā)展的整個(gè)過程,并不是一帆風(fēng)順的,需要解決各個(gè)方面的問題??偨Y(jié)來講,是以下四個(gè)點(diǎn):


  • 部署/運(yùn)維復(fù)雜度:應(yīng)用/服務(wù)多云部署方式,容器、主機(jī)、云上服務(wù)等不同類型的部署方式都額外增加了部署和運(yùn)維的難度
  • 打通/互操作性:網(wǎng)絡(luò)打通、身份/權(quán)限打通、運(yùn)維打通、數(shù)據(jù)訪問打通、流量管理,多云條件下,帶來互操作性的復(fù)雜度
  • 數(shù)據(jù)管理/合規(guī)難度:數(shù)據(jù)離散分布之后數(shù)據(jù)資產(chǎn)的管理難度加大,數(shù)據(jù)合規(guī)挑戰(zhàn)加大、數(shù)據(jù)泄漏風(fēng)險(xiǎn)和追蹤難度加大
  • 成本控制復(fù)雜度:業(yè)務(wù)、成本、資產(chǎn)的管理難度

圖片

字節(jié)多云算力架構(gòu)

從字節(jié)跳動(dòng)業(yè)務(wù)部署情況來看,整體形成了「多云管控+多云多活」的模式。在本地,采用多地方部署的方式,通過底層的存儲(chǔ)技術(shù),打通了本地多地方之間的差異性;通過網(wǎng)絡(luò)層面的專線,實(shí)現(xiàn)了近距離的一體性。這樣,不同的業(yè)務(wù)單元可以靈活地分配在不同的機(jī)房。

另外,通過多云、遠(yuǎn)程等方式,為業(yè)務(wù)提供了靈活的容災(zāi)能力。為了保持多云層面的穩(wěn)定性,沒有采用多機(jī)房的方式。當(dāng)某個(gè)國家或省份的業(yè)務(wù)出現(xiàn)問題時(shí),可以在不同的機(jī)房進(jìn)行流量調(diào)配,保證業(yè)務(wù)的連續(xù)性。

在數(shù)據(jù)安全可回溯性方面,我們采取了以下措施:通過整體數(shù)據(jù)雙向同步網(wǎng)關(guān),保證了可追溯性和數(shù)據(jù)外出的透明性;通過多控制面,保證了整體的容災(zāi)性;通過超級控制面,確保了一致性體驗(yàn)。這樣,不同地域的開發(fā)人員可以在同一個(gè)平臺(tái)上進(jìn)行作業(yè),提高了業(yè)務(wù)開發(fā)的效率和穩(wěn)健性。

今天整個(gè)字節(jié)跳動(dòng)多云算力架構(gòu)分為兩大算力平臺(tái):一是分布式云原生平臺(tái),它將不同地域的公有云、信息群和地域性的資源統(tǒng)一納管;二是離線實(shí)時(shí)計(jì)算平臺(tái),它有不同類型的存儲(chǔ)服務(wù),通過大數(shù)據(jù)加速技術(shù),將不同的數(shù)據(jù)關(guān)聯(lián)起來,并為上層的各種計(jì)算類型提供統(tǒng)一的視圖,使得上層的各個(gè)系統(tǒng)變得更加簡單。

然而,這種架構(gòu)依然呈現(xiàn)出兩種計(jì)算類型或體系的結(jié)構(gòu),如何讓資源利用率更高呢?為了解決這個(gè)問題,字節(jié)跳動(dòng)采用了以下兩個(gè)策略:一是云原生離線調(diào)度Serverless Yarn,它可以簡單地適配各種開源的離線調(diào)度工具,無需對業(yè)務(wù)進(jìn)行改造,就可以接入在線的統(tǒng)一資源管理。通過這種方式,成功將離線和在線的資源融合在一起,混合運(yùn)營在一起。二是離在線混部調(diào)度器Katalyst,它可以感知離在線的差異,提高云原生的調(diào)度能力,提升整體的資源利用率。此外,還有離在線資源管理器,它是一種云原生的資源管理工具,可以在運(yùn)行過程中,精確地控制資源的使用,保證業(yè)務(wù)的穩(wěn)健性。

圖片

降低運(yùn)維部署以及離線資源管理復(fù)雜度

如果更進(jìn)一步深入看,在分布式云原生平臺(tái)上,為了支撐在線業(yè)務(wù),提供了以下幾種能力:

1、統(tǒng)一資源管理能力。這里包括多集群納管能力,它可以連接多地域、多基礎(chǔ)設(shè)施之上的集群,無縫接管業(yè)務(wù)在多種云上的存量集群,還有統(tǒng)一資源監(jiān)管的能力,通過統(tǒng)一的控制鏈和界面,方便管理和調(diào)度資源。

2、統(tǒng)一應(yīng)用管理。統(tǒng)一的應(yīng)用分發(fā)能力可以根據(jù)用戶的策略、集群的特征、業(yè)務(wù)的層面和依賴關(guān)系,進(jìn)行多樣化的分發(fā)策略,讓業(yè)務(wù)無需關(guān)心底層的細(xì)節(jié)。另外,為了連接不同云上的集群,還需要完全兼容現(xiàn)有的生態(tài)。如果在歷史和業(yè)務(wù)層面上存在不兼容的問題,就會(huì)在接入過程中遇到挑戰(zhàn)。因此,接管應(yīng)用體系之后,還要提供更強(qiáng)的運(yùn)維和治理能力。

3、統(tǒng)一應(yīng)用觀測,通過對各種系統(tǒng)的集群層面上的統(tǒng)一收集,可以進(jìn)行更強(qiáng)的感知。一旦遇到問題,除了集群本身具備的自我恢復(fù)能力,還可以通過智能化手段,讓運(yùn)維人員及時(shí)進(jìn)行處理。

4、統(tǒng)一治理。為了解決地域性的穩(wěn)定性問題,我們也提供了一些統(tǒng)一的授權(quán)管控、服務(wù)追蹤、流量治理等能力,可以靈活地調(diào)配資源,保證業(yè)務(wù)的穩(wěn)健運(yùn)行。

另外,統(tǒng)一資源湖偏向于離線的算力平臺(tái)。我們對數(shù)據(jù)的使用做了一些圖層面上的整合,我們發(fā)現(xiàn),在多云的情況下,如果一個(gè)公司是深度使用數(shù)據(jù)的,其90%以上的數(shù)據(jù)都是相互關(guān)聯(lián)的。這就給單業(yè)務(wù)層面上的單元化部署帶來了很大的挑戰(zhàn)。業(yè)務(wù)無法給出準(zhǔn)確的答案,如何擺放資源,如何處理相應(yīng)的關(guān)系。為了解決這個(gè)問題,很多方案是把離線的算力連成一片,但這對多機(jī)房層面上的算力調(diào)度和存儲(chǔ)遠(yuǎn)程拉取帶來了挑戰(zhàn),同時(shí)又會(huì)造成專線無限制的被使用。

字節(jié)跳動(dòng)內(nèi)部采用資源湖的方式,通過數(shù)據(jù)驅(qū)動(dòng)的理念和技術(shù)工具,可以做到智能化的感知,根據(jù)需要甚至提前進(jìn)行資源的搬遷。比如,通過把A機(jī)房的資源搬到B機(jī)房,就可以快速地加速業(yè)務(wù)運(yùn)行。所有這些搬遷動(dòng)作都是自動(dòng)化,都是通過資源湖和基于云原生的就近計(jì)算技術(shù),完成自動(dòng)化的搬遷能力。通過這種方式,把離線計(jì)算速度提升了1.3—1.4倍,節(jié)約了30%—60%帶寬。

此外,還有一個(gè)非常重要的能力,就是對離線帶寬的調(diào)度。因?yàn)殡x線帶寬有限,如果不進(jìn)行調(diào)度,就會(huì)影響業(yè)務(wù)的穩(wěn)定性。這就是離線算力平臺(tái)帶給業(yè)務(wù)和上層計(jì)算引擎的好處。通過資源湖進(jìn)行統(tǒng)一管理,通過ServerlessYARN解決云原生的問題,我們可以實(shí)現(xiàn)離線算力平臺(tái)的高效運(yùn)行。

圖片

降本之提升資源利用率

解決離在線問題的一個(gè)有效手段是靠隔離,那么如何進(jìn)行更好地隔離,如何進(jìn)行更加精準(zhǔn)地隔離?這是一個(gè)很大的挑戰(zhàn)。

在字節(jié)跳動(dòng)內(nèi)部,我們根據(jù)作業(yè)的延時(shí)敏感程度和業(yè)務(wù)的不同,進(jìn)行兩個(gè)維度的劃分,實(shí)現(xiàn)分級化作業(yè)管理。根據(jù)CPU、IO和網(wǎng)絡(luò)的不同,選擇不同的隔離方案,有經(jīng)驗(yàn)型的,也有業(yè)務(wù)自配型的,還有機(jī)器學(xué)習(xí)出來的適配模型。通過把隔離手段精準(zhǔn)地應(yīng)用到對應(yīng)的業(yè)務(wù)上,實(shí)現(xiàn)離在線的完美結(jié)合,保證資源的充分利用,不影響在線的穩(wěn)定性。這是字節(jié)跳動(dòng)的實(shí)踐。

今天,我們實(shí)現(xiàn)了幾十萬臺(tái)服務(wù)器的常態(tài)化在離線混部,這套技術(shù)在多云和多集群下帶來了很多好處。但是,實(shí)現(xiàn)這一過程并不容易,需要很多的歷程和技術(shù)開發(fā)工作。

我們根據(jù)技術(shù)難度和落地難度,總結(jié)了一些常態(tài)下可以使用的手段,包括:一是應(yīng)用畫像的透視,可以對應(yīng)用的特征和需求進(jìn)行分析;二是規(guī)格的智能推薦,可以避免資源的浪費(fèi)和不足;三是高低峰的分配,可以根據(jù)業(yè)務(wù)的波動(dòng)進(jìn)行調(diào)整;四是針對活動(dòng)的離在線能力,可以應(yīng)對突發(fā)的情況。這些資源效能能力,都是原子能力,可以被應(yīng)用任意組合使用,降低資源使用成本。

圖片

多云的未來發(fā)展趨勢

在回顧字節(jié)跳動(dòng)的發(fā)展歷程后,我們再來看看多云層面上的未來趨勢。我們發(fā)現(xiàn),有以下幾個(gè)方面的變化:一是隨著AI技術(shù)的發(fā)展,特殊架構(gòu)的算力,如GPU、FPGA等崛起了,這就給管理這些算力帶來了額外的挑戰(zhàn),這是多云層面上必須考慮和面對的問題;二是如何把這些算力更精準(zhǔn)地匹配到不同的業(yè)務(wù)上,這也是一個(gè)挑戰(zhàn)。我們需要對算力的效率和業(yè)務(wù)之間的匹配,有更精準(zhǔn)的感知;三是由于不同云和地域帶來的成本差異,我們需要對這部分進(jìn)行感知;四是不同業(yè)務(wù)對于延遲層面的要求不同,我們需要對業(yè)務(wù)的體驗(yàn)進(jìn)行感知。這些都會(huì)造成整個(gè)分布式云和多云層面,在未來發(fā)展上,需要更加精準(zhǔn)的自適應(yīng)和智能感知的能力,這是在資源和調(diào)度上呈現(xiàn)出來的趨勢。

此外,我們還介紹了字節(jié)跳動(dòng)在數(shù)據(jù)合規(guī)方面的一些手段,以及一些更加智能化的手段。最近幾年,隱私增強(qiáng)的計(jì)算,如聯(lián)邦學(xué)習(xí)、數(shù)據(jù)安全等,實(shí)現(xiàn)了跨云、跨用戶的數(shù)據(jù)交互和計(jì)算,而不是數(shù)據(jù)交換。這就防止了數(shù)據(jù)的泄露,提升了合規(guī)和安全性。

最后,隨著多云化的不可避免的趨勢,管理、使用、運(yùn)營都會(huì)帶來更多的挑戰(zhàn)。整個(gè)應(yīng)用層面,也必然向多云化轉(zhuǎn)變。對于各家廠商和用戶而言,需要更強(qiáng)的針對多云的平臺(tái),從而能夠提升他們的體驗(yàn)和效率。這樣的平臺(tái),必須是開放和標(biāo)準(zhǔn)的,才能夠?qū)崿F(xiàn)互聯(lián)互通和多云協(xié)同。

責(zé)任編輯:張燕妮 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-11-29 22:12:29

云計(jì)算實(shí)踐

2023-12-04 18:38:05

2023-12-08 18:40:36

字節(jié)跳動(dòng)云原生火山引擎

2023-12-01 17:42:10

2022-12-23 08:58:35

字節(jié)跳動(dòng)YARN架構(gòu)

2023-11-20 07:27:00

云原生Spark

2024-04-23 10:16:29

云原生

2023-12-06 18:47:35

云實(shí)踐算力

2023-12-04 18:41:17

云架構(gòu)運(yùn)營

2024-09-25 15:57:56

2023-11-15 09:44:23

火山技術(shù)

2022-08-21 21:28:32

數(shù)據(jù)庫實(shí)踐

2023-01-10 09:08:53

埋點(diǎn)數(shù)據(jù)數(shù)據(jù)處理

2023-12-08 20:57:38

字節(jié)跳動(dòng)火山引擎公共云

2022-12-23 09:04:33

字節(jié)跳動(dòng)數(shù)據(jù)治理架構(gòu)

2022-07-12 16:54:54

字節(jié)跳動(dòng)Flink狀態(tài)查詢

2024-03-14 12:09:59

火山引擎公共云

2021-06-16 09:38:50

數(shù)據(jù)中心云計(jì)算綠色數(shù)據(jù)中心

2022-06-30 10:56:18

字節(jié)云數(shù)據(jù)庫存儲(chǔ)

2024-03-14 12:13:35

火山引擎公共云
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)