自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

當基礎(chǔ)設(shè)施故障后,聲網(wǎng)SD-RTN™如何保障RTE服務(wù)的高可用性

網(wǎng)絡(luò)
定義實時互動體驗質(zhì)量標準看似只是幾個指標,但實際背后承載了聲網(wǎng)團隊長期的付出。XLA 質(zhì)量標準的推出,是經(jīng)過上百名技術(shù)專家針對全鏈路數(shù)據(jù)反復(fù)打磨、改進、驗證,經(jīng)歷了10個版本的反復(fù)迭代,適配了50+網(wǎng)絡(luò)模型、200+國家與地區(qū)的優(yōu)化、6000+不同類型終端體驗的優(yōu)化以及全鏈路1萬億分鐘的數(shù)據(jù)打磨。

 云計算的出現(xiàn)為企業(yè)的管理、業(yè)務(wù)開展、資源整合等帶來了極大的便利性,也是數(shù)字化建設(shè)的核心基建之一,然而局部宕機或者大面積宕機事件對于云廠商來說卻也無法避免,全球領(lǐng)先的計算平臺也不例外。例如,美國東部時間12月7日上午10點45分,亞馬遜 AWS 遭遇宕機,導(dǎo)致了迪斯尼+、奈飛等一些網(wǎng)站的在線服務(wù)受到影響,此次故障也在業(yè)內(nèi)引發(fā)了較大的關(guān)注。

之所以說云廠商的宕機故障無法100%避免,核心在于造成的原因有很多種,例如人為失誤、網(wǎng)絡(luò)中斷或者區(qū)域性網(wǎng)絡(luò)擁塞、停電、自然災(zāi)害等,作為云廠商,能做的就是不斷優(yōu)化技術(shù)與服務(wù)來應(yīng)對這些問題,將宕機發(fā)生的概率降到最低。

聲網(wǎng)作為全球領(lǐng)先的實時互動云服務(wù)商,在海外的部分業(yè)務(wù)也使用了 AWS 的基礎(chǔ)設(shè)施資源,在AWS 宕機事件中,聲網(wǎng)的實時音視頻服務(wù)并沒有受到波及,背后的核心原因在于聲網(wǎng) SD-RTN™大網(wǎng)的獨特架構(gòu)設(shè)計保障了 RTE (實時互動)服務(wù)的高可用性,做到機房、硬件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施出現(xiàn)故障的情況下,仍然可以給用戶提供高可用的 RTE 服務(wù)。

首先我們要了解什么是高可用性。一般來講,一個靠譜的云服務(wù)一定是可用性非常高的,可用性的評判標準 SLA:服務(wù)等級協(xié)議(Service Level Agreement)對于云廠商來說就是服務(wù)可用性的一個保證,國內(nèi)很多云廠商在售賣云服務(wù)時都會承諾99.9%的可用性,9越多代表全年服務(wù)可用時間越長服務(wù)更可靠,反之亦然。例如以全年365天做計算,99.9%的可用性,每年只有8.76小時的服務(wù)是不可用的,可用性的每一次提升都是一次技術(shù)的挑戰(zhàn),當遇上環(huán)境災(zāi)害、公網(wǎng)基礎(chǔ)設(shè)施不可靠等問題時,怎么樣快速地面對這些問題,多長時間恢復(fù),是否有成熟的備案這是任何一個云廠商都要誠實面對的問題。

想要提升服務(wù)的可用性,需要從多個層面進行布局,例如機房布置、服務(wù)基礎(chǔ)架構(gòu)、運維自動化等,那么聲網(wǎng)具體是如何在實踐中保障RTE服務(wù)的高可用性,我們可以從四個層面展開來講:

一、SD-RTN™架構(gòu)設(shè)計:故障實時感知與智能調(diào)度、異地多活

業(yè)務(wù)架構(gòu):眾所周知,基礎(chǔ)設(shè)施會因為突發(fā)的網(wǎng)絡(luò)擁塞、硬件故障、不可抗力等因素導(dǎo)致或大或小的一段時間的不可用。在這樣的前提下,聲網(wǎng) SD-RTN™大網(wǎng)的架構(gòu)師團隊從設(shè)計之初就充分考慮到了基礎(chǔ)設(shè)施的不穩(wěn)定因素。如果要用幾個關(guān)鍵詞來描述 SD-RTN™,那就是全球覆蓋、故障實時感知與智能調(diào)度、超低延時、彈性能力、異地多活、超高并發(fā),而一旦基礎(chǔ)設(shè)施出現(xiàn)故障,SD-RTN™的故障實時感知與智能調(diào)度能力以及異地多活的構(gòu)建方式將發(fā)揮重要作用,保障服務(wù)的高可用。

1、故障實時感知與智能調(diào)度:從全球來看,公網(wǎng)網(wǎng)絡(luò)的波動是較為頻繁的,SD-RTN™的網(wǎng)絡(luò)嗅探服務(wù)能夠?qū)崟r的感知網(wǎng)絡(luò)的質(zhì)量,結(jié)合AI Ops(智能運維)的分析能力,能夠?qū)崿F(xiàn)分鐘級的用戶遷移,保障用戶的音視頻體驗。

2、異地多活:SD-RTN™大網(wǎng)將全球資源劃分為多個Region(區(qū)域),在Region內(nèi)依然能夠做到最低N+3(即:在最大的3個資源集群不可用的情況下,剩余的資源依然能夠承接當前Region的負載)資源冗余的要求,不僅如此,Region之間依然能夠形成互補的態(tài)勢,某個Region故障時,可以通過互補Region進行承接。

3、靈活的擴彈性縮容能力:SD-RTN™大網(wǎng)的每個Region至少具備200%的實時彈性擴縮容能力,具備應(yīng)對突發(fā)事件的能力,配合智能調(diào)度能夠充分合理的進行資源使用。

SDK:同時,在音視頻 SDK 側(cè)聲網(wǎng)也進行了大量的優(yōu)化工作,包括抗弱網(wǎng)優(yōu)化,音視頻體驗優(yōu)化等,形成和業(yè)務(wù)層進行"里應(yīng)外合"的局面,提升服務(wù)的可用性。

 

二、基礎(chǔ)設(shè)施層面:機房全球分布、五地三中心資源覆蓋

基礎(chǔ)資源選點: SD-RTN™ 在全球部署了250+數(shù)據(jù)中心,覆蓋全球200多個國家與地區(qū),對于主要區(qū)域的最低要求是五地三中心的資源覆蓋,每個區(qū)域采用核心節(jié)點+POP點的方式。這樣一旦某區(qū)域其中一個或兩個機房發(fā)生故障,依靠技術(shù)可以將故障城市的流量全部切換到運行正常的機房。

供應(yīng)鏈管理:不依賴單家供應(yīng)商的基礎(chǔ)資源(包括:機房、硬件、網(wǎng)絡(luò)等),當一家供應(yīng)商出現(xiàn)問題,可以快速切換到其他服務(wù)正常的供應(yīng)商。

 

三、智能運維,快速阻斷故障

如今行業(yè)都有一個共識,即運維復(fù)雜度在迅速增加,然而傳統(tǒng)運維已經(jīng)捉襟見肘,為此, 聲網(wǎng)投入了巨大的資源和人力,克服了 AI 工程化落地的難點,將智能運維全面應(yīng)用于 SD-RTN™的日常運維中,解決了傳統(tǒng)運維的痛點:7*24H 不間斷保障;高一致性和高質(zhì)量的執(zhí)行結(jié)果;統(tǒng)一高效的運維效率。

聲網(wǎng)的 AI Ops(智能運維)能在 1 min之內(nèi)(包含了數(shù)據(jù)聚合、上報、判斷、執(zhí)行、恢復(fù)等整體端到端時間)識別機房異常并且自動運維,,快速阻斷故障影響蔓延, 保障邊緣服務(wù)高可用。例如,邊緣節(jié)點的網(wǎng)絡(luò)擁塞是無法避免的, 在出現(xiàn)擁塞之后, 用戶的音視頻體驗會打折(卡頓, 延時增大),這種情況下經(jīng)驗豐富的運維人員在 daytime 時期從故障發(fā)現(xiàn)到處理平均要花費20分鐘, 如果故障發(fā)生在深夜或者處理不及時, 時間會更長, 這對用戶的體驗影響很大. 這時候 AI OPS的價值就體現(xiàn)出來了, 它能在2.5分鐘之內(nèi)識別并處理異常, 并且7*24不間斷高一致性地執(zhí)行, 以保障用戶高質(zhì)量的 RTC 體驗。

四、RTE行業(yè)首個體驗質(zhì)量標準-XLA

前面我們提到,SLA 是很多云廠商與電信行業(yè)對服務(wù)可用性的評判標準,但在聲網(wǎng)看來,SLA 對設(shè)備和網(wǎng)絡(luò)接入標準進行規(guī)范,關(guān)注的是服務(wù)的可用性。但是在 RTE 行業(yè),僅僅達到“可用”標準遠遠不夠,用戶渴望的是清晰流暢、沒有卡頓的音視頻互動,那么在實時互動體驗質(zhì)量上就必須達到“好用”的標準。對此,聲網(wǎng)在2020年7月設(shè)計定義并推出了實時互動行業(yè)首個體驗質(zhì)量標準-XLA (Experience Level Agreement),這也是為 RTE 服務(wù)的可用性與體驗質(zhì)量推出的首個可量化、可查證、可賠付的體驗質(zhì)量標準。

與 SLA 不同的是,XLA 不僅關(guān)心實時互動的可用性和服務(wù)質(zhì)量,還關(guān)注用戶的體驗質(zhì)量,同時這也是第一個將質(zhì)量保證焦點由設(shè)備轉(zhuǎn)移到人的標準。XLA 主要包含四項體驗指標,即5s登陸成功率、600ms 視頻卡頓率、200ms 音頻卡頓率和400ms 網(wǎng)絡(luò)延時達標率,四個指標的月度達標率(1-不達標切片總時長/月度總時長)均需超過 99.5%。5s 登錄成功率是指登錄成功耗時需小于5秒才算合格,這項指標主要考驗實時互動的可用性與等待體驗;600ms 視頻卡頓率與 200ms 音頻卡頓率主要考驗實時互動過程中流暢性體驗;400ms 的網(wǎng)絡(luò)延時指標面向音視頻互動的實時性,延時需低于 400ms。

 

通過 XLA,客戶可以獲得聲網(wǎng)對登陸成功率、端到端延時、音視頻卡頓率等多個維度的實時互動體驗質(zhì)量承諾和保證,不需要再去擔心終端用戶的體驗質(zhì)量問題,真正做到用的放心,用的稱心!

定義實時互動體驗質(zhì)量標準看似只是幾個指標,但實際背后承載了聲網(wǎng)團隊長期的付出。XLA 質(zhì)量標準的推出,是經(jīng)過上百名技術(shù)專家針對全鏈路數(shù)據(jù)反復(fù)打磨、改進、驗證,經(jīng)歷了10個版本的反復(fù)迭代,適配了50+網(wǎng)絡(luò)模型、200+國家與地區(qū)的優(yōu)化、6000+不同類型終端體驗的優(yōu)化以及全鏈路1萬億分鐘的數(shù)據(jù)打磨。這背后代表的也是聲網(wǎng)在實時互動云行業(yè)的長期深耕與積累。

 

責任編輯:趙立京 來源: 網(wǎng)絡(luò)
相關(guān)推薦

2015-09-14 11:29:53

2009-02-26 16:59:36

VMware虛擬化虛擬機

2017-08-24 17:05:06

2010-06-30 16:44:39

數(shù)據(jù)中心基礎(chǔ)設(shè)施可用性

2024-12-11 08:35:55

2012-07-04 11:21:07

OpenStack

2010-11-29 16:22:32

虛擬化高可用性

2013-08-28 10:30:39

vSphere

2020-07-29 08:30:48

微服務(wù)架構(gòu)數(shù)據(jù)

2024-02-27 09:48:25

Redis集群數(shù)據(jù)庫

2015-09-08 15:37:32

虛擬化虛擬基礎(chǔ)設(shè)施

2015-09-08 10:30:48

單點故障風險評估虛擬化

2024-08-13 15:42:19

2018-06-21 08:23:35

云存儲高可用應(yīng)用

2011-01-13 14:11:35

服務(wù)器集群DNS

2024-03-20 14:51:03

2012-09-04 13:43:31

SQL Server

2012-11-19 11:05:01

實時遷移高可用性虛擬機遷移

2022-05-17 15:51:32

數(shù)據(jù)中心運維能力基礎(chǔ)設(shè)施

2023-05-18 10:16:43

點贊
收藏

51CTO技術(shù)棧公眾號