自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

關(guān)于可觀測(cè)能力,阿里云的思考與實(shí)踐

原創(chuàng) 精選
云計(jì)算 云原生 運(yùn)維
可觀測(cè)讓云變得更易用

嘉賓丨周小帆

整理丨千山

審校 | 云昭

隨著云原生架構(gòu)開(kāi)始落地實(shí)踐,應(yīng)用架構(gòu)從單體系統(tǒng)逐步轉(zhuǎn)變?yōu)槲⒎?wù),越來(lái)越多企業(yè)意識(shí)到可觀測(cè)能力已經(jīng)成為云原生的基礎(chǔ)設(shè)施與必備能力。

那么,最近被頻頻提及的可觀測(cè)性,相比監(jiān)控、APM等名詞,區(qū)別在哪里?日前,51CTO特邀阿里云資深技術(shù)專(zhuān)家周小帆,圍繞可觀測(cè)技術(shù)的演進(jìn)等議題進(jìn)行了采訪。

51CTO:為什么需要可觀測(cè)性?它是云原生時(shí)代的必然產(chǎn)物嗎?

周小帆:可觀測(cè)性不是一個(gè)新鮮的名詞,云原生時(shí)代被再次提及是一個(gè)必然的結(jié)果。云原生架構(gòu)所倡導(dǎo)的微服務(wù)、DevOps模式,同時(shí)帶來(lái)了效率、可用性的提升與復(fù)雜度的增加,而增強(qiáng)可觀測(cè)性成了降低復(fù)雜度的唯一手段。傳統(tǒng)監(jiān)控手段僅僅能夠做到問(wèn)題被動(dòng)發(fā)現(xiàn),而可觀測(cè)性則要求不僅發(fā)現(xiàn)問(wèn)題,更對(duì)于問(wèn)題現(xiàn)象背后本質(zhì)給出明晰解釋??捎^測(cè)性背后指標(biāo)、日志、事件、鏈路數(shù)據(jù),以及診斷工具的結(jié)合使用,為事前預(yù)防、事中處理、事后復(fù)盤(pán)提供了重要決策依據(jù)??捎^測(cè)性是基礎(chǔ)設(shè)施自動(dòng)化的基石,優(yōu)秀的可觀測(cè)性是確保云原生紅利高效釋放的前提條件。

行業(yè)中時(shí)常會(huì)有“APM已死,可觀測(cè)已來(lái)”的論調(diào),我不太認(rèn)同。相反,我認(rèn)為APM的產(chǎn)品形態(tài)已經(jīng)是在傳統(tǒng)監(jiān)控基礎(chǔ)之上做到了”第一波進(jìn)化“,首次實(shí)現(xiàn)了可觀測(cè)三大支柱(指標(biāo)、鏈路、日志)在應(yīng)用層相互融合的最佳實(shí)踐。

云原生時(shí)代的可觀測(cè),是將APM產(chǎn)品中的一些經(jīng)典技術(shù)與理念,升級(jí)、延伸、泛化至整個(gè)云的技術(shù)架構(gòu)和組織,促進(jìn)更緊密的協(xié)同、覆蓋更多場(chǎng)景、發(fā)揮更大價(jià)值。企業(yè)數(shù)字化轉(zhuǎn)型讓業(yè)務(wù)成敗與IT基礎(chǔ)設(shè)施穩(wěn)定性關(guān)聯(lián)愈發(fā)緊密,業(yè)務(wù)在線化凸顯了用戶體驗(yàn)的重要性。正如其發(fā)展歷史,可觀測(cè)性不是一個(gè)新鮮概念,它原本就無(wú)處不在。而在云時(shí)代,隨著散落在各處的可觀測(cè)數(shù)據(jù)被不斷連接,小到問(wèn)題定位發(fā)現(xiàn),安全風(fēng)險(xiǎn)識(shí)別,大到全局成本管理、穩(wěn)定性治理甚至是業(yè)務(wù)增長(zhǎng),都依賴于可觀測(cè)技術(shù)和數(shù)據(jù),可觀測(cè)性成為了度量企業(yè)IT治理水平的重要指標(biāo)。

大家今天期望能夠得到的“可觀測(cè)產(chǎn)品”,實(shí)際上大部分是在上一代APM產(chǎn)品基礎(chǔ)之上的“第二波進(jìn)化”,他們需要具備海量可觀測(cè)數(shù)據(jù)的存算能力,以應(yīng)用為中心,向上關(guān)聯(lián)業(yè)務(wù)成敗與用戶體驗(yàn),向下覆蓋基礎(chǔ)設(shè)施與云服務(wù)監(jiān)控,一站式滿足除了IT穩(wěn)定性以外的多種核心訴求。

圖片

圖片

微服務(wù)下可觀測(cè)面臨的挑戰(zhàn)

51CTO:微服務(wù)下的可觀測(cè)能力建設(shè)有哪些難點(diǎn)?

周小帆:系統(tǒng)的可觀測(cè)與故障根因分析作為重要的運(yùn)維場(chǎng)景,隨著系統(tǒng)架構(gòu)、資源單位、資源獲取方式、通信方式演進(jìn)過(guò)程,遭遇巨大挑戰(zhàn)。而這些挑戰(zhàn),也在倒逼著可觀測(cè)相關(guān)技術(shù)發(fā)展,接下來(lái)我們以微服務(wù)舉例:

隨著Spring Cloud和Dubbo等常見(jiàn)微服務(wù)框架被廣泛應(yīng)用,微服務(wù)架構(gòu)接受程度不斷提升,由最初以機(jī)器為核心的云服務(wù)器ECS上云,到以容器為核心的容器化云原生部署;為了更加敏捷,開(kāi)始以應(yīng)用為核心的微服務(wù)化。在云原生下的微服務(wù)可觀測(cè)主要面臨三個(gè)挑戰(zhàn):

  • 發(fā)現(xiàn)難:從云服務(wù)器ECS到容器Kubernetes,微服務(wù)架構(gòu)復(fù)雜度提升,觀測(cè)對(duì)象復(fù)雜度提升,監(jiān)測(cè)數(shù)據(jù)覆蓋不全。
  • 定位難:隨著多種治理能力深入,可觀測(cè)要求高,服務(wù)框架復(fù)雜度增加,技術(shù)門(mén)檻提升,數(shù)據(jù)本身復(fù)雜度提升,數(shù)據(jù)關(guān)聯(lián)性差。
  • 協(xié)作差:隨著組織角色變化,可觀測(cè)不只是運(yùn)維工作。


除此之外,還有微服務(wù)配置混亂,不好梳理;微服務(wù)應(yīng)用上Kubernetes之后,出現(xiàn)線程池滿,卻找不到原因等一系列問(wèn)題。因此,微服務(wù)可觀測(cè)要解決在客戶端輸入請(qǐng)求后,能感知其在各服務(wù)間進(jìn)行采集、傳輸、處理、存儲(chǔ)的狀態(tài),進(jìn)而預(yù)測(cè)、定位、解決系統(tǒng)運(yùn)行過(guò)程中出現(xiàn)故障的問(wèn)題。而這些問(wèn)題,阿里巴巴在自身建設(shè)可觀測(cè)體系的過(guò)程中也都遭遇過(guò)。

圖片

阿里巴巴可觀測(cè)技術(shù)探索之路

51CTO:阿里內(nèi)部是基于什么訴求開(kāi)始構(gòu)建可觀測(cè)能力?經(jīng)歷過(guò)哪幾次重要的迭代?

周小帆:作為最早進(jìn)行云原生改造的互聯(lián)網(wǎng)企業(yè),阿里巴巴探索與實(shí)踐可觀測(cè)技術(shù)由來(lái)已久,并經(jīng)歷過(guò)以下幾個(gè)階段:

  • 第一代 – 一站式:脫胎于阿里巴巴「鷹眼」產(chǎn)品的應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS誕生,為企業(yè)提供應(yīng)用性能管理(APM)能力與前端監(jiān)控、云撥測(cè)等數(shù)字化體驗(yàn)(DEM)能力;
  • 第二代 – 連接應(yīng)用:與應(yīng)用托管與治理產(chǎn)品無(wú)縫集成,覆蓋觀測(cè)、安全、業(yè)務(wù)穩(wěn)定性等多個(gè)剛需場(chǎng)景。
  • 第三代 – 超越一站式:1+1+1>3,讓阿里云積累的可觀測(cè)技術(shù)、開(kāi)源可觀測(cè)事實(shí)標(biāo)準(zhǔn)、客戶存量與自研的可觀測(cè)數(shù)據(jù)資產(chǎn)做無(wú)縫融合,全面擁抱Prometheus、Grafana、Opentelemetry等開(kāi)源標(biāo)準(zhǔn),打造云原生時(shí)代完整可觀測(cè)數(shù)據(jù)生態(tài)與產(chǎn)品套件—阿里云可觀測(cè)套件。

第一代:脫胎于阿里巴巴「鷹眼」產(chǎn)品的應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS誕生
關(guān)鍵詞:從單體走向微服務(wù),自下而上的爆發(fā)式增長(zhǎng)

2013年,隨著阿里巴巴業(yè)務(wù)快速發(fā)展,應(yīng)用從單體走向微服務(wù),微服務(wù)體系催生出去中心化組織架構(gòu),產(chǎn)生自下而上的爆發(fā)式增長(zhǎng),并快速向DevOps模式演進(jìn),工程師們以自助模式向基礎(chǔ)軟件尋找更多答案。也是從這個(gè)階段開(kāi)始,監(jiān)控走向“可觀測(cè)”的暢想已初備雛形。統(tǒng)一PaaS層快速催生統(tǒng)一可觀測(cè)基礎(chǔ)設(shè)施,但微服務(wù)下的可觀測(cè)能力建設(shè)初期遇到以下兩個(gè)難點(diǎn):指標(biāo)基數(shù)發(fā)散、微服務(wù)拆分過(guò)細(xì)、埋點(diǎn)精度不斷上升等因素帶來(lái)的“單筆交易可觀測(cè)成本”的急劇上升;三代探針技術(shù)與管控體系演進(jìn)帶來(lái)的可觀測(cè)數(shù)據(jù)來(lái)源質(zhì)量問(wèn)題,以及大規(guī)模探針管控與穩(wěn)定性保障。

關(guān)鍵詞:業(yè)務(wù)中臺(tái)背后的數(shù)字化運(yùn)營(yíng),引領(lǐng)自上而下的穩(wěn)定性治理體系

與此同時(shí),隨著業(yè)務(wù)中臺(tái)誕生,為了更好的應(yīng)對(duì)季節(jié)性電商大促、多變的業(yè)務(wù)形態(tài),服務(wù)治理、混沌工程等產(chǎn)品誕生出來(lái),碎片化的可觀測(cè)能力逐漸被整合在一起,引領(lǐng)自上而下的穩(wěn)定性治理體系,構(gòu)建以業(yè)務(wù)SLO為核心的穩(wěn)定性治理體系。通過(guò)日志鏈路指標(biāo)和診斷工具的整合,阿里巴巴內(nèi)部APM產(chǎn)品的實(shí)用性得到大幅提升,被大家所熟知的「鷹眼」雛形初現(xiàn)。觀測(cè)能力和管控能力相融合:全鏈路灰度包括像全鏈路、灰度、全鏈路壓測(cè)、混沌工程這樣的復(fù)雜治理手段,包括像容量評(píng)估,微服務(wù)之間的強(qiáng)弱依賴評(píng)估這樣的分析場(chǎng)景,都充分集成到現(xiàn)有可觀測(cè)能力中。并在此階段以應(yīng)用為中心,以管控集成、領(lǐng)域知識(shí)積累為主,讓數(shù)據(jù)在一些封閉場(chǎng)景內(nèi)能夠?qū)崿F(xiàn)價(jià)值最大化。

2017年,阿里巴巴將內(nèi)部錘煉多年的監(jiān)控工具對(duì)外服務(wù),應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS正式商業(yè)化。作為云原生一體化可觀測(cè)性平臺(tái),ARMS提供全棧式性能監(jiān)控和端到端全鏈路追蹤診斷能力。同時(shí),結(jié)合阿里云日志服務(wù)SLS的日志數(shù)據(jù)分析能力以及云監(jiān)控豐富的云服務(wù)與基礎(chǔ)設(shè)施監(jiān)控能力,用戶可以輕松完成用戶體驗(yàn)、應(yīng)用服務(wù)、云產(chǎn)品、容器的一站式監(jiān)控。

第二代:與應(yīng)用托管與治理產(chǎn)品無(wú)縫集成,覆蓋觀測(cè)、安全、業(yè)務(wù)穩(wěn)定性等多個(gè)剛需場(chǎng)景

伴隨著企業(yè)加快數(shù)字化轉(zhuǎn)型步伐,導(dǎo)致IT系統(tǒng)更新頻繁,應(yīng)用復(fù)雜度急劇升高。微服務(wù)、容器化等技術(shù)也逐漸在傳統(tǒng)企業(yè)中興起,而云服務(wù)也成為企業(yè)大規(guī)模運(yùn)營(yíng)數(shù)字業(yè)務(wù)所必備的技術(shù)服務(wù)。以用戶體驗(yàn)為核心的應(yīng)用性能管理(APM)受到廣泛關(guān)注,并在幫助企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型及智能化運(yùn)維的道路上表現(xiàn)出巨大的價(jià)值。體驗(yàn)為王時(shí)代催生向上覆蓋業(yè)務(wù)連續(xù)性,向下連接基礎(chǔ)設(shè)施穩(wěn)定性的一體化可觀測(cè)產(chǎn)品形態(tài)。

為了進(jìn)一步提供更加完善的產(chǎn)品能力,繼2017年發(fā)布前端監(jiān)控,2021年阿里云推出云撥測(cè)產(chǎn)品。從用戶端角度來(lái)觀測(cè)系統(tǒng)可用性,為云上用戶提供開(kāi)箱即用的企業(yè)級(jí)被動(dòng)式及主動(dòng)撥測(cè)式應(yīng)用監(jiān)測(cè)解決方案,為用戶體驗(yàn)優(yōu)化提供堅(jiān)實(shí)、可靠的可觀測(cè)分析工具。

第三代:讓阿里云積累的可觀測(cè)技術(shù)、開(kāi)源可觀測(cè)事實(shí)標(biāo)準(zhǔn)、客戶存量與自研的可觀測(cè)數(shù)據(jù)資產(chǎn)做無(wú)縫融合

可觀測(cè)需求在云原生時(shí)代的爆發(fā)式增長(zhǎng),以及基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)化,使得可觀測(cè)開(kāi)源、商業(yè)化項(xiàng)目不斷涌現(xiàn),國(guó)內(nèi)可觀測(cè)市場(chǎng)心智逐步形成,Prometheus、Grafana、Opentelemetry等可觀測(cè)標(biāo)準(zhǔn)也逐漸形成。也正基于此,阿里云接連推出Prometheus監(jiān)控服務(wù)、Grafana服務(wù)等可觀測(cè)產(chǎn)品,并于6月推出阿里云可觀測(cè)套件ACOS,進(jìn)一步整合阿里云相關(guān)可觀測(cè)產(chǎn)品與場(chǎng)景,幫助企業(yè)提供更豐富、更完整的可觀測(cè)能力,同事大幅節(jié)省搭建可觀測(cè)系統(tǒng)的資源和運(yùn)維開(kāi)銷(xiāo)。

圖片



51CTO:目前使用阿里云可觀測(cè)產(chǎn)品套件的具體落地場(chǎng)景有哪些?

周小帆:得益于云原生開(kāi)源生態(tài)蓬勃發(fā)展,工程師可以輕而易舉地建設(shè)一套監(jiān)控體系,比如使用Prometheus+Grafana搭建基礎(chǔ)監(jiān)控,或使用SkyWalking或Jaeger搭建追蹤系統(tǒng),亦或使用ELK或Loki搭建日志系統(tǒng)??捎^測(cè)技術(shù)百花齊放,導(dǎo)致目前面臨最大問(wèn)題不在于功能缺失,而在于數(shù)據(jù)的割裂。對(duì)運(yùn)維團(tuán)隊(duì)而言,不同類(lèi)型可觀測(cè)數(shù)據(jù)分散存儲(chǔ)在不同后端,排查問(wèn)題仍需在多系統(tǒng)之間跳轉(zhuǎn),效率得不到保證。

今天的客戶,不得不在商業(yè)化可觀測(cè)產(chǎn)品、開(kāi)源自建與存量的可觀測(cè)資產(chǎn)之間做出艱難選擇。

解決這種割裂的方式有兩種,一種方式是打造全自研的一站式可觀測(cè)產(chǎn)品,替換客戶現(xiàn)有方案。但歷史實(shí)踐告訴我們,一站式的方案往往會(huì)形成另一座數(shù)據(jù)孤島。

因此,我們走了另一條道路:向下,提供標(biāo)準(zhǔn)化數(shù)據(jù)接口,整合阿里云上碎片化的可觀測(cè)產(chǎn)品,并做到可以連接客戶存量的可觀測(cè)數(shù)據(jù)資產(chǎn);向上,提供可自由定制的產(chǎn)品界面,幫助客戶形成自己獨(dú)有的、1+1+1>3、無(wú)廠商鎖定的可觀測(cè)解決方案。阿里云可觀測(cè)套件,從可觀測(cè)體系設(shè)計(jì)視角,全面滿足企業(yè)不同觀測(cè)場(chǎng)景:

  • 針對(duì)于基礎(chǔ)設(shè)施層

Prometheus監(jiān)控服務(wù)對(duì)包括云服務(wù)器ECS、容器Kubernetes、VPC在內(nèi)的各類(lèi)云服務(wù)以及消息隊(duì)列等三方中間件進(jìn)行觀測(cè)。并與各種云服務(wù)快速聯(lián)動(dòng),迅速進(jìn)行擴(kuò)縮容或負(fù)載均衡,從而更快的解決問(wèn)題。

  • 針對(duì)應(yīng)用層

基于阿里云自研Java探針的應(yīng)用監(jiān)控全面滿足應(yīng)用監(jiān)控需求。相較于開(kāi)源工具,在數(shù)據(jù)質(zhì)量、探針性能、分析能力等方面具有大幅強(qiáng)化。即使使用開(kāi)源SDK或探針,也可以通過(guò)Opentelemetry將數(shù)據(jù)上報(bào)到應(yīng)用監(jiān)控平臺(tái)。

  • 針對(duì)用戶體驗(yàn)層

過(guò)移動(dòng)監(jiān)控、前端監(jiān)控、云撥測(cè)等模塊,全面覆蓋用戶在不同終端上的體驗(yàn)與性能。

  • 統(tǒng)一告警與管理

于各層采集的數(shù)據(jù)、告警信息進(jìn)行統(tǒng)一告警以及根因分析,直接通過(guò)Insight呈現(xiàn)發(fā)現(xiàn)結(jié)果。并集成釘釘、企業(yè)微信等協(xié)作平臺(tái)更加高效地進(jìn)行問(wèn)題發(fā)現(xiàn)并處理跟蹤。

  • 統(tǒng)一界面

不管是應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS、Prometheus監(jiān)控的上報(bào)數(shù)據(jù),還是日志服務(wù)、Elasticsearch、MongoDB等各種數(shù)據(jù)源,都可以通過(guò)全托管Grafana服務(wù)進(jìn)行統(tǒng)一的數(shù)據(jù)可觀測(cè)數(shù)據(jù)呈現(xiàn),建立統(tǒng)一的監(jiān)控大盤(pán)。

圖片

阿里云對(duì)可觀測(cè)領(lǐng)域的思考

51CTO:阿里云可觀測(cè)產(chǎn)品相較市場(chǎng)上的同類(lèi)產(chǎn)品,首創(chuàng)性和差異化優(yōu)勢(shì)在哪里?

周小帆:Gartner曾預(yù)測(cè),2023年全球可觀測(cè)市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到164.94億美元。2024年將有30%企業(yè)會(huì)通過(guò)可觀測(cè)技術(shù)來(lái)提升數(shù)字化業(yè)務(wù)運(yùn)行性能。熱潮之下,不管是老牌廠商、初創(chuàng)公司都在可觀測(cè)領(lǐng)域迸發(fā)出強(qiáng)勁的產(chǎn)品能力。相較市場(chǎng)上的同類(lèi)產(chǎn)品,阿里云也有著自己思考與差異化優(yōu)勢(shì)。與眾多第三方服務(wù)或開(kāi)源自建方案不同,阿里云可觀測(cè)套件實(shí)現(xiàn)多層次連接,全面打破數(shù)據(jù)孤島,挖掘數(shù)據(jù)背后的業(yè)務(wù)價(jià)值。

第一,向上形成兼容開(kāi)源標(biāo)準(zhǔn)的統(tǒng)一觀測(cè)界面

與應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS的應(yīng)用層監(jiān)控(APM)、前端體驗(yàn)監(jiān)控(RUM)、基于eBPF技術(shù)的K8s監(jiān)控、云監(jiān)控等阿里云自研可觀測(cè)產(chǎn)品雙向連接,將可觀測(cè)數(shù)據(jù)與分析能力以開(kāi)放標(biāo)準(zhǔn)(PromQL)、統(tǒng)一開(kāi)放界面(Grafana)的形式提供給用戶,便于用戶的再集成與二次加工。ARMS也全面支持OpenTelemetry SDK進(jìn)行自定義埋點(diǎn)的增強(qiáng)。

第二,向下連接阿里云可觀測(cè)數(shù)據(jù)存儲(chǔ)類(lèi)產(chǎn)品

統(tǒng)一諸如日志服務(wù)SLS、Elasticsearch服務(wù)等可觀測(cè)數(shù)據(jù)存儲(chǔ),以及散落在異構(gòu)數(shù)據(jù)存儲(chǔ)設(shè)施中(如Clickhouse、Lindorm、RDS)的可觀測(cè)數(shù)據(jù),實(shí)現(xiàn)可觀測(cè)數(shù)據(jù)源管理與異構(gòu)數(shù)據(jù)間無(wú)縫探索。

第三,橫向連接阿里云所有應(yīng)用管控產(chǎn)品與中間件產(chǎn)品

阿里云所有應(yīng)用管控(Serverless應(yīng)用引擎SAE、容器服務(wù)ACK、函數(shù)計(jì)算FC、企業(yè)級(jí)分布式應(yīng)用服務(wù)EDAS等)與中間件產(chǎn)品全面擁抱開(kāi)源可觀測(cè)標(biāo)準(zhǔn),并與可觀測(cè)套件進(jìn)行連接。目前,已有超過(guò)50款阿里云云服務(wù)通過(guò)Prometheus標(biāo)準(zhǔn)進(jìn)行觀測(cè)。

第四、全面擁抱開(kāi)源

阿里云作為國(guó)內(nèi)可觀測(cè)領(lǐng)域的引領(lǐng)者,積極擁抱開(kāi)源生態(tài),提供Prometheus監(jiān)控服務(wù)、Grafana服務(wù)、兼容OpenTelemetry、Skywalking等主流開(kāi)源協(xié)議的鏈路追蹤服務(wù),共同形成新一代阿里云可觀測(cè)套件。使用標(biāo)準(zhǔn)化技術(shù)向下連接存量、碎片化可觀測(cè)數(shù)據(jù),向上幫助客戶形成自己獨(dú)有、無(wú)廠商鎖定的可觀測(cè)解決方案,實(shí)現(xiàn)真正的客戶成功。

第五、打造可觀測(cè)數(shù)據(jù)生態(tài)

自2017年與Elastic公司合作打造Elasticserach服務(wù)后,阿里云先后與Grafana Labs、博睿數(shù)據(jù)、諧云、袋鼠云等企業(yè)達(dá)成戰(zhàn)略合作,與阿里云自研可觀測(cè)體系無(wú)縫集成,把引領(lǐng)業(yè)界標(biāo)準(zhǔn)的優(yōu)秀產(chǎn)品與技術(shù)服務(wù)帶給阿里云的海量客戶,提供更豐富、優(yōu)質(zhì)、低門(mén)檻的可觀測(cè)服務(wù)與能力。


51CTO:能否結(jié)合具體用戶案例對(duì)于阿里云可觀測(cè)產(chǎn)品的部署和實(shí)踐效果予以說(shuō)明。

周小帆:以2022年北京冬奧會(huì)舉例,作為歷史上第一屆核心系統(tǒng)全面上云的奧運(yùn)會(huì)。依托阿里云的政務(wù)云與公有云的40多款產(chǎn)品與服務(wù),實(shí)現(xiàn)冬奧會(huì)官方App冬奧通、新聞發(fā)布會(huì)系統(tǒng)、比賽記時(shí)記分系統(tǒng)、運(yùn)動(dòng)員評(píng)論系統(tǒng)等30+應(yīng)用全面上云。為了對(duì)云上資源進(jìn)行多維度采集與觀測(cè),滿足北京冬奧會(huì)賽事期間現(xiàn)場(chǎng)值班人員對(duì)云上資源整體運(yùn)行風(fēng)險(xiǎn)的提前預(yù)知,以及故障時(shí)快速定位、診斷問(wèn)題需求。阿里云依據(jù)冬奧組委業(yè)務(wù)特點(diǎn),從三個(gè)層次對(duì)觀測(cè)指標(biāo)進(jìn)行選?。?/span>

  • 應(yīng)用層監(jiān)控
    服務(wù)每秒接收的請(qǐng)求數(shù)、每個(gè)請(qǐng)求的耗時(shí)、失敗的請(qǐng)求數(shù)等應(yīng)用層技術(shù)參數(shù)。
  • 基礎(chǔ)資源監(jiān)控
    云服務(wù)器ECS CPU利用率、內(nèi)存利用率、磁盤(pán)空間,POD CPU利用率、內(nèi)存利用率、磁盤(pán)空間,RDS CPU使用率、內(nèi)存使用率、IOPS使用率、磁盤(pán)空間,Redis CPU使用率、內(nèi)存使用率, CSG前端讀寫(xiě)速率、共享緩存使用率、用戶態(tài)空間使用率、Trottling狀態(tài)。
  • 網(wǎng)絡(luò)層監(jiān)控
    帶寬情況、活躍連接數(shù)、限速丟包率、專(zhuān)線健康檢查丟包率等核心網(wǎng)絡(luò)參數(shù)。

基于以上需求,冬奧組委選擇阿里云可觀測(cè)套件來(lái)構(gòu)建整個(gè)可觀測(cè)體系。北京冬奧組委業(yè)務(wù)系統(tǒng)分為生產(chǎn)環(huán)境和測(cè)試環(huán)境,重點(diǎn)對(duì)生產(chǎn)環(huán)境進(jìn)行監(jiān)控。在構(gòu)建信息系統(tǒng)總體監(jiān)控大盤(pán)時(shí),首先基于Tag編寫(xiě)PromSQL語(yǔ)法提取出生產(chǎn)環(huán)境的資源;同時(shí)考慮到ECS、RDS、Redis、SLB等資源數(shù)量很多,再重點(diǎn)對(duì)TOP 10資源使用情況進(jìn)行觀測(cè)以便更好的發(fā)現(xiàn)風(fēng)險(xiǎn),提升服務(wù)的可用性。同時(shí),對(duì)于北京冬奧會(huì)賽事運(yùn)行期間重要的業(yè)務(wù)系統(tǒng),像成績(jī)系統(tǒng)、評(píng)論員解說(shuō)系統(tǒng)等每個(gè)關(guān)鍵信息系統(tǒng)都構(gòu)建單獨(dú)Grafana監(jiān)控大盤(pán)。對(duì)SLB流量、QPS使用率、HTTP請(qǐng)求不同返回狀態(tài)碼重點(diǎn)監(jiān)控。

由于冬奧通后臺(tái)應(yīng)用為Java系微服務(wù)架構(gòu),且包含近千個(gè)Kubernetes Deployment應(yīng)用實(shí)例,為了更好對(duì)容器服務(wù)集群及其上面運(yùn)行的應(yīng)用進(jìn)行一體化監(jiān)控,冬奧組委基于應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS的Prometheus構(gòu)建容器集群監(jiān)控大盤(pán)。在同一張大盤(pán)上看到多個(gè)數(shù)據(jù)源,包括集群事件日志、基于ebpf無(wú)侵入式的應(yīng)用指標(biāo)、網(wǎng)絡(luò)指標(biāo)等。冬奧組委通過(guò)一張大盤(pán)的關(guān)聯(lián)分析邏輯,從總覽到細(xì)節(jié),通過(guò)多數(shù)據(jù)源、多角度的可觀測(cè)能力進(jìn)行不同維度的排查。

圖片

基于阿里云可觀測(cè)套件,冬奧組委在最短時(shí)間內(nèi)快速搭建一套完整的可觀測(cè)體系,為奧林匹克國(guó)際官網(wǎng)、奧林匹克頻道OCS、奧林匹克廣播服務(wù)公司OBS等,涵蓋比賽場(chǎng)館票務(wù)、新聞發(fā)布會(huì)系統(tǒng)、冬奧會(huì)官方App冬奧通、廣播數(shù)據(jù)推送、自動(dòng)化媒體標(biāo)注、國(guó)際實(shí)時(shí)信號(hào)轉(zhuǎn)播、數(shù)據(jù)倉(cāng)庫(kù)、人員抵離ADS、網(wǎng)約車(chē)出行RHP等眾多業(yè)務(wù)場(chǎng)景保駕護(hù)航,保障北京冬奧會(huì)順利舉辦。

在歷經(jīng)全球級(jí)項(xiàng)目大考之外,阿里云可觀測(cè)產(chǎn)品矩陣憑借其完備的功能、良好的生態(tài)集成能力以及出色的成本優(yōu)勢(shì),收獲了行業(yè)的認(rèn)可。阿里云應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)ARMS在今年獲得了中國(guó)信通院的可觀測(cè)產(chǎn)品先進(jìn)級(jí)認(rèn)證,阿里云連續(xù)兩年進(jìn)入Gartner APM與可觀測(cè)魔力象限,今年更是成為了唯一入選的中國(guó)企業(yè)。在Forrester的容器、Serverless產(chǎn)品能力評(píng)測(cè)中,可觀測(cè)相關(guān)的產(chǎn)品能力分?jǐn)?shù)也得到了滿分認(rèn)證。

圖片

可觀測(cè)領(lǐng)域七大技術(shù)與應(yīng)用趨勢(shì)

51CTO:可觀測(cè)能力將來(lái)有標(biāo)準(zhǔn)化的可能嗎?從監(jiān)控到可觀測(cè)性,運(yùn)維轉(zhuǎn)型的整體趨向呈現(xiàn)什么樣的態(tài)勢(shì)?

周小帆:在可預(yù)見(jiàn)的未來(lái),可觀測(cè)領(lǐng)域?qū)⑿纬梢欢ㄒ饬x的標(biāo)準(zhǔn)化。各大廠商、開(kāi)源項(xiàng)目都在推進(jìn)標(biāo)準(zhǔn)的統(tǒng)一。首先是指標(biāo),Prometheus作為云原生時(shí)代指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)已經(jīng)形成共識(shí);鏈路標(biāo)準(zhǔn)也隨著OpenTracing和OpenTelemetry的推行而逐漸占據(jù)主流;在日志領(lǐng)域,雖然其數(shù)據(jù)結(jié)構(gòu)化程度較低難以形成數(shù)據(jù)標(biāo)準(zhǔn),但采集存儲(chǔ)分析側(cè)涌現(xiàn)出Fluentd、Loki等開(kāi)源新秀;另一方面,Grafana作為可觀測(cè)數(shù)據(jù)展示標(biāo)準(zhǔn)也愈加明朗。但標(biāo)準(zhǔn)雖然統(tǒng)一,但我們也要看到基于統(tǒng)一標(biāo)準(zhǔn)的開(kāi)源撕裂程度比想象得更為慘烈。

同時(shí),在標(biāo)準(zhǔn)化之外,我們看到可觀測(cè)領(lǐng)域可預(yù)見(jiàn)的七大技術(shù)與應(yīng)用趨勢(shì):

  • 構(gòu)建以應(yīng)用為中心的觀測(cè)視角:以應(yīng)用為單位關(guān)聯(lián)指標(biāo)、鏈路與日志。利用逐漸成熟的eBPF探針技術(shù)快速實(shí)現(xiàn)全局應(yīng)用可觀測(cè),無(wú)侵入應(yīng)用探針為主 + OpenTelemetry為輔實(shí)現(xiàn)代碼級(jí)可觀測(cè)能力。
  • 聚焦業(yè)務(wù)成敗與用戶體驗(yàn):精準(zhǔn)度量用戶體驗(yàn),關(guān)聯(lián)業(yè)務(wù)成敗。前后端可觀測(cè)數(shù)據(jù)打通,實(shí)現(xiàn)業(yè)務(wù)全鏈路快速問(wèn)題定位。
  • 連接應(yīng)用管控鏈路:與運(yùn)維變更管控體系緊密銜接,實(shí)現(xiàn)監(jiān)-管-控一體化能力。融合安全治理與可觀測(cè)技術(shù),全面降低IT風(fēng)險(xiǎn)。集成混沌工程、性能測(cè)試,數(shù)據(jù)驅(qū)動(dòng)穩(wěn)定性治理常態(tài)化。
  • 打破部門(mén)墻,建立高效協(xié)同機(jī)制:建設(shè)以SLO驅(qū)動(dòng)的應(yīng)急響應(yīng)體系,引入ChatOps機(jī)制,實(shí)現(xiàn)去中心化協(xié)同。借助數(shù)據(jù)標(biāo)簽體系快速構(gòu)建團(tuán)隊(duì)及個(gè)人可觀測(cè)視圖。
  • 標(biāo)準(zhǔn)化指標(biāo)監(jiān)測(cè)體系建設(shè):圍繞Prometheus生態(tài)構(gòu)建新一代可觀測(cè)基礎(chǔ)設(shè)施,擁抱分布式云架構(gòu),建設(shè)全局指標(biāo)監(jiān)控體系。聚焦指標(biāo)質(zhì)量而非數(shù)量,持續(xù)治理監(jiān)控體系的有效性。
  • 統(tǒng)一可觀測(cè)界面:“Unify your data, not your database”,借力Grafana可視化體系實(shí)現(xiàn)異構(gòu)存儲(chǔ)的統(tǒng)一呈現(xiàn)。

展望未來(lái),阿里云認(rèn)為“觀測(cè)力”將成為云計(jì)算時(shí)代每個(gè)工程師的核心競(jìng)爭(zhēng)力。阿里云上越來(lái)越多云服務(wù)通過(guò)主流開(kāi)源標(biāo)準(zhǔn)將自身運(yùn)行狀態(tài)充分白盒化,更好地被云服務(wù)使用者集成。工程師們將逐步采納Monitoring as code的方式,實(shí)現(xiàn)可觀測(cè)左移。相比以往,可觀測(cè)能力構(gòu)建將成為編寫(xiě)業(yè)務(wù)邏輯與實(shí)施運(yùn)維自動(dòng)化的關(guān)鍵環(huán)節(jié)。

作為管理者,通過(guò)可觀測(cè)技術(shù)輔助研發(fā)運(yùn)維的效能管理、IT成本分析將逐漸成為必備技能;同時(shí)管理者也會(huì)逐步借力可觀測(cè)數(shù)據(jù),數(shù)字化驅(qū)動(dòng)團(tuán)隊(duì)成員之間的協(xié)作與溝通,以及用于識(shí)別企業(yè)安全風(fēng)險(xiǎn)。

萬(wàn)物皆可云的時(shí)代,可觀測(cè)性讓云變得更易用??捎^測(cè)的巨大價(jià)值正在逐步兌現(xiàn),我們從監(jiān)控走進(jìn)可觀測(cè),但不僅僅止步于觀測(cè),分析、洞察并實(shí)現(xiàn)高質(zhì)量的決策與業(yè)務(wù)創(chuàng)新才是觀測(cè)的最終目的,阿里云也將不斷提供這個(gè)領(lǐng)域優(yōu)質(zhì)的產(chǎn)品與服務(wù)。

嘉賓介紹

周小帆,阿里云資深技術(shù)專(zhuān)家,目前就職于阿里云云原生應(yīng)用平臺(tái),負(fù)責(zé)阿里集團(tuán)APM系統(tǒng)鷹眼(EagleEye)與阿里云應(yīng)用實(shí)時(shí)監(jiān)控服務(wù)(ARMS)等技術(shù)產(chǎn)品。在可觀測(cè)相關(guān)領(lǐng)域有超過(guò)九年的實(shí)戰(zhàn)經(jīng)歷,在分布式鏈路追蹤、日志處理平臺(tái)和監(jiān)控告警系統(tǒng)的建設(shè)與應(yīng)用有豐富經(jīng)驗(yàn)。其他技術(shù)相關(guān)的經(jīng)驗(yàn)包含微服務(wù)治理、分布式數(shù)據(jù)處理、應(yīng)用PaaS等。

欄目介紹

“T前線”是51CTO內(nèi)容中心專(zhuān)為技術(shù)人物開(kāi)設(shè)的深度訪談欄目之一,通過(guò)邀請(qǐng)技術(shù)界內(nèi)的業(yè)務(wù)負(fù)責(zé)人、資深架構(gòu)師、資深技術(shù)專(zhuān)家等對(duì)當(dāng)下的技術(shù)熱點(diǎn)、技術(shù)實(shí)踐和技術(shù)趨勢(shì)進(jìn)行深度的解讀和洞察,推動(dòng)前沿科技的傳播與發(fā)展。

責(zé)任編輯:張潔 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2021-11-19 09:40:50

數(shù)據(jù)技術(shù)實(shí)踐

2022-06-22 16:31:26

阿里云數(shù)字化轉(zhuǎn)型云原生

2023-10-26 08:47:30

云原生數(shù)據(jù)采集

2023-09-20 16:11:32

云原生分布式系統(tǒng)

2025-02-13 07:42:35

2022-07-13 08:45:29

云原生容器網(wǎng)絡(luò)

2020-05-19 08:52:31

APP滲透測(cè)試終端安全

2022-08-23 08:21:13

數(shù)據(jù)庫(kù)AIOPS工具

2024-03-07 08:57:25

GaussDBOracle模型

2021-05-24 15:48:38

高德打車(chē)系統(tǒng)可觀測(cè)性

2023-08-07 08:48:13

2022-05-27 11:46:48

技術(shù)能力思考

2024-09-10 09:36:26

2015-12-28 16:35:36

UCloud

2023-01-18 07:58:54

云原生數(shù)據(jù)采集
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)