自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Gartner APM 魔力象限技術(shù)解讀——全量存儲?No! 按需存儲?YES

開發(fā)
調(diào)用鏈記錄了完整的請求狀態(tài)及流轉(zhuǎn)信息,是一座巨大的數(shù)據(jù)寶庫。但是,其龐大的數(shù)據(jù)量帶來的成本及性能問題是每個實(shí)際應(yīng)用 Tracing 同學(xué)繞不開的難題。如何以最低的成本,按需記錄最有價值的鏈路及其關(guān)聯(lián)數(shù)據(jù),是本文探討的主要話題。 核心關(guān)鍵詞是:邊緣計(jì)算 + 冷熱數(shù)據(jù)分離。

 調(diào)用鏈記錄了完整的請求狀態(tài)及流轉(zhuǎn)信息,是一座巨大的數(shù)據(jù)寶庫。但是,其龐大的數(shù)據(jù)量帶來的成本及性能問題是每個實(shí)際應(yīng)用 Tracing 同學(xué)繞不開的難題。如何以最低的成本,按需記錄最有價值的鏈路及其關(guān)聯(lián)數(shù)據(jù),是本文探討的主要話題。 核心關(guān)鍵詞是:邊緣計(jì)算 + 冷熱數(shù)據(jù)分離。 如果你正面臨全量存儲調(diào)用鏈成本過高,而采樣后查不到數(shù)據(jù)或圖表不準(zhǔn)等問題,請耐心讀完本文,相信會給你帶來一些啟發(fā)。

邊緣計(jì)算,記錄更有價值的數(shù)據(jù)

邊緣計(jì)算,顧名思義就是在邊緣節(jié)點(diǎn)進(jìn)行數(shù)據(jù)計(jì)算,趕時髦的話也可以稱之為“計(jì)算左移”。在網(wǎng)絡(luò)帶寬受限,傳輸開銷與全局?jǐn)?shù)據(jù)熱點(diǎn)難以解決的背景下, 邊緣計(jì)算是尋求成本與價值平衡最優(yōu)解的一種有效方法。

Tracing 領(lǐng)域最常用的邊緣計(jì)算就是在用戶進(jìn)程內(nèi)進(jìn)行數(shù)據(jù)過濾和分析。而在公有云環(huán)境,用戶集群或?qū)S芯W(wǎng)絡(luò)內(nèi)部的數(shù)據(jù)加工也屬于邊緣計(jì)算,這樣可以節(jié)省大量的公網(wǎng)傳輸開銷,并分散全局?jǐn)?shù)據(jù)計(jì)算的壓力。

此外,從數(shù)據(jù)層面看,邊緣計(jì)算一方面可以篩選出更有價值的數(shù)據(jù),另一方面可以通過加工提煉數(shù)據(jù)的深層價值,以最小的成本記錄最有價值的數(shù)據(jù)。

篩選更有價值的數(shù)據(jù)

鏈路數(shù)據(jù)的價值分布是不均勻的。 據(jù)不完全統(tǒng)計(jì),調(diào)用鏈的實(shí)際查詢率小于百萬分之一。全量存儲數(shù)據(jù)不僅會造成巨大的成本浪費(fèi),也會顯著影響整條數(shù)據(jù)鏈路的性能及穩(wěn)定性。如下列舉兩種常見的篩選策略。

基于鏈路數(shù)據(jù)特征進(jìn)行調(diào)用鏈采樣上報(bào)(Tag-based Sampling)。 比如錯/慢調(diào)用全采,特定服務(wù)每秒前N次采樣,特定業(yè)務(wù)場景自定義采樣等。下圖展示了阿里云 ARMS 自定義采樣配置頁面,用戶可以根據(jù)自身需要自由定制存儲策略,實(shí)際存儲成本通常小于原始數(shù)據(jù)的 5%。

異常場景下自動保留關(guān)聯(lián)數(shù)據(jù)現(xiàn)場。 我們在診斷問題根因時,除了調(diào)用鏈之外,還需要結(jié)合日志、異常堆棧、本地方法耗時、內(nèi)存快照等關(guān)聯(lián)信息進(jìn)行綜合判斷。如果每一次請求的關(guān)聯(lián)信息全都記錄下來,大概率會造成系統(tǒng)的崩潰。因此, 能否通過邊緣計(jì)算自動保留異常場景下的快照現(xiàn)場是衡量 Tracing 產(chǎn)品優(yōu)劣的重要標(biāo)準(zhǔn)之一。 如下圖所示,阿里云 ARMS 產(chǎn)品提供了慢調(diào)用線程剖析,內(nèi)存異常 HeapDump 等能力。


無論哪種篩選策略,其核心思想都是 通過邊緣節(jié)點(diǎn)的數(shù)據(jù)計(jì)算,丟棄無用或低價值數(shù)據(jù),保留異常現(xiàn)場或滿足特定條件的高價值數(shù)據(jù)。 這種基于數(shù)據(jù)價值的選擇性上報(bào)策略性價比遠(yuǎn)高于全量數(shù)據(jù)上報(bào),未來可能會成為 Tracing 的主流趨勢。

提煉數(shù)據(jù)價值

除了數(shù)據(jù)篩選,在邊緣節(jié)點(diǎn)進(jìn)行數(shù)據(jù)加工,比如預(yù)聚合和壓縮,同樣可以在滿足用戶需求的前提下,有效節(jié)省傳輸和存儲成本。

預(yù)聚合統(tǒng)計(jì):在客戶端進(jìn)行預(yù)聚合的最大好處, 就是在不損失數(shù)據(jù)精度的同時大幅減少數(shù)據(jù)上報(bào)量。 比如,對調(diào)用鏈進(jìn)行 1% 采樣后,仍然可以提供精準(zhǔn)的服務(wù)概覽/上下游等監(jiān)控告警能力。
數(shù)據(jù)壓縮:對重復(fù)出現(xiàn)的長文本(如異常堆棧,SQL 語句)進(jìn)行壓縮編碼,也可以有效降低網(wǎng)絡(luò)開銷。結(jié)合非關(guān)鍵字段模糊化處理效果更佳。

冷熱數(shù)據(jù)分離,低成本滿足個性化的后聚合分析需求

邊緣計(jì)算可以滿足大部分預(yù)聚合分析場景,但是無法滿足多樣化的后聚合分析需求,比如某個業(yè)務(wù)需要統(tǒng)計(jì)耗時大于3秒的接口及來源分布,這種個性化的后聚合分析規(guī)則是無法窮舉的。而當(dāng)我們無法預(yù)先定義分析規(guī)則時,貌似就只能采用成本極高的全量原始數(shù)據(jù)存儲。難道就沒有優(yōu)化的空間么?答案是有的,接下來我們就介紹一種低成本解決后聚合分析問題的方案——冷熱數(shù)據(jù)分離。

冷熱數(shù)據(jù)分離方案簡述

冷熱數(shù)據(jù)分離的價值基礎(chǔ)在于用戶的查詢行為滿足時間上的局部性原理。 簡單理解就是,最近的數(shù)據(jù)最常被查詢,冷數(shù)據(jù)查詢概率較小。例如,由于問題診斷的時效性,50% 以上的鏈路查詢分析發(fā)生在 30分鐘內(nèi),7天之后的鏈路查詢通常集中在錯慢調(diào)用鏈。理論基礎(chǔ)成立,接下來討論如何實(shí)現(xiàn)冷熱數(shù)據(jù)分離。

首先,熱數(shù)據(jù)存在時效性,如果只需記錄最近一段時間內(nèi)的熱數(shù)據(jù),對于存儲空間的要求就會下降很多。另外,在公有云環(huán)境下,不同用戶的數(shù)據(jù)天然具備隔離性。因此,在用戶 VPC 內(nèi)部的熱數(shù)據(jù)計(jì)算和存儲方案就具備更優(yōu)的性價比。

其次,冷數(shù)據(jù)的查詢具備指向性,可以通過不同的采樣策略篩選出滿足診斷需求的冷數(shù)據(jù)進(jìn)行持久化存儲。例如錯慢采樣,特定業(yè)務(wù)場景采樣等。由于冷數(shù)據(jù)存儲周期較長,對穩(wěn)定性要求較高,可以考慮在 Region 內(nèi)統(tǒng)一管理。

綜上所述,熱數(shù)據(jù)存儲周期短,成本低,但可以滿足實(shí)時全量后聚合分析需求;而冷數(shù)據(jù)經(jīng)過精準(zhǔn)采樣后數(shù)據(jù)總量大幅下降,通常只有原始數(shù)據(jù)量的 1% ~10%,并可以滿足大多數(shù)場景的診斷訴求。兩相結(jié)合,實(shí)現(xiàn)了成本與體驗(yàn)的平衡最優(yōu)解。國內(nèi)外領(lǐng)先的 APM 產(chǎn)品,如 ARMS、Datadog、Lightstep 均采用了冷熱數(shù)據(jù)分離的存儲方案。

熱數(shù)據(jù)實(shí)時全量分析

鏈路明細(xì)數(shù)據(jù)包含了最完整最豐富的的調(diào)用信息,APM 領(lǐng)域最常用的服務(wù)面板、上下游依賴、應(yīng)用拓?fù)涞纫晥D均是基于鏈路明細(xì)數(shù)據(jù)統(tǒng)計(jì)得出。基于鏈路明細(xì)數(shù)據(jù)的后聚合分析可以根據(jù)用戶個性化需求更有效的定位問題。但是,后聚合分析的最大挑戰(zhàn)是要基于全量數(shù)據(jù)進(jìn)行統(tǒng)計(jì),否則會出現(xiàn)樣本傾斜導(dǎo)致最終結(jié)論離實(shí)際相差甚遠(yuǎn)。

阿里云 ARMS 作為 2021 年 Gartner APM 魔力象限中國唯一入選云廠商,提供了 30分鐘內(nèi)熱數(shù)據(jù)全量分析的能力,可以實(shí)現(xiàn)各種條件組合下的過濾與聚合,如下圖所示:

冷數(shù)據(jù)持久化采樣分析

全量調(diào)用鏈的持久化存儲成本非常高,而前文提到 30分鐘后調(diào)用鏈的實(shí)際查詢率不足百萬分之一,并且大多數(shù)的查詢集中在錯慢調(diào)用鏈,或滿足特定業(yè)務(wù)特征的鏈路,相信經(jīng)常排查鏈路問題的同學(xué)會有同感。因此,我們應(yīng)該只保留少量滿足精準(zhǔn)采樣規(guī)則的調(diào)用鏈,從而極大的節(jié)省冷數(shù)據(jù)持久化存儲成本。

那么精準(zhǔn)采樣應(yīng)該如何實(shí)現(xiàn)呢?業(yè)界常用的方法主要分為頭部采樣(Head-based Sampling)和尾部采樣(Tail-based Sampling)兩種。頭部采樣一般在客戶端 Agent 等邊緣節(jié)點(diǎn)進(jìn)行,例如根據(jù)接口服務(wù)進(jìn)行限流采樣或固定比例采樣;而尾部采樣通?;谌繜釘?shù)據(jù)進(jìn)行過濾,如錯慢全采等。

最理想的采樣策略應(yīng)該只存儲真正需要查詢的數(shù)據(jù),APM 產(chǎn)品需要提供靈活的采樣策略配置能力與最佳實(shí)踐,用戶結(jié)合自身業(yè)務(wù)場景進(jìn)行自適應(yīng)的調(diào)整。

結(jié)語

當(dāng)越來越多的企業(yè)和應(yīng)用上云,公有云集群規(guī)模爆發(fā)式增長,“成本”將是企業(yè)用云的關(guān)鍵衡量因素。而在云原生時代,充分利用邊緣節(jié)點(diǎn)的計(jì)算和存儲能力,結(jié)合冷熱數(shù)據(jù)分離實(shí)現(xiàn)高性價比的數(shù)據(jù)價值探索已經(jīng)逐漸成為 APM 領(lǐng)域的主流。全量數(shù)據(jù)上報(bào)、存儲、再分析這種傳統(tǒng)方案將面臨越來越大的挑戰(zhàn)。未來會如何,讓我們拭目以待。

推薦產(chǎn)品

阿里云 ARMS —— 2021 年 Gartner APM 魔力象限中國唯一入選云廠商
Tracing Analysis —— 兼容 OpenTelemetry 規(guī)范,支持 7 種開發(fā)語言

責(zé)任編輯:梁菲 來源: 阿里云云棲號
相關(guān)推薦

2013-12-03 09:22:23

Gartner應(yīng)用交付魔力象限

2014-12-05 10:04:06

華為存儲

2014-11-06 10:00:46

Gartner

2015-10-26 22:14:25

存儲Gartner華為

2015-07-21 17:46:32

戴爾

2020-12-03 19:43:27

存儲

2015-11-24 10:48:43

戴爾云計(jì)算

2014-03-06 09:42:25

無線技術(shù)802.11ac

2019-03-26 15:25:50

DynatraceGartnerAPM

2016-11-04 17:17:25

華為存儲

2017-08-08 17:23:06

云存儲

2017-08-22 21:41:43

騰訊云存儲

2018-08-06 17:57:58

GartnerAWS谷歌

2019-10-08 11:57:04

Gartner科技技術(shù)

2015-12-18 16:42:10

聽云apm

2021-11-08 10:19:08

存儲技術(shù)趨勢

2013-07-28 13:21:18

華為GartnerUTM

2020-05-28 16:52:53

Gartner魔力象限

2022-04-01 10:52:14

Gartner魔力象限思科

2020-08-18 13:32:50

Gartner
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號