自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

大數(shù)據(jù) 數(shù)據(jù)可視化
這些開(kāi)源工具幫助用戶了解系統(tǒng)行為和輸出,并為潛在問(wèn)題提供警報(bào)。你可能使用警報(bào)和可視化工具,為什么我要將它們作為可觀察性工具進(jìn)行討論,特別是某些系統(tǒng)將可視化作為特征?

這些開(kāi)源工具幫助用戶了解系統(tǒng)行為和輸出,并為潛在問(wèn)題提供警報(bào)。

你可能使用警報(bào)和可視化工具,為什么我要將它們作為可觀察性工具進(jìn)行討論,特別是某些系統(tǒng)將可視化作為特征?

可觀察性來(lái)自控制理論,描述了我們根據(jù)其輸入和輸出理解系統(tǒng)的能力。本文重點(diǎn)介紹可觀察性的輸出組件。

警報(bào)和可視化工具分析系統(tǒng)的輸出,并提供這些輸出的結(jié)構(gòu)化表示。警報(bào)基本上是對(duì)負(fù)系統(tǒng)輸出的綜合理解,并且可視化是消除用戶理解的消歧結(jié)構(gòu)化表示。

[[246297]]

一、常見(jiàn)警報(bào)和可視化類型

警報(bào)

讓我們首先介紹哪些不是警報(bào)。如果人員響應(yīng)者無(wú)法對(duì)問(wèn)題采取任何措施,則不應(yīng)發(fā)送警報(bào)。這包括發(fā)送給多個(gè)人的警報(bào),只有少數(shù)人可以響應(yīng),或者系統(tǒng)中的每個(gè)異常都觸發(fā)警報(bào)的情況。這導(dǎo)致警報(bào)疲勞并且接收器忽略特定介質(zhì)內(nèi)的所有警報(bào),直到系統(tǒng)升級(jí)到尚未飽和的介質(zhì)。

例如,如果運(yùn)維每天從警報(bào)系統(tǒng)接收數(shù)百封電子郵件,該運(yùn)維將很快忽略來(lái)自警報(bào)系統(tǒng)的所有電子郵件。只有當(dāng)他或她遇到問(wèn)題,由客戶發(fā)送電子郵件或由老板打電話時(shí),運(yùn)維才會(huì)回復(fù)真實(shí)事件。在這種情況下,警報(bào)已失去其意義和用途。

警報(bào)不是一個(gè)恒定的信息流或狀態(tài)更新。它們旨在傳達(dá)系統(tǒng)無(wú)法自動(dòng)恢復(fù)的問(wèn)題,并且它們僅發(fā)送給最有可能恢復(fù)系統(tǒng)的個(gè)人。超出此定義的所有內(nèi)容都不是警報(bào),只會(huì)損害員工和公司文化。

每個(gè)人都有一組不同的警報(bào)類型,因此我不會(huì)討論優(yōu)先級(jí)(P1-P5)或使用“信息”,“警告”和“嚴(yán)重”等字樣的模型。相反,我將描述復(fù)雜系統(tǒng)事件響應(yīng)中出現(xiàn)的通用類別。

你可能已經(jīng)注意到我提到了一個(gè)“信息”警報(bào)類型,警報(bào)不應(yīng)該是信息性的。嗯,不是每個(gè)人都同意,但如果沒(méi)有發(fā)送給任何人,我不會(huì)認(rèn)為是警報(bào)。它是許多系統(tǒng)稱為警報(bào)的數(shù)據(jù)點(diǎn)。它代表了一些應(yīng)該知道但沒(méi)有響應(yīng)的事件。它通常是警報(bào)工具的可視化系統(tǒng)的一部分,而不是觸發(fā)實(shí)際通知的事件。Mike Julian在他的“實(shí)用監(jiān)控”一書(shū)中介紹了警報(bào)的這一方面和其他方面。這是該領(lǐng)域工作的必讀書(shū)。

非信息警報(bào)由可以響應(yīng)或需要操作的類型組成。我將這些分為兩類:內(nèi)部中斷和外部中斷。(大多數(shù)公司都有兩個(gè)以上的級(jí)別來(lái)確定其響應(yīng)工作的優(yōu)先級(jí)。)由于對(duì)每個(gè)用戶的影響通常是未知的,因此系統(tǒng)性能下降被認(rèn)為是此模型的中斷。

內(nèi)部中斷的優(yōu)先級(jí)低于外部中斷,但仍需要快速響應(yīng)。它們通常包括公司員工使用的內(nèi)部系統(tǒng)或僅對(duì)公司員工可見(jiàn)的應(yīng)用程序組件。

外部中斷包括任何會(huì)立即影響客戶的系統(tǒng)中斷。這些不包括阻止釋放系統(tǒng)更新的系統(tǒng)中斷。它們確實(shí)包括面向客戶的應(yīng)用程序故障,數(shù)據(jù)庫(kù)中斷和網(wǎng)絡(luò)分區(qū),如果這兩者都可能影響用戶,則會(huì)損害可用性或一致性。它們還包括可能不會(huì)對(duì)用戶產(chǎn)生直接影響的工具中斷,因?yàn)閼?yīng)用程序繼續(xù)運(yùn)行,但這種透明的依賴性會(huì)影響性能。這在系統(tǒng)使用某些外部服務(wù)或數(shù)據(jù)源時(shí)很常見(jiàn),這些服務(wù)或數(shù)據(jù)源對(duì)于完整功能不是必需的,但是當(dāng)應(yīng)用程序執(zhí)行重試或處理來(lái)自此外部依賴項(xiàng)的錯(cuò)誤時(shí)可能會(huì)導(dǎo)致延遲。

可視化

有許多可視化類型,我不會(huì)在這里全部介紹它們。這是一個(gè)迷人的研究領(lǐng)域。在我職業(yè)生涯的數(shù)據(jù)分析方面,學(xué)習(xí)和應(yīng)用這些知識(shí)是一項(xiàng)持續(xù)的挑戰(zhàn)。我們需要提供復(fù)雜系統(tǒng)輸出的簡(jiǎn)單表示,以便最廣泛地傳播信息。Google Charts和Tableau提供了多種可視化類型。我們將介紹最常見(jiàn)的可視化和一些創(chuàng)新解決方案,以便快速了解系統(tǒng)。

折線圖

折線圖可能是最常見(jiàn)的可視化方式。隨著時(shí)間的推移,它可以很好地理解系統(tǒng)。度量系統(tǒng)中的折線圖將為每個(gè)唯一度量標(biāo)準(zhǔn)或某些度量標(biāo)準(zhǔn)聚合提供一條線。當(dāng)同一個(gè)儀表板中存在大量指標(biāo)時(shí),這會(huì)讓人感到困惑(如下圖所示),但大多數(shù)系統(tǒng)可以選擇要查看的特定指標(biāo),而不是讓所有指標(biāo)都可見(jiàn)。此外,如果異常行為足以逃避正常操作的噪音,則很容易發(fā)現(xiàn)異常行為。下面我們可以看到可能表示異常行為的紫色,黃色和淺藍(lán)色線條 

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

折線圖的另一個(gè)特征是可以經(jīng)常堆疊它們以顯示關(guān)系。例如,可能希望單獨(dú)查看每個(gè)服務(wù)器上的請(qǐng)求,但也可以聚合查看。 這使你可以了解整個(gè)系統(tǒng)以及同一圖表中的每個(gè)實(shí)例。

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

熱力圖

另一種常見(jiàn)的可視化是熱力圖。在查看直方圖時(shí)很有用。此類可視化類似于條形圖,但可以在條形圖中顯示表示整體度量標(biāo)準(zhǔn)的不同百分位數(shù)的漸變。例如,假設(shè)正在查看請(qǐng)求延遲,并且希望快速了解所有請(qǐng)求的總體趨勢(shì)和分布。 熱力圖對(duì)此非常有用,它可以使用顏色快速瀏覽每個(gè)部分的數(shù)量。

下面的熱力圖顯示了圖表中心線周圍較高的濃度,每個(gè)時(shí)間段的垂直分布可以很容易理解。我們可能想要查看分布變寬的幾個(gè)時(shí)間點(diǎn),而其他時(shí)間點(diǎn)在14:00時(shí)相當(dāng)緊張。此分布可能是負(fù)面的績(jī)效指標(biāo)。

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

壓力表

我將在這里介紹的最后一個(gè)常見(jiàn)可視化是儀表,它可以幫助用戶快速了解單個(gè)指標(biāo)。儀表可以代表單個(gè)指標(biāo),例如車速表代表行駛速度,或者汽油表代表汽車中的汽油量。與燃?xì)獗眍愃?,大多?shù)監(jiān)控儀表清楚地表明什么是好的,什么不是。 通常(如下圖所示),好用綠色代表,橙色代表性差,紅色代表“一切都破壞”。 下面的中間一行顯示了傳統(tǒng)的儀表。

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

此圖像顯示的不僅僅是傳統(tǒng)的儀表。其他儀表是單一的統(tǒng)計(jì)表示,類似于經(jīng)典儀表的功能。它們都使用相同的配色方案,只需一瞥即可快速指示系統(tǒng)健康狀況??梢哉f(shuō),底行可能是衡量?jī)x表的最佳示例,它允許您瀏覽儀表板并知道一切都是健康的(或不是)。這種類型的可視化通常是我放在頂層儀表板上的。它可以在幾秒鐘內(nèi)全面,高層次地了解系統(tǒng)運(yùn)行狀況。

火焰圖

不太常見(jiàn)的可視化是由Netflix的Brendan Gregg于2011年推出的火焰圖。它不是儀表板或快速觀察高級(jí)系統(tǒng)問(wèn)題的理想選擇。在嘗試?yán)斫馓囟ǖ膽?yīng)用程序問(wèn)題時(shí)通常會(huì)看到它。此可視化關(guān)注于CPU和內(nèi)存以及關(guān)聯(lián)的幀。 X軸按字母順序列出幀,Y軸顯示堆棧深度。每個(gè)矩形都是一個(gè)堆棧幀,包括被調(diào)用的函數(shù)。矩形越寬,它在堆棧中出現(xiàn)的越多。在嘗試在應(yīng)用程序級(jí)別診斷系統(tǒng)性能時(shí),此方法非常有用,我建議大家嘗試一下。

5個(gè)系統(tǒng)管理員常用的警報(bào)和可視化工具

工具選擇

報(bào)警有幾種商業(yè)選擇,但由于這是Opensource.com,我將僅涵蓋真實(shí)公司大規(guī)模使用的系統(tǒng),可以免費(fèi)使用。希望你能夠貢獻(xiàn)新的和創(chuàng)新的功能,使這些系統(tǒng)更好。

二、警報(bào)工具

1.Bosun

如果你曾經(jīng)使用計(jì)算機(jī)做過(guò)任何事情并且卡住了,那么你收到的幫助可能歸功于Stack Exchange系統(tǒng)。Stack Exchange圍繞眾包問(wèn)答模型運(yùn)行許多不同的網(wǎng)站。Stack Overflow非常受開(kāi)發(fā)人員歡迎,超級(jí)用戶很受操作的歡迎。然而,現(xiàn)在有數(shù)百個(gè)網(wǎng)站,從育兒到科幻,哲學(xué)到自行車。

Stack Exchange開(kāi)源其警報(bào)管理系統(tǒng)Bosun,同時(shí)Prometheus及其AlertManager系統(tǒng)也已發(fā)布。這兩個(gè)系統(tǒng)有許多相似之處,這是一件非常好的事情。像Prometheus一樣,Bosun是用Golang寫(xiě)的。Bosun的范圍比Prometheus更廣泛,因?yàn)樗梢耘c指標(biāo)聚合之外的系統(tǒng)進(jìn)行交互。它還可以從日志和事件聚合系統(tǒng)中提取數(shù)據(jù)。它支持Graphite,InfluxDB,OpenTSDB和Elasticsearch。

Bosun的架構(gòu)由一個(gè)服務(wù)器二進(jìn)制文件,一個(gè)像OpenTSDB,Redis和scollector代理的后端組成。scollector代理自動(dòng)檢測(cè)主機(jī)上的服務(wù),并報(bào)告這些進(jìn)程和其他系統(tǒng)資源的度量標(biāo)準(zhǔn)。此數(shù)據(jù)將發(fā)送到指標(biāo)后端。然后,Bosun服務(wù)器二進(jìn)制文件查詢后端以確定是否需要觸發(fā)任何警報(bào)。 Bosun也可以被像Grafana這樣的工具用來(lái)通過(guò)一個(gè)通用接口查詢底層后端。 Redis用于存儲(chǔ)Bosun的狀態(tài)和元數(shù)據(jù)。

Bosun的一個(gè)非常巧妙的功能是它可以根據(jù)歷史數(shù)據(jù)測(cè)試警報(bào)。這是我?guī)啄昵霸赑rometheus錯(cuò)過(guò)的東西,當(dāng)時(shí)我有一個(gè)問(wèn)題的數(shù)據(jù),我想要警報(bào),但沒(méi)有簡(jiǎn)單的方法來(lái)測(cè)試它。為了確保我的警報(bào)正常,我必須創(chuàng)建并插入虛擬數(shù)據(jù)。該系統(tǒng)減輕了非常耗時(shí)的過(guò)程。

Bosun還具有通常的功能,如顯示簡(jiǎn)單的圖形和創(chuàng)建警報(bào)。它具有強(qiáng)大的表達(dá)語(yǔ)言,可用于編寫(xiě)警報(bào)規(guī)則。但是,它只有電子郵件和HTTP通知配置,這意味著連接到Slack和其他工具需要更多的自定義(其文檔涵蓋)。與Prometheus類似,Bosun可以使用模板進(jìn)行這些通知,這意味著它們可以像您希望的那樣看起來(lái)很棒??梢允褂盟蠬TML和CSS技能創(chuàng)建任何人見(jiàn)過(guò)的最糟糕的電子郵件提醒。

2.Cabot

Cabot是由一家名為Arachnys的公司創(chuàng)建的。你可能不知道Arachnys是誰(shuí)或它做了什么,但你可能已經(jīng)感受到它的影響:它構(gòu)建了領(lǐng)先的基于云的解決金融犯罪的解決方案。這聽(tīng)起來(lái)很酷,對(duì)嗎?在以前的公司,我參與了“了解你的客戶”法律的類似職能。大多數(shù)公司認(rèn)為與恐怖組織聯(lián)系是一件非常糟糕的事情,例如,通過(guò)他們的系統(tǒng)匯集資金。這些解決方案也有助于防范對(duì)欺詐者等不那么殘暴的罪犯,也可能對(duì)該機(jī)構(gòu)構(gòu)成風(fēng)險(xiǎn)。

為什么Arachnys創(chuàng)造abot?嗯,這對(duì)每個(gè)人來(lái)說(shuō)都是一個(gè)圣誕禮物,因?yàn)檫@是一個(gè)圣誕節(jié)項(xiàng)目,因?yàn)樗拈_(kāi)發(fā)人員無(wú)法圍繞Nagios。真的,誰(shuí)可以怪他們? Cabot是用Django和Bootstrap編寫(xiě)的,因此對(duì)大多數(shù)人來(lái)說(shuō)應(yīng)該很容易為項(xiàng)目做出貢獻(xiàn)。 (另一個(gè)有趣的事實(shí):名字來(lái)自創(chuàng)作者的狗。)

Cabot架構(gòu)與Bosun類似,因?yàn)樗皇占魏螖?shù)據(jù)。相反,它通過(guò)其提醒的工具的API訪問(wèn)數(shù)據(jù)。因此,Cabot使用拉動(dòng)(而非推動(dòng))模型進(jìn)行警報(bào)。它可以訪問(wèn)每個(gè)系統(tǒng)的API,并根據(jù)特定的檢查檢索所需的信息。 Cabot將警報(bào)數(shù)據(jù)存儲(chǔ)在Postgres數(shù)據(jù)庫(kù)中,并且還具有使用Redis的緩存。

Cabot原生支持Graphite,但它也支持Jenkins,這在該領(lǐng)域很少見(jiàn)。Arachnys使用Jenkins就像一個(gè)集中式的cron,但我喜歡這種處理構(gòu)建失敗的想法,比如停機(jī)。顯然,構(gòu)建失敗并不像生產(chǎn)中斷那么重要,但如果失敗未得到解決,它仍然可以提醒團(tuán)隊(duì)并升級(jí)。每次收到有關(guān)構(gòu)建失敗的電子郵件時(shí),誰(shuí)真正檢查Jenkins?我也是!

另一個(gè)有趣的功能是Cabot可以與Google日歷集成以進(jìn)行隨叫隨到的輪換。Cabot將此功能稱為羅塔(Rota),這是英國(guó)名單或輪換名詞。這很有意義,我希望其他系統(tǒng)能夠進(jìn)一步理解這個(gè)想法。Cabot不支持比主要和備用人員更復(fù)雜的任何東西,但肯定有額外功能的空間。文檔說(shuō)如果你想要更先進(jìn)的東西,你應(yīng)該看一個(gè)商業(yè)選擇。

3.StatsAgg

StatsAgg?這是怎么做到的?好吧,并不是每天都會(huì)遇到一家創(chuàng)建了警報(bào)平臺(tái)的出版公司。我認(rèn)為值得認(rèn)可。當(dāng)然,皮爾森不再只是一家出版公司了;它有幾個(gè)網(wǎng)站和O'Reilly Media的合資企業(yè)。但是,我仍然認(rèn)為它是出版我的教科書(shū)和考試的公司。

StatsAgg不僅僅是一個(gè)警報(bào)平臺(tái);它也是一個(gè)指標(biāo)聚合平臺(tái)。它有點(diǎn)像其他系統(tǒng)的代理。它支持Graphite,StatsD,InfluxDB和OpenTSDB作為輸入,但它也可以將這些指標(biāo)轉(zhuǎn)發(fā)到各自的平臺(tái)。這是一個(gè)有趣的概念,但隨著中央服務(wù)的負(fù)載增加,可能存在風(fēng)險(xiǎn)。但是,如果StatsAgg基礎(chǔ)結(jié)構(gòu)足夠強(qiáng)大,即使后端存儲(chǔ)平臺(tái)出現(xiàn)中斷,它仍然可以生成警報(bào)。

StatsAgg是用Java編寫(xiě)的,只包含主服務(wù)器和UI,可以將復(fù)雜性降至最低。它可以基于正則表達(dá)式匹配發(fā)送警報(bào),并專注于服務(wù)而不是主機(jī)或?qū)嵗木瘓?bào)。 它的目標(biāo)是填充開(kāi)源可觀察性堆棧中的空白,我認(rèn)為它做得很好。

三、可視化工具

1.Grafana

幾乎每個(gè)人都知道Grafana,很多人都使用過(guò)它。每當(dāng)我需要一個(gè)簡(jiǎn)單的儀表板時(shí),我已經(jīng)使用了它多年。我之前使用過(guò)的工具已經(jīng)棄用了,在Grafana做好之前我對(duì)此非常不滿。Grafana被TorkelÖdegaard創(chuàng)建。像Cabot一樣,Grafana也是在圣誕節(jié)期間創(chuàng)建的,并于2014年1月發(fā)布。在短短幾年內(nèi)它已經(jīng)走過(guò)了漫長(zhǎng)的道路。它起源于Kibana儀表板系統(tǒng),Torkel將其分為Grafana。

Grafana的唯一重點(diǎn)是以更加實(shí)用和令人愉悅的方式呈現(xiàn)監(jiān)控?cái)?shù)據(jù)。它可以原生地從Graphite,Elasticsearch,OpenTSDB,Prometheus和InfluxDB收集數(shù)據(jù)。有一個(gè)企業(yè)版使用插件來(lái)獲取更多數(shù)據(jù)源,但是沒(méi)有理由將這些其他數(shù)據(jù)源插件創(chuàng)建為開(kāi)源,因?yàn)镚rafana插件生態(tài)系統(tǒng)已經(jīng)提供了許多其他數(shù)據(jù)源。

Grafana為我做了什么?它為理解我的系統(tǒng)提供了一個(gè)中心位置。它是基于Web的,因此任何人都可以訪問(wèn)這些信息,盡管可以使用不同的身份驗(yàn)證方法對(duì)其進(jìn)行限制。 Grafana可以使用許多不同類型的可視化提供一目了然的知識(shí)。但是,它已開(kāi)始集成警報(bào)和其他傳統(tǒng)上與可視化相結(jié)合的功能。

現(xiàn)在,你可以直觀地設(shè)置警報(bào)。這意味著可以查看圖表,甚至可以查看由于系統(tǒng)性能下降而應(yīng)該觸發(fā)警報(bào)的位置,單擊要觸發(fā)警報(bào)的圖表,然后告訴Grafana將警報(bào)發(fā)送到何處。這是一個(gè)非常強(qiáng)大的補(bǔ)充,不一定會(huì)取代警報(bào)平臺(tái),但它肯定可以通過(guò)提供警報(bào)標(biāo)準(zhǔn)的不同視角來(lái)幫助增強(qiáng)它。

Grafana還引入了更多協(xié)作功能。用戶已經(jīng)能夠長(zhǎng)時(shí)間共享儀表板,這意味著不必為Kubernetes集群創(chuàng)建自己的儀表板,因?yàn)橛袔讉€(gè)已經(jīng)可用,其中一些由Kubernetes開(kāi)發(fā)人員和其他人由Grafana開(kāi)發(fā)人員維護(hù)。

協(xié)作中最重要的補(bǔ)充是注釋。注釋允許用戶將上下文添加到圖形的一部分。然后,其他用戶可以使用此上下文更好地理解系統(tǒng)。當(dāng)團(tuán)隊(duì)處于事件中并且溝通和共同理解至關(guān)重要時(shí),這是一個(gè)非常寶貴的工具。將所有信息都放在你正在查看的位置,這樣可以更快地在整個(gè)團(tuán)隊(duì)中共享知識(shí)。當(dāng)團(tuán)隊(duì)試圖了解失敗的原因并了解他們的系統(tǒng)時(shí),這也是一個(gè)很好的功能,可用于無(wú)可指責(zé)的事后。

2.Vizceral

Netflix創(chuàng)建了Vizceral,以便在執(zhí)行流量故障轉(zhuǎn)移時(shí)更好地了解其流量模式。與Grafana不同,Grafana是一種更通用的工具,Vizceral提供了非常具體的用例。Netflix不再在內(nèi)部使用此工具,并表示不再主動(dòng)維護(hù),但它仍會(huì)定期更新。我在這里強(qiáng)調(diào)它主要是指出一個(gè)有趣的可視化機(jī)制以及它如何幫助解決問(wèn)題。值得在演示環(huán)境中運(yùn)行它,以便更好地掌握概念并見(jiàn)證這些系統(tǒng)的可能性。

責(zé)任編輯:未麗燕 來(lái)源: 云技術(shù)實(shí)踐
相關(guān)推薦

2018-11-12 10:10:08

開(kāi)源系統(tǒng)管理員可視化工具

2019-07-17 16:20:05

Linux可視化工具操作系統(tǒng)

2018-10-10 10:37:03

2013-03-30 21:59:13

系統(tǒng)管理員必備工具iftop

2015-07-06 09:16:51

2018-12-25 11:39:04

系統(tǒng)管理員持續(xù)集成持續(xù)交付

2018-08-01 08:12:34

Linux管理員網(wǎng)絡(luò)管理

2010-04-12 09:33:58

系統(tǒng)管理員

2018-08-15 14:00:18

LinuxBash系統(tǒng)管理員

2013-06-26 09:29:30

系統(tǒng)管理員

2013-09-29 09:50:21

系統(tǒng)管理員Ubuntu JujuJuju

2022-11-28 10:12:57

系統(tǒng)systemd

2013-02-28 09:06:04

2010-09-13 15:40:00

2014-07-31 14:50:40

Linux系統(tǒng)管理員

2015-10-28 09:07:34

GUI工具Linux

2014-08-21 10:09:53

Linux管理

2010-08-10 09:13:52

Unix系統(tǒng)管理員Ubuntu

2010-05-06 18:07:33

Unix命令

2010-08-11 17:11:15

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)