自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

論一個(gè)合格的NOC-SLA場(chǎng)景是如何養(yǎng)成的

安全 應(yīng)用安全
從剛開始的對(duì)于噪音治理的探索,到現(xiàn)在極低噪音的治理成果,這是整個(gè)團(tuán)隊(duì)的努力造就的。從分場(chǎng)景,分時(shí)間段,到根據(jù)流量動(dòng)態(tài)調(diào)整基線,再到現(xiàn)在的智能基線,眼看著它在越變?cè)絻?yōu)秀,這是讓我們穩(wěn)定生產(chǎn)人打心底感到自豪的。也相信也不久的將來,我們的NOC-SLA告警能夠報(bào)出更多的線上問題的同時(shí),也能產(chǎn)生更少的噪音。

1、前言

在所有的互聯(lián)網(wǎng)企業(yè)中,告警經(jīng)常性的誤告,都是讓技術(shù)人員最頭疼的問題之一。試想一下,在凌晨?jī)扇c(diǎn)時(shí),你收到了來自告警平臺(tái)的電話告警,于是你揉了揉惺忪的雙眼,短暫的回味了下剛才的美夢(mèng),下床打開電腦,開始排查問題,卻發(fā)現(xiàn)這是一個(gè)誤告,線上業(yè)務(wù)都是在有序的運(yùn)行當(dāng)中,于是你關(guān)上電腦,重新上床睡覺,但此時(shí)你已睡意全無,在床上輾轉(zhuǎn)反側(cè)一個(gè)小時(shí)才睡著,于是乎,第二天同事看到了一臉滄桑的你。這種誤告一次兩次還能接受,但如果是每隔一天或者是每晚都會(huì)觸發(fā)呢?

因此在互聯(lián)網(wǎng)行業(yè)中,頻繁的誤告通常會(huì)遇見如下幾個(gè)問題:

單位時(shí)間內(nèi)有效信息獲取率變低,技術(shù)人員很難從頻繁的誤告中得到真正有問題的告警;

真正的問題發(fā)生時(shí),猶如《狼來了》一樣,認(rèn)為都是誤告,大大加長(zhǎng)了問題的發(fā)現(xiàn)時(shí)間;

降低技術(shù)人員的工作效率,每天都沉浸在對(duì)于各種告警的處理當(dāng)中,降低人員產(chǎn)出;

2、治理

在對(duì)于SLA告警的摸索階段,團(tuán)隊(duì)就已經(jīng)預(yù)估到后面可能面臨著大量噪音的騷擾,因此組建起一個(gè)告警測(cè)試群,用于針對(duì)性的調(diào)優(yōu);團(tuán)隊(duì)為了測(cè)試線上告警誤告水位,測(cè)試性地將SLA場(chǎng)景告警規(guī)則進(jìn)行接入。果不其然,上個(gè)廁所回來,群里已經(jīng)積攢上百條告警了,根本無法提取出有效的告警,其原因就是我們的告警規(guī)則配置都是相對(duì)單一的,全天候就一條規(guī)則,如:

圖片

為了在告警正式上線后,大家晚上能有一個(gè)如嬰兒般的睡眠,我們自然而然的就啟動(dòng)了對(duì)于噪音的治理工作。而告警噪音的治理最重要的就是對(duì)于利弊的權(quán)衡,如果閾值設(shè)置過高,可能線上問題無法發(fā)現(xiàn);如果閾值過低,又會(huì)導(dǎo)致噪音頻發(fā),所以對(duì)于閾值的調(diào)整里邊有很大的學(xué)問。

圖片

  • 第一階段

區(qū)分業(yè)務(wù)場(chǎng)景。我們創(chuàng)新性地將場(chǎng)景分為平穩(wěn)型、波浪型、突發(fā)型,它們的定義如下:

平穩(wěn)型:日常流量波動(dòng)在30%以內(nèi),流量波動(dòng)??;

波浪型:日常流量波動(dòng)在30%以外,流量波動(dòng)較大;

突發(fā)型:日常流量波動(dòng)在30%以內(nèi),但在遇見某些突發(fā)情況下,如重大活動(dòng)或者時(shí)間,波動(dòng)會(huì)超過30%;

針對(duì)不同類型的場(chǎng)景,我們也擁有不同的告警配置方案,比如平穩(wěn)型,那么就可以評(píng)估一下該場(chǎng)景的波動(dòng)范圍,在其正常的波動(dòng)的范圍內(nèi),進(jìn)行設(shè)置閾值,比如大部分時(shí)間我們的取消訂單,相比于前七天的平均值,波動(dòng)在30%以內(nèi),如下:

圖片

那么我們經(jīng)過兩三天的觀測(cè),我們就可以將告警閾值設(shè)置在30%,于是告警的設(shè)置就會(huì)如下:

圖片

上升告警也是同理,將閾值設(shè)置到30%。

那么針對(duì)于波浪形告警,我們的閾值范圍可能就會(huì)設(shè)置的大一點(diǎn),比如到50%,并且設(shè)置與昨日同比等多種規(guī)則來限制噪音,例如:

圖片

這樣我們配置的規(guī)則就會(huì)相對(duì)復(fù)雜,利用昨日以及基線的量來進(jìn)行綜合判斷。

圖片

  • 第二階段

在我們告警都上了之后,發(fā)現(xiàn)白天的噪音相對(duì)有了一定的改善,但夜間由于流量波動(dòng)大,導(dǎo)致經(jīng)常性流量波動(dòng)比能大于30%,進(jìn)而觸發(fā)告警,如下圖所示:

圖片

如果在這個(gè)時(shí)候,我們?yōu)榱诉m應(yīng)夜間的大波動(dòng),而將30%的閾值拉長(zhǎng),修改到50%甚至80%,這樣的話確實(shí)在一定程度上降低了噪音的產(chǎn)生;但在另一方面,我們的告警發(fā)現(xiàn)率可能會(huì)大大降低。假如出現(xiàn)線上故障的時(shí)候,流量波動(dòng)下小于我們?cè)O(shè)置的閾值范圍,那么整個(gè)配置都沒有意義。在這個(gè)時(shí)候,我們就開始構(gòu)思區(qū)分白天和夜間,跑兩套規(guī)則,保證噪音相對(duì)較低的同時(shí),也能反映出線上的問題,于是取消訂單的規(guī)則就變成了如下所示:

圖片

與此同時(shí),我們也發(fā)現(xiàn),線上流量并不穩(wěn)定,可能這段時(shí)間低一點(diǎn),過段時(shí)間來個(gè)大促,流量就上升的厲害,導(dǎo)致告警頻繁的觸發(fā),這個(gè)時(shí)候技術(shù)人員又會(huì)面臨大量的告警騷擾,而很難從中發(fā)現(xiàn)真正有問題的告警。

10月1號(hào)大盤數(shù)據(jù)

圖片

告警觸發(fā)數(shù)據(jù)

圖片

  • 第三階段

在此基礎(chǔ)上,整個(gè)團(tuán)隊(duì)集思廣益,討論如何破局。因此就有了如下的解決方案,既然線上流量是實(shí)時(shí)波動(dòng)的,容易受各種事件影響,那么基線為何一定要簡(jiǎn)單粗暴的只取前七天的一個(gè)平均值呢?為何我們不能在此基礎(chǔ)上,讓基線也可以動(dòng)態(tài)調(diào)整,并且盡可能匹配線上流量呢?

圖片

如上圖所示,當(dāng)我們實(shí)時(shí)流量與線上真實(shí)流量偏差較大的時(shí)候,我們可能讓基線盡可能的靠近線上實(shí)時(shí)流量,從而更好的評(píng)估線上流量水平,不至于讓我們的告警失靈,產(chǎn)生過多的噪音;針對(duì)取消訂單場(chǎng)景,我們也做了如下調(diào)整:

調(diào)整前(紅色部分表示波動(dòng)超過30%)

圖片

調(diào)整后(紅色部分表示波動(dòng)超過30%)

圖片

從大盤上可以看到,明顯經(jīng)過調(diào)整后,大部分時(shí)候的波動(dòng)能夠保持在30%內(nèi),大大減少了噪音的產(chǎn)生。

C端告警數(shù)據(jù)

圖片

B端告警數(shù)據(jù)

圖片

  • 第四階段

整個(gè)團(tuán)隊(duì)在現(xiàn)有基礎(chǔ)成果上,為了減小人員的投入以及負(fù)擔(dān),開始探索能否有一種手段,可以讓大家不為了應(yīng)對(duì)線上水位變化,而頻繁調(diào)整SLA場(chǎng)景基線呢?

答案就是智能基線,智能基線它能根據(jù)過往的數(shù)據(jù),智能的推測(cè)出流量的曲線圖,并評(píng)估出流量的最高水位(上限)以及最低水位(下限),在保證告警噪音相對(duì)較小的情況下,幫助我們更便捷以及靈敏的發(fā)現(xiàn)線上問題,并且保鮮周期也能進(jìn)一步拉長(zhǎng),配置規(guī)則也進(jìn)一步簡(jiǎn)單化,便捷化。

時(shí)間段

告警等級(jí)

平穩(wěn)性

波浪形

突發(fā)型

白天

P0

任意條件:

XX總量最近30s求和與智能基線值環(huán)比下跌XX%

XX總量最近30s求和與智能基線值環(huán)比上升XX%


所有條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX

XX總量最近30s求和與智能基線值環(huán)比上升XX%

P1

任意條件:

XX總量最近30s求和與智能基線值環(huán)比下跌XX%&持續(xù)XX個(gè)點(diǎn)位

XX總量最近30s求和與智能基線值環(huán)比上升XX%&持續(xù)XX個(gè)點(diǎn)位

任意條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&持續(xù)XX個(gè)點(diǎn)位

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&持續(xù)XX個(gè)點(diǎn)位

任意條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&持續(xù)XX個(gè)點(diǎn)位

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&持續(xù)XX個(gè)點(diǎn)位

P2




夜間

P0

所有條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&XX總量最近30s求和與智能基線值環(huán)比上升XX%

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&XX總量最近30s求和與智能基線值環(huán)比下跌XX%


所有條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX

XX總量最近30s求和與智能基線值環(huán)比上升XX%

P1

所有條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&XX總量最近30s求和與智能基線值環(huán)比上升XX%

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&XX總量最近30s求和與智能基線值環(huán)比下跌XX%

任意條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&持續(xù)XX個(gè)點(diǎn)位

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&持續(xù)XX個(gè)點(diǎn)位

任意條件:

XX總量最近30s求和與預(yù)測(cè)上線比高于XX&持續(xù)XX個(gè)點(diǎn)位

XX總量最近30s求和與預(yù)測(cè)下線比低于XX&持續(xù)XX個(gè)點(diǎn)位

P2




一些比較特殊的場(chǎng)景可能會(huì)有些差別,但絕大多數(shù)場(chǎng)景都可以按此進(jìn)行配置,還是以取消訂單為例,智能基線大盤如下:

圖片

從圖上我們可以看出此場(chǎng)景的波動(dòng)比例基本在上下限控制以內(nèi),而對(duì)應(yīng)的一般基線如下:

圖片

3、總結(jié)

從剛開始的對(duì)于噪音治理的探索,到現(xiàn)在極低噪音的治理成果,這是整個(gè)團(tuán)隊(duì)的努力造就的。從分場(chǎng)景,分時(shí)間段,到根據(jù)流量動(dòng)態(tài)調(diào)整基線,再到現(xiàn)在的智能基線,眼看著它在越變?cè)絻?yōu)秀,這是讓我們穩(wěn)定生產(chǎn)人打心底感到自豪的。也相信也不久的將來,我們的NOC-SLA告警能夠報(bào)出更多的線上問題的同時(shí),也能產(chǎn)生更少的噪音。

責(zé)任編輯:武曉燕 來源: 得物技術(shù)
相關(guān)推薦

2016-06-29 10:29:35

2016WOT企業(yè)安全

2019-08-19 18:01:26

企業(yè)數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)源

2023-02-06 15:26:49

網(wǎng)絡(luò)運(yùn)營(yíng)NOC團(tuán)隊(duì)

2021-01-30 17:58:49

網(wǎng)絡(luò)開發(fā)員網(wǎng)站網(wǎng)絡(luò)開發(fā)

2009-08-04 16:24:19

合格的ASP.NET程

2017-11-29 18:11:00

ERP管理數(shù)字化

2018-05-14 11:24:20

Python開發(fā)者工具

2023-01-30 09:01:34

DecoratorsJS語法

2022-06-13 10:11:19

項(xiàng)目文檔PRD

2009-02-24 10:19:49

Oracle DBA深入解析Oracle求職

2017-07-07 15:54:26

Linux監(jiān)控場(chǎng)景

2014-11-25 14:04:59

DockerDocker Nodeweb應(yīng)用部署

2014-04-17 10:42:50

DevOps

2019-12-02 13:46:35

瀏覽器前端開發(fā)

2020-04-17 13:01:38

ASFApache董事會(huì)

2024-07-30 08:59:22

2012-06-17 12:58:04

架構(gòu)師架構(gòu)

2019-10-08 14:44:10

蘋果喬布斯Tim Cook

2018-01-22 12:17:57

戴爾商用筆記本
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)