自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

D-SMART如何利用數(shù)據(jù)庫(kù)的可觀測(cè)性能力的

數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)
D-SMART采集那么多數(shù)據(jù)并不是讓你看的,運(yùn)維監(jiān)控人員確實(shí)只能聚焦在少量的幾個(gè)指標(biāo)上。D-SMART的指標(biāo)大多數(shù)是用于分析的,并不是用于監(jiān)控,如果要監(jiān)控,只需要看“健康模型”或者監(jiān)控主界面上的那幾個(gè)關(guān)鍵指標(biāo)就行了。

昨天我發(fā)了一篇數(shù)據(jù)庫(kù)可觀測(cè)性的文章,談了可觀測(cè)性與監(jiān)控的差別。在運(yùn)維領(lǐng)域,監(jiān)控是一個(gè)強(qiáng)需求,無(wú)論如何,你的數(shù)據(jù)庫(kù)在跑一些有價(jià)值的業(yè)務(wù)應(yīng)用,你就必須去監(jiān)控?cái)?shù)據(jù)庫(kù)。而可觀測(cè)性并不是時(shí)時(shí)需要的,如果巡檢做完以后,發(fā)現(xiàn)的問(wèn)題也無(wú)法得到解決,那么巡檢就變成了一個(gè)樣子貨了。

可觀測(cè)性也是如此,平時(shí)的時(shí)候,一些小問(wèn)題還不至于讓人興師動(dòng)眾。不過(guò)當(dāng)系統(tǒng)出現(xiàn)了一個(gè)比較大的問(wèn)題,導(dǎo)致了一些嚴(yán)重后果的時(shí)候,IT部門才發(fā)現(xiàn),我們需要對(duì)日常發(fā)現(xiàn)的一些小問(wèn)題做閉環(huán)管理,要防患于未然。實(shí)際上防患于未然這句話好說(shuō),卻極難落地,因?yàn)檫@背后是巨大的成本。只有做到系統(tǒng)優(yōu)化常態(tài)化的企業(yè)才能真正做到閉環(huán)管理和防患于未然,對(duì)于大多數(shù)運(yùn)維經(jīng)費(fèi)有限的企業(yè)來(lái)說(shuō)只能嘴上向領(lǐng)導(dǎo)表表態(tài)而無(wú)法真正去實(shí)施了。

D-SMART是一個(gè)基于數(shù)據(jù)庫(kù)可觀測(cè)性能力構(gòu)建的深度運(yùn)維工具,在研發(fā)之初,我們就希望充分利用數(shù)據(jù)庫(kù)的可觀測(cè)性能力,盡可能地將數(shù)據(jù)庫(kù)系統(tǒng)數(shù)字化。因此每種數(shù)據(jù)庫(kù)我們都采集了數(shù)百個(gè)指標(biāo)與配置項(xiàng)。當(dāng)我?guī)啄昵昂鸵粋€(gè)客戶談到我們的系統(tǒng)采集了數(shù)百個(gè)數(shù)據(jù)庫(kù)的指標(biāo)與配置項(xiàng)的時(shí)候,他直搖頭,我們不需要那么多指標(biāo),有幾個(gè)指標(biāo)夠我們監(jiān)控就行了。太多了,我們也看不過(guò)來(lái)。實(shí)際上,D-SMART采集那么多數(shù)據(jù)并不是讓你看的,運(yùn)維監(jiān)控人員確實(shí)只能聚焦在少量的幾個(gè)指標(biāo)上。D-SMART的指標(biāo)大多數(shù)是用于分析的,并不是用于監(jiān)控,如果要監(jiān)控,只需要看“健康模型”或者監(jiān)控主界面上的那幾個(gè)關(guān)鍵指標(biāo)就行了。

圖片

圖片

D-SMART利用數(shù)據(jù)庫(kù)運(yùn)維專家多年來(lái)積累的經(jīng)驗(yàn)采集了數(shù)百個(gè)指標(biāo),這些指標(biāo)來(lái)自于數(shù)據(jù)庫(kù)的系統(tǒng)狀態(tài)、METRIC、等待事件、日志、TOPSQL、跟蹤數(shù)據(jù)等。為了減少D-SMART采集對(duì)于數(shù)據(jù)庫(kù)的影響,這些采集都采用開銷最小的方法,從系統(tǒng)視圖中一次性獲取,然后在D-SMART上加工的方式。

數(shù)據(jù)采集中已經(jīng)包含了大量的專家經(jīng)驗(yàn),比如Oracle數(shù)據(jù)庫(kù)的表空間使用率,實(shí)際上采集這個(gè)數(shù)據(jù)需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行全庫(kù)掃描,如果系統(tǒng)比較大,IO性能較差,系統(tǒng)比較繁忙的情況下,這個(gè)采集對(duì)數(shù)據(jù)庫(kù)影響還是挺大的。我們以前也遇到過(guò)一個(gè)客戶的數(shù)據(jù)庫(kù)超融合一體機(jī)的一個(gè)故障,就是因?yàn)樗麄兊囊惑w機(jī)管理軟件的表空間使用率采集是分鐘級(jí)的,而一次采集需要30分鐘才能完成,大量采集任務(wù)積壓導(dǎo)致了一體機(jī)IO鏈路故障,導(dǎo)致了宕機(jī)。在D-SMART中,表空間使用率采集是4小時(shí)一次或者1天一次的,當(dāng)上一次沒(méi)有完成之前,新的采集不會(huì)發(fā)起,從而避免在一些極端的情況下因?yàn)檫\(yùn)維監(jiān)控導(dǎo)致數(shù)據(jù)庫(kù)出問(wèn)題。而在系統(tǒng)的指標(biāo)體系中,使用了一些“風(fēng)險(xiǎn)”類和“可用天數(shù)”的指標(biāo)來(lái)真正地反映出系統(tǒng)存在的風(fēng)險(xiǎn),這些指標(biāo)都是通過(guò)分析和計(jì)算后獲得的。

圖片

圖片

從另外一個(gè)例子上可以看到D-SMART在監(jiān)控指標(biāo)設(shè)計(jì)上的專家經(jīng)驗(yàn)特征。

圖片

很多監(jiān)控軟件在采集共享池信息時(shí),喜歡把一些X$視圖的數(shù)據(jù)采集回來(lái)做展示。實(shí)際上X$視圖都是Oracle數(shù)據(jù)庫(kù)的內(nèi)存結(jié)構(gòu),采集時(shí)需要對(duì)這些數(shù)據(jù)加閂鎖。如果數(shù)據(jù)庫(kù)系統(tǒng)的共享池存在問(wèn)題的時(shí)候,這種采集很可能成為駱駝身上添加的最后一根稻草。前陣子我們的一個(gè)商用版用戶反饋說(shuō)他們的共享池性能有點(diǎn)問(wèn)題,就是用我們的一個(gè)共享池分析工具去分析共享池碎片情況,沒(méi)想到觸發(fā)了一個(gè)BUG,報(bào)了ORA-600錯(cuò)誤。確實(shí)是的,當(dāng)共享池有問(wèn)題的時(shí)候,如果去訪問(wèn)那些X$視圖去查看共享池的情況,是很容易觸發(fā)一些BUG的,嚴(yán)重時(shí)候會(huì)出現(xiàn)實(shí)例宕機(jī)的情況。

為了既能夠發(fā)現(xiàn)共享池存在的問(wèn)題,又避免平時(shí)不過(guò)多干擾共享池,我們使用了上面的一些指標(biāo)來(lái)綜合評(píng)估共享池可能存在的風(fēng)險(xiǎn)。大家可以看出,這些指標(biāo)都不需要去對(duì)共享池加閂鎖。這種設(shè)計(jì)后面體現(xiàn)的是一幫老司機(jī)的經(jīng)驗(yàn)。

有了強(qiáng)大的指標(biāo)體系,才能更加充分地利用數(shù)據(jù)庫(kù)的可觀測(cè)性能力?;谌绱素S富的指標(biāo)數(shù)據(jù),我們就可以實(shí)現(xiàn)各種深度的運(yùn)維能力了。

比如我們給系統(tǒng)監(jiān)控者提供的工具包括“健康模型”、“等待事件實(shí)時(shí)分析工具”,“等待事件歷史分析工具”,“問(wèn)題分析工具”(用于分析一段時(shí)間內(nèi)系統(tǒng)可能存在的各種問(wèn)題)、“運(yùn)維經(jīng)驗(yàn)告警”,“TOP SQL分析工具”、“SQL審計(jì)工具”,“關(guān)鍵SQL跟蹤分析工具”,“容量分析工具”,“集群拓?fù)洳榭垂ぞ摺?、“日檢、月檢、特檢、審計(jì)工具”等一系列的運(yùn)維工具。運(yùn)維人員不需要盯著指標(biāo)看,甚至不需要盯著D-SMART看,把短信告警或者微信告警、郵件告警接好,收到告警信息再去看看系統(tǒng)就可以了。

充分利用數(shù)據(jù)庫(kù)的可觀測(cè)性可以干很多事情,專家直接看數(shù)據(jù)也行,利用數(shù)據(jù)庫(kù)提供的工具(WDR/AWR/ASH等報(bào)告)也行,采集回來(lái)放著,一旦發(fā)生問(wèn)題去回溯分析也可以。實(shí)際上D-SMART發(fā)布社區(qū)版的想法來(lái)自于一個(gè)合作伙伴的需求。當(dāng)時(shí)我們的一個(gè)合作伙伴提出有幾十個(gè)客戶,沒(méi)多少錢,希望出問(wèn)題后我們能派專家去現(xiàn)場(chǎng)分析。我們算了一下,如果專家去現(xiàn)場(chǎng),每年多出幾次問(wèn)題就虧了。于是提出能不能遠(yuǎn)程分析,不過(guò)那些客戶里大多數(shù)是不允許VPN連上去分析的。于是我們提出來(lái)使用d-smart輔助。測(cè)試了一兩個(gè)客戶,發(fā)現(xiàn)效果還不錯(cuò),用戶出問(wèn)題的時(shí)候,D-SMART生成幾份報(bào)告,遠(yuǎn)程分析一下,就基本上解決問(wèn)題了。不過(guò)讓這些用戶都買一套D-SMART,用戶也買不起,那怎么辦,經(jīng)過(guò)幾次討論,我們想出了一個(gè)發(fā)布D-SMART社區(qū)版的方法。利用社區(qū)版日常采集的數(shù)據(jù),到需要提供服務(wù)時(shí)就可以生成遠(yuǎn)程分析所需要的報(bào)告了。

責(zé)任編輯:武曉燕 來(lái)源: 白鱔的洞穴
相關(guān)推薦

2022-08-23 08:21:13

數(shù)據(jù)庫(kù)AIOPS工具

2024-03-07 08:57:25

GaussDBOracle模型

2023-01-11 08:25:40

國(guó)產(chǎn)數(shù)據(jù)庫(kù)KESOracle

2022-05-16 11:13:25

數(shù)據(jù)庫(kù)運(yùn)維

2023-09-28 08:24:19

OSCAR運(yùn)維系統(tǒng)

2022-06-02 13:35:15

網(wǎng)絡(luò)監(jiān)控系統(tǒng)

2023-06-15 15:11:01

數(shù)據(jù)中心服務(wù)器

2022-08-16 07:49:48

云原生數(shù)據(jù)庫(kù)系統(tǒng)

2023-09-01 08:31:07

數(shù)據(jù)庫(kù)SysstatMetric

2022-09-08 10:08:31

阿里云可觀測(cè)云原生

2018-01-12 09:34:17

數(shù)據(jù)庫(kù)技術(shù)能力

2022-06-07 13:48:25

可觀測(cè)性架構(gòu)系統(tǒng)開發(fā)

2021-11-19 09:40:50

數(shù)據(jù)技術(shù)實(shí)踐

2023-10-13 13:40:29

2023-10-08 08:09:16

數(shù)據(jù)庫(kù)性能服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)