自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從如何更好的監(jiān)控Oracle共享池談起

數(shù)據(jù)庫 Oracle
監(jiān)控與診斷實際上也是一種運維知識,開發(fā)監(jiān)控與診斷工具,產(chǎn)品經(jīng)理中應(yīng)該有資深的運維專家,僅僅依靠高水平的研發(fā)人員是開發(fā)不出一套真正高水平的運維監(jiān)控與診斷工具的。而對于一些比較脆弱的數(shù)據(jù)庫模塊的監(jiān)控采集,也需要十分謹慎的做設(shè)計,否則監(jiān)控軟件會成為偽裝成天使的惡魔。

?二十年前搞Oracle運維的時候,被折騰得最厲害的是共享池的問題,ORA-4031絕對是DBA必須面對的,也是最束手無措的錯誤。很多DBA面試官也會問大量的共享池診斷與優(yōu)化的問題,雖然他自己對很多問題的了解也不過如此。

今早的這篇文章的主體結(jié)構(gòu)是昨天下班前寫出來的,今早做了一些補充就發(fā)出來了。因為昨天上午我一直在做D-SMART這個部分的優(yōu)化設(shè)計,這篇文章實際上是我這一天工作的一些總結(jié)。

Oracle 10G以后有了SGA動態(tài)分配的能力,而且服務(wù)器的內(nèi)存也從MB級別進入到了VLM的級別,共享池和ORA-4031的問題也就見得少了。在D-SMART里,針對ORA-4031的監(jiān)控功能比較少,只提供了一些用于分析的工具,不過這幾年也很少能發(fā)揮作用。

最近一個客戶的數(shù)據(jù)庫因為遇到BUG導致了一個實例出現(xiàn)ORA-4031,必須重啟才能解決問題。用戶提出了針對ORA-4031問題能否加強監(jiān)控與分析。我這幾天也一直在考慮這個問題。Oracle數(shù)據(jù)庫中最脆弱和最復雜的組件就是SHARED POOL,對SHARED POOL的監(jiān)控一定要特別小心。十多年前給用戶做Oracle服務(wù)的時候也經(jīng)常遇到采集SHARED POOL的數(shù)據(jù)的時候把數(shù)據(jù)庫實例HANG死的問題。我甚至養(yǎng)成了采集共享池數(shù)據(jù)的時候一定另外開好另外一個窗口,一旦有問題立馬殺掉采集的會話。

可能很多朋友開發(fā)的Oracle監(jiān)控工具里都有共享池監(jiān)控的功能,他們也覺得監(jiān)控共享池的手段是很豐富的,為什么我們會把這件事搞得這么復雜呢?

圖片

在D-SMART的共享池數(shù)據(jù)采集方面,我也是十分謹慎的,不希望因為監(jiān)控工具設(shè)計的不慎而導致原本負載過高的數(shù)據(jù)庫實例被監(jiān)控腳本搞垮。在V2.2版本的D-SMART中,和SHARED POOL相關(guān)的指標都是通過比較穩(wěn)妥的系統(tǒng)視圖采集的。如今要加強共享池數(shù)據(jù)的采集,首先想到的就是v$sgastat,因為Oracle的AWR也會采集這個視圖里的數(shù)據(jù)。

為了確認訪問的視圖的風險,我們需要找出視圖訪問的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),如果需要大量掃描共享池,那么就應(yīng)該盡可能避免。通過下面的腳本可以查找相關(guān)信息。

SELECT view_definition FROM v$fixed_view_definition        WHERE view_name='GV$SGASTAT';

圖片

可以看出,GV$SGASTAT的基礎(chǔ)視圖是x$ksmfs ,x$ksmss ,x$ksmls ,x$ksmjs ,x$ksmns, x$ksmstrs,這些基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)都是匯總KGH的數(shù)據(jù)的,本身不需要遍歷KGH,因此風險都不大。

圖片

比如ksmss存儲了共享對象的一些屬性,雖然不會在訪問該對象時持有shared pool的閂鎖,不過訪問過程中也會對共享池內(nèi)的對象的變更產(chǎn)生影響。因此雖然我們可以比較安全的采集數(shù)據(jù),不過也不適合過于頻繁。這樣的指標的采集,每個小時一次就可以了。

column indx heading "indx|indx num" 

column kghlurcr heading "RECURRENT|CHUNKS"

column kghlutrn heading "TRANSIENT|CHUNKS"

column kghlufsh heading "FLUSHED|CHUNKS"

column kghluops heading "PINS AND|RELEASES"

column kghlunfu heading "ORA-4031|ERRORS"

column kghlunfs heading "LAST ERROR|SIZE"

select   indx,  kghlurcr,  kghlutrn,  kghlufsh,  kghluops,  kghlunfu,  kghlunfs from  sys.x$kghlu where   inst_id = userenv('Instance')

圖片

對于監(jiān)控共享池的情況來說,kghlu數(shù)據(jù)結(jié)構(gòu)更為有效,可以十分詳細地查看到共享池中的每個子池的統(tǒng)計信息。

圖片

特別是kghlunfu/ kghlunfs這兩個字段,顯示了每個子池出現(xiàn)的ORA-4031錯誤的次數(shù)以及最后一次分配錯誤所需分配的空間的大小。一般來說如果在某個子池中分配共享池空間失敗只是一個miss,此時會從另外一個池中分配,直到所有的子池中都無法分配空間,才會真正的出現(xiàn)FAILURE。因此ERRORS數(shù)量真正指出了共享池內(nèi)存無法分配空間的情況。對該內(nèi)存結(jié)構(gòu)的監(jiān)控可以比較準確地反映出共享池碎片產(chǎn)生的后果。不過這個數(shù)據(jù)結(jié)構(gòu)的訪問也需要通過相關(guān)閂鎖,并且這個結(jié)構(gòu)的訪問頻率要比前面所提的那些結(jié)構(gòu)要頻繁。因此對該數(shù)據(jù)結(jié)構(gòu)的采集依然不建議過于頻繁,一個小時采集一次已經(jīng)足夠了。

圖片

為什么這樣說呢?kghlu中的kghlusep指針是一個十分重要的指針,它指向了共享池LRU鏈上的一個關(guān)鍵位置,那個位置分割了共享池LRU鏈的冷熱區(qū)。當新的CHUNK要加入LRU鏈的時候,是添加在該指針左側(cè)的冷區(qū)尾部。而冷區(qū)中的CHUNK被多次訪問時會遷移到LRU鏈的熱端,以便于被重用。因此這個指針是訪問十分頻繁的,采集該結(jié)構(gòu)的數(shù)據(jù)要格外謹慎。

x$kghlu經(jīng)常被某些數(shù)據(jù)庫監(jiān)控軟件用來監(jiān)控共享池問題,不過頻繁的訪問這個數(shù)據(jù)結(jié)構(gòu)還是會對數(shù)據(jù)庫產(chǎn)生影響的,特別是數(shù)據(jù)庫并發(fā)比較大,共享池存在性能問題的時候,如果過于頻繁的監(jiān)控這個數(shù)據(jù)結(jié)構(gòu),可能會產(chǎn)生一些相當嚴重的問題。如果知道了這一點,我想大家應(yīng)該理解為什么我會對共享池的監(jiān)控數(shù)據(jù)采集如此謹慎了。

col "avg size" format a30 truncate;

col siz format 999999999999

SELECT KSMCHCLS CLASS, COUNT(KSMCHCLS) NUM, SUM(KSMCHSIZ) SIZ,To_char( ((SUM(KSMCHSIZ) /COUNT(KSMCHCLS) /1024)), '999,999.00')||'k' "AVG SIZE" FROM X$KSMSP GROUP BY KSMCHCLS;

圖片

實際上要分析shared pool的風險,上面的語句具有更好的效果,如果發(fā)現(xiàn)perm內(nèi)存不斷增長,free的平均大小不斷下降,甚至低于4KB,那么說明共享池出現(xiàn)了較大的碎片化風險。而下面的語句可以作更細致的分析。

col sga_heap format a15

col size format a10

select KSMCHIDX "SubPool", 'sga heap('||KSMCHIDX||',0)'sga_heap,ksmchcom ChunkComment,decode(round(ksmchsiz/1000),0,'0-1K', 1,'1-2K', 2,'2-3K',3,'3-4K',4,'4-5K',5,'5-6k',6,'6-7k',7,'7-8k',8,'8-9k', 9,'9-10k','> 10K') "size" ,count(*),ksmchcls Status, sum(ksmchsiz) Bytes from x$ksmsp where KSMCHCOM = 'free memory' group by ksmchidx, ksmchcls,'sga heap('|| KSMCHIDX||',0)',ksmchcom, ksmchcls,decode(round(ksmchsiz/1000),0,'0-1K',1,'1-2K', 2,'2-3K', 3,'3-4K',4,'4-5K',5,'5-6k',6,'6-7k',7,'7-8k',8,'8-9k', 9,'9-10k','> 10K');

圖片

這條SQL可以采集到共享池中free內(nèi)存的詳細情況,如果較大的heap比較少時,共享池的碎片化就很嚴重了。

似乎我們可以直接對x$ksmsp直接做采集,從而獲得對共享池分析的更有效的數(shù)據(jù)。不過真的如此嗎?我們?nèi)绻匆幌聏$ksmsp的實際結(jié)構(gòu),就會明白為什么我們不想把這個采集放到自動化采集的腳本中,更好的采集共享池的信息了。

圖片

我們可以看到ksmsp實際上指向了一個kghds的鏈表,而這個鏈表實際上是指向真實的heap鏈,對x$ksmsp的統(tǒng)計實際上會遍歷heap鏈表,對于共享池很大,并且共享池并發(fā)訪問很重,特別是共享池存在性能問題的場景,這種訪問無疑會加重共享池的負擔,甚至成為壓垮駱駝的最后一根稻草。如果這種采集放到不受控的自動化采集中去,那可能會帶來不可知的影響。因此這種分析我們只是在手工點擊的工具中提供,而不會做成自動化采集的一部分。

監(jiān)控與診斷實際上也是一種運維知識,開發(fā)監(jiān)控與診斷工具,產(chǎn)品經(jīng)理中應(yīng)該有資深的運維專家,僅僅依靠高水平的研發(fā)人員是開發(fā)不出一套真正高水平的運維監(jiān)控與診斷工具的。而對于一些比較脆弱的數(shù)據(jù)庫模塊的監(jiān)控采集,也需要十分謹慎的做設(shè)計,否則監(jiān)控軟件會成為偽裝成天使的惡魔。

責任編輯:武曉燕 來源: 白鱔的洞穴
相關(guān)推薦

2021-12-13 22:15:29

SQLOracle共享池

2024-06-11 09:22:51

2017-04-25 16:45:11

2022-11-02 08:36:35

ArgoAIOPS

2017-10-31 20:12:35

玩客云迅雷

2009-03-19 10:24:27

全文檢索文本定位Oracle

2022-10-13 08:32:44

手機故障IO

2024-04-16 08:08:54

DTC國產(chǎn)庫產(chǎn)品

2009-08-10 10:00:34

CentOS未來Linux企業(yè)版

2015-11-18 09:56:24

數(shù)據(jù)中心監(jiān)控

2025-03-11 00:35:00

DeepSeektoC業(yè)務(wù)

2010-01-05 10:11:23

ADO.NET連接池

2012-05-10 17:21:49

三星Tizen

2018-02-07 17:32:54

情感分析

2009-05-19 09:55:11

IDC

2017-07-03 13:53:17

大數(shù)據(jù)大數(shù)據(jù)平臺數(shù)據(jù)治理

2009-07-21 11:05:49

關(guān)閉ADO.NET連接

2021-08-27 09:58:25

國家網(wǎng)絡(luò)安全網(wǎng)絡(luò)安全安全風險

2021-08-27 14:39:43

網(wǎng)絡(luò)安全威脅

2012-01-05 10:13:54

云計算SLA
點贊
收藏

51CTO技術(shù)棧公眾號