自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我們一起學(xué)學(xué)遇到重大運(yùn)維問題時(shí)的保命原則

運(yùn)維
在一些特別嚴(yán)重的運(yùn)維故障發(fā)生時(shí),以自己的能力范圍來選擇采取的措施,先考慮那些風(fēng)險(xiǎn)與危害較小,自己比較擅長的方式去處置,是DBA保命的重要原則。這種事故一旦變成大故障,肯定是要有人出來擔(dān)責(zé)的,DBA是最好的替罪羊。

如果你遇到了某個(gè)重大的運(yùn)維問題,采取什么樣的措施才是正確的呢?搞清楚這一點(diǎn)相當(dāng)重要,如果出現(xiàn)策略選擇錯(cuò)誤,那很可能會(huì)丟飯碗的。前幾天和一個(gè)經(jīng)歷過十年前一次十分著名的大故障的DBA聊天,最后難免會(huì)問到那次事故。我十分喜歡聽別人談教訓(xùn)而不是談經(jīng)驗(yàn),因?yàn)槌晒Φ慕?jīng)驗(yàn)往往大同小異,唯有教訓(xùn)才是金錢也買不來的。雖然回顧慘痛的教訓(xùn)對(duì)于當(dāng)事者而言有些殘酷,不過這種回顧往往是價(jià)值的提煉。

他回顧完這個(gè)事件后說,當(dāng)時(shí)我們的最大錯(cuò)誤決策是按照廠家的建議去停了那個(gè)第三方復(fù)制設(shè)備,其實(shí)在這種業(yè)務(wù)高峰疊加設(shè)備性能故障的場景中,很多因素是不確定的,對(duì)于第三方設(shè)備的特性我們也是知之甚少,當(dāng)時(shí)不應(yīng)該做這種操作,而是應(yīng)該先通過業(yè)務(wù)限流的方式讓系統(tǒng)能維持運(yùn)行,等營業(yè)廳下班后,非業(yè)務(wù)高峰期再去做高風(fēng)險(xiǎn)的動(dòng)作。如果那樣,那次事故可能能避免了。

他談到的這個(gè)問題就是我今天要談的第一條原則,在各種處置策略中,先選擇最為簡單的,風(fēng)險(xiǎn)小的處置策略;在承擔(dān)的責(zé)任中,要選擇責(zé)任小的責(zé)任來承擔(dān),比如說系統(tǒng)運(yùn)行性能雖然大幅下降,但是還在業(yè)務(wù)能忍受范圍內(nèi),并無惡化跡象的時(shí)候,我們可以選擇承擔(dān)這次性能故障的責(zé)任。如果我們不想承擔(dān)這個(gè)責(zé)任,非要在短時(shí)間內(nèi)解決問題,那么也要盡可能在自身能力范圍內(nèi)去做優(yōu)化調(diào)整。如果當(dāng)時(shí)的故障已經(jīng)超出了自身的能力范圍,那么寧可承擔(dān)這個(gè)小一點(diǎn)的責(zé)任也不要冒險(xiǎn)去犯錯(cuò)誤,從而承擔(dān)更大的責(zé)任。

在實(shí)際工作中,能夠想明白這一點(diǎn),并按照上面的原則去做并不容易,我們?cè)趯?shí)際工作中看到的往往是一些更小的運(yùn)維故障因?yàn)樘幹貌划?dāng)而導(dǎo)致超級(jí)大故障的案例。比如說Oracle RAC有一個(gè)節(jié)點(diǎn)故障宕機(jī)了,這時(shí)候我們應(yīng)該做什么操作呢?大多數(shù)朋友可能會(huì)選擇重新啟動(dòng)一下,也有些朋友會(huì)選擇觀望,什么都不做。

實(shí)際上,如果是一些負(fù)載較高的核心業(yè)務(wù)系統(tǒng),那么我們應(yīng)該首先檢查活著的節(jié)點(diǎn)的日志,看看是否存在異常,是否存在也宕機(jī)的風(fēng)險(xiǎn)。然后去觀察活著節(jié)點(diǎn)的活躍會(huì)話數(shù)、會(huì)話數(shù)、負(fù)載、等待事件等,看看有沒有風(fēng)險(xiǎn)。如果存在風(fēng)險(xiǎn),先通過殺會(huì)話把系統(tǒng)穩(wěn)定住。等一切穩(wěn)定后,才去分析宕機(jī)的原因,并判斷重啟故障實(shí)例的風(fēng)險(xiǎn)。

如果你無法判斷風(fēng)險(xiǎn),而當(dāng)時(shí)正好是業(yè)務(wù)高峰,那么你可以選擇暫時(shí)不重啟故障節(jié)點(diǎn),等業(yè)務(wù)高峰過去后再去處理。最為忌諱的是,RAC故障切換后不久,業(yè)務(wù)還沒有穩(wěn)定之前就去重啟故障節(jié)點(diǎn)。采取這種做法的慘痛案例比比皆是。

第二個(gè)原則是不要以為一切都在你的掌握之中,作為DBA ,數(shù)據(jù)中心里你不了解的東西太多了,因此考慮問題的時(shí)候必須要留有余地。不要選擇看似最佳的解決方案。

大概是十五年前吧,某企業(yè)的數(shù)據(jù)中心經(jīng)歷了一次機(jī)房雙路停電的事故。雖然數(shù)據(jù)中心是兩路供電的,但是供電公司的兩路電同時(shí)故障。這種故障是因?yàn)閿?shù)據(jù)中心建設(shè)時(shí)選擇雙路供電時(shí)為了省錢導(dǎo)致的,雖然兩路電來自于兩個(gè)220KV變電站,但是上位變電站是同一個(gè),上位站故障兩路電就都沒了,而且供電公司無法給出明確的修復(fù)時(shí)間。

在應(yīng)對(duì)這個(gè)問題的時(shí)候,我和他們的IT主管通電話討論策略,我的策略是先把核心業(yè)務(wù)系統(tǒng)和存儲(chǔ)都停了,外圍系統(tǒng)先跑著。我的理由是適逢盛夏,如果三四個(gè)小時(shí)不來電,UPS雖然能撐得住,但是機(jī)房溫度會(huì)過高,把核心系統(tǒng)停了,也就是幾個(gè)小時(shí)的停機(jī)。但是IT主管不同意這個(gè)方案,他認(rèn)為如果把外圍系統(tǒng)都停了,八個(gè)小時(shí)內(nèi)能恢復(fù)供電,他的UPS也都撐得住,保住了核心系統(tǒng),那就是大功一件。對(duì)于機(jī)房溫度的事情,他立即找到了制冰公司,讓他們送冰塊到機(jī)房降溫。

最后的結(jié)局機(jī)房溫濕度超標(biāo)導(dǎo)致核心存儲(chǔ)系統(tǒng)自動(dòng)保護(hù),有損自動(dòng)關(guān)機(jī)。核心系統(tǒng)數(shù)據(jù)庫出現(xiàn)大量壞塊,ADG備機(jī)存儲(chǔ)同樣故障,磁帶庫磁帶損壞,無法恢復(fù)。最后我們通過BBED幫他忙強(qiáng)行拉起了數(shù)據(jù)庫,把數(shù)據(jù)導(dǎo)出后重新建庫、補(bǔ)充丟失數(shù)據(jù)。核心系統(tǒng)2天后才恢復(fù)對(duì)內(nèi)服務(wù),一星期后才恢復(fù)對(duì)外提供查單業(yè)務(wù),給企業(yè)聲譽(yù)造成了很大的影響。

在一些特別嚴(yán)重的運(yùn)維故障發(fā)生時(shí),以自己的能力范圍來選擇采取的措施,先考慮那些風(fēng)險(xiǎn)與危害較小,自己比較擅長的方式去處置,是DBA保命的重要原則。這種事故一旦變成大故障,肯定是要有人出來擔(dān)責(zé)的,DBA是最好的替罪羊。

責(zé)任編輯:武曉燕 來源: 白鱔的洞穴
相關(guān)推薦

2022-04-01 08:27:30

告警收斂運(yùn)維監(jiān)控

2022-07-28 08:52:08

Docker命令操作系統(tǒng)

2022-04-07 09:29:04

文件系統(tǒng)硬盤操作系統(tǒng)

2022-12-09 08:34:38

嵌入式Web容器

2022-11-03 07:51:54

運(yùn)維體系監(jiān)控

2022-01-10 06:52:59

拖拽庫項(xiàng)目搜索

2021-12-14 09:34:31

丑數(shù)順序指針

2024-05-15 08:05:22

運(yùn)維SQL語言

2023-11-06 08:28:43

2023-10-26 08:38:43

SQL排名平分分區(qū)

2023-05-29 09:07:10

SQLpageSize主鍵

2025-01-13 00:00:00

配置Redis腦裂

2024-02-28 08:41:51

Maven沖突版本

2021-10-11 10:25:33

排列nums數(shù)組

2023-04-26 07:30:00

promptUI非結(jié)構(gòu)化

2017-01-22 15:09:08

架構(gòu)閉環(huán)演進(jìn)

2024-12-04 08:44:25

OS集中式數(shù)據(jù)庫

2022-10-08 00:00:05

SQL機(jī)制結(jié)構(gòu)

2022-01-17 06:59:40

Grep指令linux

2021-12-29 08:27:05

ByteBuffer磁盤服務(wù)器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)