我為什么要把退休前的這段時間都用在和運維知識自動化系統(tǒng)死磕上
?我的團(tuán)隊做系統(tǒng)優(yōu)化是從2003年開始的。應(yīng)HP SERVICE的邀請,2003年我加入了他們的海爾系統(tǒng)優(yōu)化組,負(fù)責(zé)Oracle數(shù)據(jù)庫的優(yōu)化工作。這是我第一次參加大型系統(tǒng)的優(yōu)化工作,甚至那時候我還不知道一個大型售后服務(wù)系統(tǒng)的優(yōu)化該從何處入手。我是帶著李維斯的一本書出發(fā)去青島參加這個優(yōu)化項目的,通過這個項目,我對Oracle數(shù)據(jù)庫的優(yōu)化有了初步的認(rèn)識。后來我又幫助HP完成了對華為SCM系統(tǒng)所采用的CAF平臺的性能評估,并對決策者建議及時中止這個項目,避免更大的資金浪費,因為這個項目已經(jīng)無法優(yōu)化了。后來HP采納了我的建議,關(guān)閉了基于CAF平臺的項目,華為也重新選擇了Oracle EBS作為SCM系統(tǒng)和ERP系統(tǒng)的基礎(chǔ)。從那以后,我們的團(tuán)隊規(guī)模越來越大,做的優(yōu)化項目也越來越多,也鍛煉出了一批做系統(tǒng)優(yōu)化的專家。
2011年,我們開始幫助國家電網(wǎng)做系統(tǒng)優(yōu)化,剛開始的幾個項目在專家的帶隊下,效果都特別好??蛻粝M覀償U大優(yōu)化范圍,制訂了一個需要近百名DBA的大型優(yōu)化項目。我們從很多合作伙伴處招募了數(shù)十名DBA共同參與這個項目,為了確保項目的質(zhì)量,我們對整個團(tuán)隊進(jìn)行了多次集中培訓(xùn)。不過最后這個項目做下來效果很不理想,最主要的原因就是DBA的能力參差不齊,大多數(shù)沒有參加過大型優(yōu)化項目。從那個項目開始,我也在思考傳統(tǒng)的依靠人和專家的運維模式存在的問題,希望找到一條道路,能夠讓專家的經(jīng)驗發(fā)揮更大的作用。這是我開發(fā)D-SMART,一個運維知識自動化系統(tǒng)的初衷。要想構(gòu)建一個知識自動化系統(tǒng),必須提高運中的數(shù)字化程度。不過傳統(tǒng)行業(yè)IT運維的數(shù)字化程度很低。其主要原因有幾個方面。
資源有限:很多企業(yè)可能沒有足夠的資源去投入研發(fā)和實施智能化運維系統(tǒng),或者可能認(rèn)為將資源投入其他方面更有回報。
文化因素:一些企業(yè)可能更愿意依靠人工經(jīng)驗而不是自動化系統(tǒng),可能是因為他們?nèi)狈ψ詣踊到y(tǒng)的信任,或者他們可能認(rèn)為在緊急情況下專家的判斷比機器更可靠。
技術(shù)限制:一些企業(yè)可能缺乏必要的技術(shù)基礎(chǔ)設(shè)施來支持智能化運維系統(tǒng),這可能需要較高的成本投入來升級設(shè)備和系統(tǒng)。
意識不足:一些企業(yè)可能沒有意識到數(shù)字化運維的潛在優(yōu)勢,或者可能沒有足夠的知識和了解數(shù)字化運維的實施方法。
雖然傳統(tǒng)行業(yè)在運維數(shù)字化上存在各種認(rèn)知的不足,但隨著技術(shù)的發(fā)展和數(shù)字化的日益重要,智能化運維將成為未來信息系統(tǒng)運維的一個趨勢,也是一個必然的方向。
反思我們這些年做系統(tǒng)優(yōu)化與運維的工作經(jīng)歷,經(jīng)驗不足的技術(shù)人員是導(dǎo)致優(yōu)化工作效果不佳的重要因素。優(yōu)化工作需要專業(yè)知識和技能,而不是僅僅依靠經(jīng)驗??赡苄枰酉到y(tǒng)化的培訓(xùn)來確保所有參與優(yōu)化工作的人員具備必要的技能和知識。此外,優(yōu)化工作的效果也受到多個因素的影響,如系統(tǒng)設(shè)計,數(shù)據(jù)質(zhì)量和優(yōu)化工作的過程等。
隨著技術(shù)的不斷發(fā)展,現(xiàn)在已經(jīng)有許多智能化的算法與方法可供使用,可以大大提高運維效率和減少人為錯誤。通過運維知識自動化工具可以提供智能化分析和自動化操作,以幫助DBA更好地管理和優(yōu)化系統(tǒng)。如果企業(yè)有足夠的資源,可以考慮引入這些工具和系統(tǒng)來改善運維效率。“運維知識自動化系統(tǒng)”結(jié)合了大數(shù)據(jù)分析、人工智能等技術(shù),以及專家經(jīng)驗和工作積累,構(gòu)建了一個全面的運維知識體系,可以幫助提高運維工作的效率和質(zhì)量。通過監(jiān)控指標(biāo)體系、健康模型、運維知識圖譜、異常檢測算法等技術(shù),“運維知識自動化系統(tǒng)”可以自動化地分析和解決系統(tǒng)性能問題,同時還能提供智能化的優(yōu)化建議和決策支持,為企業(yè)的運維工作提供了強有力的支持。
實際上D-SMART系統(tǒng)開發(fā)的最重要的目的是對我們這個團(tuán)隊這二十多年在IT運維與系統(tǒng)優(yōu)化上的經(jīng)驗的總結(jié),讓團(tuán)隊中的專家把這些年積累的經(jīng)驗變成可自動化執(zhí)行的數(shù)字化知識庫。并通過不斷的迭代知識庫,讓運維知識不斷的能夠在平臺中沉淀與積累,從而不斷提升自動化分析的能力。
這個系統(tǒng)的研發(fā)不僅僅依賴于研發(fā)團(tuán)隊,知識工具的研發(fā)完全由DBA完成,而沒有借助于普通的運維人員。這是因為普通的研發(fā)人員并不了解IT運維,不了解數(shù)據(jù)庫,不了解性能優(yōu)化。只有做過運維工作的DBA才能夠更加準(zhǔn)確的把專家的思路變成自動化的工具。
D-SMART系統(tǒng)的起點是指標(biāo)體系,我認(rèn)為指標(biāo)是專家經(jīng)驗的一部分,而且是十分重要的一部分,專家認(rèn)知后的指標(biāo)才是可以完全解讀的指標(biāo)。而目前很多數(shù)據(jù)庫監(jiān)控軟件提供的很多指標(biāo),運維人員無法正確解讀,哪怕這些指標(biāo)出現(xiàn)了異常,可能也無法被發(fā)現(xiàn),或者說發(fā)現(xiàn)了指標(biāo)異常也無法感知到系統(tǒng)哪個地方出現(xiàn)了問題。而專家梳理出來的指標(biāo)數(shù)據(jù)都是單一可被專家解讀的,因此每個指標(biāo)都會被專家進(jìn)行標(biāo)注,打上特定的標(biāo)簽。
D-SMART的第二步是完成指標(biāo)的準(zhǔn)確采集,準(zhǔn)確的采集到每個指標(biāo)的數(shù)據(jù)對于智能化運維系統(tǒng)來說十分關(guān)鍵。要確保每個數(shù)據(jù)都能夠準(zhǔn)確的反映出數(shù)據(jù)庫的真實狀態(tài)十分關(guān)鍵。很多數(shù)據(jù)被采集回來后,需要經(jīng)過加工才能變成可被使用的指標(biāo),這些加工算法里也體現(xiàn)了專家的經(jīng)驗。通過這個步驟,D-SMART系統(tǒng)在不斷的獲取數(shù)據(jù)庫運行狀態(tài)的數(shù)字化模型。
第三步是對采集回來的指標(biāo)、日志數(shù)據(jù)進(jìn)行自動化的建模分析。我們通過健康模型判斷數(shù)據(jù)庫的運行狀態(tài)是否正常,是否存在風(fēng)險;通過性能模型了解數(shù)據(jù)庫的總體性能狀態(tài);通過負(fù)載模型了解數(shù)據(jù)庫當(dāng)前的負(fù)載情況;通過故障模型發(fā)現(xiàn)數(shù)據(jù)庫可能存在的隱患,并及時報警。
第四步是利用這些被采集回來的數(shù)據(jù)自動完成各種巡檢工作。比如日檢,每天半夜系統(tǒng)會自動對前一天采集的數(shù)據(jù)做分析,發(fā)現(xiàn)其中的風(fēng)險與隱患,并生成日檢報告。每個月或者每個星期,可以定制任務(wù)對最近采集的數(shù)據(jù)進(jìn)行自動化分析,生成巡檢報告。這種巡檢能夠分析全面的數(shù)據(jù),比傳統(tǒng)的靠人工采集數(shù)據(jù),人工進(jìn)行分析的方式擁有更為豐富的數(shù)據(jù)。通過自動化分析的算法也更加高效。
利用這些數(shù)據(jù),還可以做很多有價值的分析工作,比如容量預(yù)測、性能優(yōu)化、專項審計等。同時利用標(biāo)準(zhǔn)化的指標(biāo)體系,我們還可以構(gòu)建一線運維與二三線運維的數(shù)字化溝通,通過完善的指標(biāo)集,可以盡可能全面的為三線運維提供數(shù)據(jù)庫運行的全景視圖,真正做到不用到現(xiàn)場,專家可以盡知天下事。
前陣子80多歲的母親一定要給我過個生日,這些年在外面跑,已經(jīng)有十多年沒有過生日了。插蠟燭的時候才發(fā)現(xiàn),過完生日已經(jīng)54歲,離退休已經(jīng)時日無多了。我想在現(xiàn)在還能做點事情的時候,盡可能的能夠把這些年積累的經(jīng)驗都數(shù)字化了,能夠留下來,這樣也就沒有遺憾了。