AIOps智能運維=機器學習+自動化運維
在互聯(lián)網(wǎng)和數(shù)字化成為全球經(jīng)濟增長新引擎的今天,企業(yè)管理和業(yè)務(wù)運行與IT系統(tǒng)健康息息相關(guān),高效的IT管理能幫助企業(yè)在瞬息萬變的市場競爭中獲得快人一步的競爭優(yōu)勢。然而云計算、虛擬化和微服務(wù)技術(shù)的應(yīng)用使得企業(yè)IT系統(tǒng)越來越龐大而復(fù)雜,要滿足高性能的業(yè)務(wù)運行需求絕非易事。
特別是為了提升用戶訪問體驗而廣泛采用的分布式應(yīng)用系統(tǒng)和CDN資源,以及越來越復(fù)雜的網(wǎng)絡(luò)接入環(huán)境,使得IT部門很難第一時間發(fā)現(xiàn)IT故障的發(fā)生。企業(yè)為了保障系統(tǒng)的高可用,降低故障率,往往會進一步擴大IT系統(tǒng)規(guī)模,于是業(yè)務(wù)增長越快、IT規(guī)模越大,IT管理的負擔越重。
在2016年,Gartner針對IT發(fā)展和運維管理的困境,提出了一種全新的運維管理方法,以減輕企業(yè)IT的負擔,提升管理效率,這就是AIOps智能運維。AIOps是Algorithmic IT Operations的縮寫,從字面上看是一種基于算法的運維方式,區(qū)別于傳統(tǒng)的人工運維和自動化運維,通過基于運維大數(shù)據(jù)的機器學習,用智能決策逐步取代人工決策,提升IT管理效率,因此國內(nèi)業(yè)務(wù)運維企業(yè)云智慧把AIOps稱為智能運維。
AIOps的落地,將把日常的IT管理工作移交給擁有機器學習和自動化運維的智能運維平臺,大大降低企業(yè)管理的時間成本和資金投入。而運維管理人員也可以從篩查海量告警信息、執(zhí)行重復(fù)性巡檢任務(wù)、人工判斷故障、手動解決問題的低效工作中釋放出來,專注于構(gòu)建更加高效、高擴展的IT系統(tǒng),支持企業(yè)的數(shù)字化業(yè)務(wù)發(fā)展,這也就是業(yè)界所倡導(dǎo)的“IT從運維到運營”之路。
AIOps智能運維平臺還能有效預(yù)測潛在的IT故障,并在無需人為干預(yù)的情況下提前解決掉這些問題,而應(yīng)用系統(tǒng)故障率的降低,將有效提高云計算資源的使用效率。這得益于機器學習和深度學習算法在IT監(jiān)控和應(yīng)用性能管理系統(tǒng)中的持續(xù)積累,不斷記錄IT運維人員在不同場景下使用故障排除或修復(fù)基本問題的自動化工具的操作。當針對不同型號設(shè)備、不同應(yīng)用系統(tǒng)、不同的云平臺的學習樣本數(shù)據(jù)足夠豐富時,AIOps智能運維平臺就可以自動評估系統(tǒng)的健康狀態(tài),如CPU使用率、磁盤吞吐率、設(shè)備故障率等,如果發(fā)現(xiàn)了系統(tǒng)的異常活動,就能提前自動觸發(fā)相關(guān)運維操作。
企業(yè)采用AIOps的能力不僅取決于IT監(jiān)控系統(tǒng)的數(shù)據(jù)規(guī)模和自動化系統(tǒng)的可用性,還取決于人員和流程的一致性。服務(wù)商可以在很短時間內(nèi)把AIOps智能運維平臺部署到企業(yè),但任何管理轉(zhuǎn)型都不是安裝一套系統(tǒng)那么簡單,需要根據(jù)業(yè)務(wù)特點對人員和流程進行調(diào)整,而這往往需要更多的時間。
要衡量AIOps智能運維平臺在企業(yè)中的實施效果,可以重點關(guān)注兩項關(guān)鍵指標,平均故障恢復(fù)時間(MTTR)和事務(wù)(故障)處理數(shù)量,這兩項指標反映到客戶滿意度上,就是AIOps的價值。
以機器學習、深度學習為代表的人工智能技術(shù)的成熟,為利用IT手段持續(xù)改善企業(yè)經(jīng)營水平和服務(wù)質(zhì)量鋪平了道路。而AIOps以IT大數(shù)據(jù)為切入點,率先解決了所有數(shù)字化和互聯(lián)網(wǎng)+轉(zhuǎn)型企業(yè)所面臨的業(yè)務(wù)與IT系統(tǒng)斷層的問題。雖然大多數(shù)機器學習項目可能需要多年才能看到價值,但AIOps平臺可以用最小的代價為企業(yè)運營帶來卓越的投資回報。同時,這筆投資可以長期持續(xù)的提供業(yè)務(wù)價值和提升用戶口碑。