如何讓運維不再當(dāng)落后技術(shù)的背鍋俠?
近年來,企業(yè)業(yè)務(wù)規(guī)模的急劇上升,導(dǎo)致運維場景的復(fù)雜性也呈指數(shù)性上升,原本依靠人工經(jīng)驗的運維工作難度也變得更具有挑戰(zhàn)性,而基于機器學(xué)習(xí)的智能運維(AIOps)開始得到企業(yè)IT人員的關(guān)注。
AIOps(Algorithmic IT operations platforms),即基于算法的IT 運維平臺,也是DevOps未來發(fā)展的一個趨勢。簡言之,AIOps將機器學(xué)習(xí)算法引入運維中的監(jiān)控和故障分析領(lǐng)域,如通過算法、建模、推理等方法,以輔助DevOps 提升效率,降低業(yè)務(wù)及系統(tǒng)出現(xiàn)的風(fēng)險故障系數(shù)。雷鋒網(wǎng)發(fā)現(xiàn),常見的如時間序列異常檢測、故障根因分析、業(yè)務(wù)調(diào)度等工作均是當(dāng)下運維人員所面臨的挑戰(zhàn)。
那么,智能化運維(AIOps)如何在真實業(yè)務(wù)場景中落地?Gartner為用戶指出了三點建議:
- 一是通過增量方法確保成功部署AIOps的各項功能。
- 二是選擇能夠支持廣泛的歷史和流數(shù)據(jù)類型的AIOps平臺。
- 三是選擇能夠在IT運營導(dǎo)向的分析和機器學(xué)習(xí)的四個階段系統(tǒng)進(jìn)步的工具。
為此,雷鋒網(wǎng)整理了Gartner最新公布的《AIOps平臺市場指南》,以幫助用戶快速了解當(dāng)前新興AIOps市場情況。
主要發(fā)現(xiàn)
AIOps在企業(yè)IT運營中的應(yīng)用正逐漸升溫,其中,一些更為成熟的組織則正利用該技術(shù)為企業(yè)領(lǐng)導(dǎo)者提供洞察力。
AIOps技能和IT運營成熟度是確保其快速實現(xiàn)價值的常見因素,此外,數(shù)據(jù)質(zhì)量成為更為成熟部署架構(gòu)時的新挑戰(zhàn)。
企業(yè)采用AIOps平臺以增強應(yīng)用性能監(jiān)測工具(APM)和網(wǎng)絡(luò)性能檢測與診斷工具(NPMD)。
供應(yīng)商正制定使用機器學(xué)習(xí)的戰(zhàn)略,以分析IT運營在數(shù)量、種類及速度等方面遇到的數(shù)據(jù)挑戰(zhàn)。與此同時,他們也在構(gòu)建數(shù)據(jù)存儲和人工智能實踐定制化的能力。
定義
AIOps平臺利用大數(shù)據(jù)和機器學(xué)習(xí),通過可擴展性和對不斷增長的數(shù)據(jù)進(jìn)行分析,以達(dá)到對所有主流IT操作功能的支持。該平臺支持同時使用多個數(shù)據(jù)源、數(shù)據(jù)收集方法以及分析和演示技術(shù)。
AIOps可以增強廣泛的IT運營流程和任務(wù),包括性能分析、異常檢測、事件關(guān)聯(lián)和分析、IT服務(wù)管理和自動化。其核心功能包括:
- 從多個數(shù)據(jù)源中獲取數(shù)據(jù)
- 數(shù)據(jù)分析:獲取數(shù)據(jù)時的實時分析;存儲數(shù)據(jù)時的歷史分析
- 提供對數(shù)據(jù)的訪問
- 使用機器學(xué)習(xí)
- 根據(jù)分析結(jié)果進(jìn)行下一步操作。(注意:分析是為了用于預(yù)測可能發(fā)生的事件,并及時回顧以確定引發(fā)當(dāng)前系統(tǒng)行為的根本原因。)
市場分析
迄今為止,很少有供應(yīng)商能提供全面、集成化的AIOps平臺。然而,許多供應(yīng)商提供了廣泛且可內(nèi)置集成的AIOps功能。為更清楚描述市場發(fā)展及供應(yīng)商所處水平,Gartner將當(dāng)前可用的AIOps功能劃分為數(shù)據(jù)管理和分析結(jié)果兩大部分:
數(shù)據(jù)獲取與處理
歷史和流數(shù)據(jù)管理——軟件或設(shè)備允許數(shù)據(jù)獲取、索引,以及存儲日志數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、指標(biāo)、文檔數(shù)據(jù),由此產(chǎn)生的數(shù)據(jù)庫大部分是非結(jié)構(gòu)化或多結(jié)構(gòu)化的,而存儲的數(shù)據(jù)集以高容量累積,以高速變化的格式構(gòu)建。這種歷史數(shù)據(jù)管理功能可被稱之為“大數(shù)據(jù)管理”。
為了給IT運營人員提供幫助,這種工具必須將人類感知的數(shù)據(jù)以時間尺度呈現(xiàn),并直接提供數(shù)據(jù)無需訪問存儲數(shù)據(jù)庫。此外,它必須跨多個實時和歷史數(shù)據(jù)流提供連貫的分析。
分析結(jié)果
- 基礎(chǔ)及高級統(tǒng)計分析——單變量和多變量分析組合,包括相關(guān)性、聚類、分類和推斷的使用。
- 模式發(fā)現(xiàn)及預(yù)測自動化——使用上述一種或多種類型的歷史數(shù)據(jù)或流數(shù)據(jù),以引出可從數(shù)據(jù)集本身推斷但不立即存在相關(guān)性的數(shù)學(xué)或結(jié)構(gòu)模式。這些模式可用來及時執(zhí)行不同概率的事件預(yù)測。
- 異常檢測——先確定正常系統(tǒng)行為,再辨別出與正常系統(tǒng)行為的偏差。
- 確定根本原因——對由模式發(fā)現(xiàn)和預(yù)測自動化組件建立的相關(guān)性網(wǎng)絡(luò)進(jìn)一步修正,以隔離代表真正因果關(guān)系的依賴性連接,從而提供有效干預(yù)。
- 規(guī)定性建議——對問題進(jìn)行分類,將其分類為已知類別。然后,挖掘先前解決方案,分析這些解決方案的適用性并以優(yōu)先級形式讓其以用于修改。最終,這些將使用閉環(huán)方法,并在使用后對其有效性進(jìn)行投票。
- 拓?fù)?/strong>——對于AIOps檢測到的相關(guān)且可操作的模式,必須圍繞所獲取的數(shù)據(jù),形成的即為拓?fù)?。使用拓?fù)渥鳛橐蚬P(guān)系確定的一部分可以大大提高其準(zhǔn)確性和有效性。
發(fā)展方向
在過去二十年里,人工智能技術(shù)間歇性地影響了ITOM的發(fā)展,而AIOps平臺只是這種影響的最新例證。IT運營一方面受到成本降低的壓力,同時又增加了運營的復(fù)雜性。關(guān)于后者,可以從數(shù)量、種類、速度三個維度進(jìn)行定義:
- 數(shù)量,IT基礎(chǔ)架構(gòu)和應(yīng)用程序產(chǎn)生的數(shù)據(jù)量快速增長(每年增長2至3倍);
- 種類,機器和人生成的數(shù)據(jù)種類越來越多,如指標(biāo)、日志、網(wǎng)絡(luò)真實數(shù)據(jù)(wire data)、知識管理文檔;
- 由于采用了云原生或其他架構(gòu),數(shù)據(jù)生成速度不斷提高,IT架構(gòu)也在不斷變化。
考慮到現(xiàn)代企業(yè)所需的洞察力,以上不同維度的運營復(fù)雜性帶來的成本是非常高的。在處理大量、多樣化且快速增長的數(shù)據(jù)時,現(xiàn)有的監(jiān)控工具承受了不少壓力。更重要的是,監(jiān)控工具不會跨平臺挖掘其他多種數(shù)據(jù),特別是用戶的情感數(shù)據(jù)、業(yè)務(wù)交易數(shù)據(jù)、傳感器遙測以及各種系統(tǒng)的日志,以獲得更多洞察。
為此,非IT團隊如業(yè)務(wù)leader和IT運營團隊,對AIOps技術(shù)產(chǎn)生了越來越濃厚的興趣。正如他們探索正探索的通用平臺,其部署時最大的問題在于IT運營實現(xiàn)不同用例時的AIOps平臺的性能和成熟度。
迄今為止,AIOps主要用于支持IT操作流程,以便監(jiān)控或觀測IT基礎(chǔ)架構(gòu)、應(yīng)用程序表現(xiàn)或數(shù)字體驗。此外,無論是采用機器學(xué)習(xí)對事件管理環(huán)境中的重復(fù)數(shù)據(jù)進(jìn)行刪除,還是在APM中結(jié)合基于字節(jié)碼檢測的分布式跟蹤數(shù)據(jù)來分析應(yīng)用程序的日志數(shù)據(jù),這都是合理的。
AIOps平臺正擴展其能夠獲取的數(shù)據(jù)種類的范圍。在過去,供應(yīng)商僅支持提供日志數(shù)據(jù),而現(xiàn)在,數(shù)據(jù)種類已延伸到互聯(lián)網(wǎng)真實數(shù)據(jù)。
因此,考慮到供需方面的趨勢和技術(shù)差異,Gartner預(yù)計,在未來五年內(nèi),AIOps平臺將成為AIOps功能交付最為廣泛的形式,而不是僅僅將AIOps功能嵌入APM、NPMD、ITIM等監(jiān)測工具中。
與此同時,IT組織也開始在DevOps環(huán)境中探索這種方式,以預(yù)測部署前的潛在問題并監(jiān)測潛在的安全問題。
Gartner認(rèn)為,AIOps將會演變成雙向解決方案,不僅可以獲取數(shù)據(jù)進(jìn)行分析,還可以根據(jù)分析啟動操作。這些操作最有可能通過與其他ITOM/ITSM工具集成,將采取多種形式,包括:
- 警報
- 問題分類
- 配置管理數(shù)據(jù)庫(CMDB)
- 日志運行自動化
- 應(yīng)用程序發(fā)布編排
AIOps工具在監(jiān)控的四個階段:數(shù)據(jù)采集、聚合、分析、行動,具有數(shù)據(jù)聚合和分析的核心功能。目前一些企業(yè)用戶利用開源技術(shù)進(jìn)行數(shù)據(jù)采集,從而繞過APM并使用AIOps作為監(jiān)控功能的主要方式。
可以看到,關(guān)于監(jiān)控工具與AIOps的爭論才剛剛開始。從長遠(yuǎn)來看,APM將主要應(yīng)用于專用領(lǐng)域,而AIOps將適用于更為廣泛的IT運營場景。
未來
隨著市場的發(fā)展,Gartner還觀察到AIOps功能的一些主要變化:
- 一是提供與數(shù)據(jù)源無關(guān)的AIOps平臺的供應(yīng)商進(jìn)入市場。這些產(chǎn)品往往是通用的,可滿足最為廣泛的使用案例。
- 二是具有關(guān)鍵組件但數(shù)據(jù)源往往受限的供應(yīng)商,他們通常專注于一個域(如網(wǎng)絡(luò)、端點系統(tǒng)、APM)。這些工具往往只有一組有限的用例,針對于某些IT運營部門。
- 三是一些供應(yīng)商現(xiàn)有的監(jiān)控解決方案將數(shù)據(jù)源限制在自己的監(jiān)控產(chǎn)品中,或擴展到有限的合作伙伴。
- 四是一些用戶通過開源項目能夠通過提供數(shù)據(jù)獲取的工具、大數(shù)據(jù)平臺、機器學(xué)習(xí)、可視化技術(shù)來組裝自己的AIOps平臺,最終可混合或匹配多個供應(yīng)商的組件。
目前,市場中存在一種聲音:AIOps是否會取代APM、NPMD、ITIM、DEM為主的以域為中心的監(jiān)控工具?其實,這是一種混淆。AIOps不會取代監(jiān)控工具,相反,它增強了分析能力和更具可操作性的數(shù)據(jù)。以域為中心的監(jiān)控工具將繼續(xù)存在,為專家提供其域的數(shù)據(jù)獲取、分析和可視化。只不過,數(shù)據(jù)將流轉(zhuǎn)到AIOps平臺,該平臺充當(dāng)?shù)氖且粋€將數(shù)據(jù)集中到連貫跨域分析的作用。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。