給初學者的AIOps指南:基本概念和相關(guān)特性
譯文【51CTO.com快譯】隨著全球的企業(yè)持續(xù)將日常業(yè)務(wù)轉(zhuǎn)換為數(shù)字化運營的方式,許多公司的內(nèi)部數(shù)據(jù)正在以井噴的方式不斷增長。根據(jù)Gartner的一項調(diào)查,全球各大公司每年所創(chuàng)建的數(shù)據(jù)量均比上一個年度增加2-3倍。
不過,數(shù)據(jù)在以指數(shù)級增長的同時,會造成所謂的“虛擬海嘯”。它不但體現(xiàn)在數(shù)據(jù)會變得越來越難以管理和分析,也會讓企業(yè)的IT運營人員持續(xù)增加時間、精力和資金的投入。
為了讓它們不會對主營業(yè)務(wù)產(chǎn)生喧賓奪主的影響,我們需要通過恰當?shù)奶幚?,讓企業(yè)數(shù)據(jù)不僅可以協(xié)助創(chuàng)建更好的模型,而且能夠從長遠的角度發(fā)揮其潛在的價值。據(jù)此,業(yè)界提出了將傳統(tǒng)的IT運營轉(zhuǎn)換為AIOps,從而為企業(yè)提供更好的預測、分析和統(tǒng)計信息??梢哉f,通過面向未來的、可靠的、可擴展的、且易于安裝的AIOps,企業(yè)IT運營將會得到大幅簡化。
下面,我將和您具體討論什么是AIOps?它能夠為業(yè)務(wù)解決什么問題?市場上有哪些流行的AIOps解決方案?以及在購置AIOps產(chǎn)品時應(yīng)當考慮哪些方面?
什么是AIOps?
AIOps,即:針對IT運營的人工智能,是人工智能技術(shù)在改善公司IT運營方面的應(yīng)用。有時,它也稱為IT運營分析(ITOA)。作為一種超現(xiàn)代的IT解決方案,AIOps是由Gartner于2016年提出的。
AIOps可以使您的企業(yè)減少花費在執(zhí)行那些冗余的、重復性的IT運營上的時間和精力,進而讓您能夠?qū)W⒂诤诵臉I(yè)務(wù)與產(chǎn)品。通過大數(shù)據(jù)、機器學習和智能分析,AIOps不但可以自動化并增強您的IT運營,還能夠在執(zhí)行大數(shù)據(jù)分析的基礎(chǔ)上,為業(yè)務(wù)提供高度準確的預測和統(tǒng)計數(shù)據(jù)。那些傳統(tǒng)的IT運營可能需要花費數(shù)月的時間,才能發(fā)現(xiàn)業(yè)務(wù)流程中的模式。而AIOps則能夠在幾秒鐘內(nèi),創(chuàng)建有價值的分析,并達到可觀的準確度。
AIOps能為您的業(yè)務(wù)解決什么問題?
隨著業(yè)務(wù)的擴展,企業(yè)數(shù)據(jù)不但在體量和類型上迅速增加,而且數(shù)據(jù)本身也會變得異常動態(tài)、且難以處理。顯然,受到傳統(tǒng)的人工IT運營方式的限制,他們往往無法持續(xù)、高效、準確地掃描數(shù)百萬個數(shù)據(jù)字段,確定正確數(shù)據(jù)的模式,以及進行數(shù)據(jù)質(zhì)量的預測。而通過使用AIOps,企業(yè)可以受益于如下方面:
- AIOps可以為您的大部分IT工作流程實現(xiàn)自動化,進而減少人工和時間上的開銷。
- 在CI/CD基礎(chǔ)架構(gòu)上,AIOps能夠獨自地完成大部分重復性的工作,進而為運維人員減負。
- 通過將機器學習、智能化分析、以及人工智能融合到一起,AIOps可以保證您的業(yè)務(wù)報告和預測是準確且有意義的。
- 手動的異常檢測和錯誤點的跟蹤,往往會花費大量的時間,而且容易導致產(chǎn)品質(zhì)量的下降和業(yè)務(wù)損失的增多。而AIOps能夠快速識別異常,預先提供警告,并通過跟蹤錯誤以查明核心問題。
此外,通過與AIOps的集成,企業(yè)可以將重要的業(yè)務(wù)部門實現(xiàn)自動化,提高日常IT運營的績效和精準度。
企業(yè)如何使用AIOps?
如前文所說,AIOps可以在非常短的時間內(nèi),利用盡量少的資源,針對大量的數(shù)據(jù)和復雜的數(shù)據(jù)類型,采用機器學習與智能分析相結(jié)合的方式,為業(yè)務(wù)提供更好、更可靠的預測和分析。下面,我們來討論幾個在實際應(yīng)用中,AIOps簡化IT運營的實例。
異常檢測
機器學習在識別數(shù)據(jù)異常等方面表現(xiàn)十分出色。它通過使用復雜的、經(jīng)過調(diào)優(yōu)的算法,將過往與當前的被監(jiān)控關(guān)鍵指標(KPI)予以比較。通過識別非常規(guī)的業(yè)務(wù)模式的相關(guān)事件和活動,AIOps可以快速檢測出異常,進而確定其來源。
有統(tǒng)計表明,那些實施了AIOps的公司在事件調(diào)查的用時方面,平均減少了70%至90%??梢哉f,異常檢測的效率和準確性,不但能夠為質(zhì)量控制節(jié)省巨額的資金,還能夠確保為客戶帶來出色的產(chǎn)品質(zhì)量。
事件關(guān)聯(lián)
AIOps具有查找各個事件之間相關(guān)性的獨特能力。通過協(xié)助分清某個因素是如何導致另一個因素產(chǎn)生的,AIOps能夠讓企業(yè)準確地跟蹤各種錯誤的根源。此外,AIOps還可以將相關(guān)事件進行分組,并將他們放入“權(quán)重列表(hit list)”中。
IT服務(wù)管理(ITSM)
AIOps可以管理包括產(chǎn)品設(shè)計、構(gòu)建、交付、質(zhì)量控制等方面的IT服務(wù)。同時,作為ITSM人員的得力助手,AIOps可以為他們提供更好的行動計劃和洞見,進而提高公司的IT運營水平和服務(wù)效率。
自動化
傳統(tǒng)的IT運營需要完全依賴IT人員手動進行數(shù)據(jù)的測試分析。如果參與處理的人員在技能上參差不齊,那么他們的分析結(jié)果則會產(chǎn)生差異。而AIOps無需任何人工干預,即可協(xié)調(diào)統(tǒng)一,并提供高品質(zhì)的輸出。
使用AIOps的好處
總的說來,得益于機器學習、大數(shù)據(jù)智能分析、以及人工智能的優(yōu)勢,AIOps能夠為企業(yè)業(yè)務(wù)帶來如下好處:
- 減少停機時間:AIOps能夠通過自動檢測和錯誤修復,來最大程度地減少停機時間。
- 完整的分析和見解:AIOps結(jié)合了廣泛的數(shù)據(jù)源,其中包括那些傳統(tǒng)IT Ops曾經(jīng)忽略的數(shù)據(jù)源,進而創(chuàng)建更全面、更準確的分析,并提供更深入的見解。
- 節(jié)省時間、資金和資源:AIOps可以輕松自動地為企業(yè)擴展數(shù)據(jù)的管控規(guī)模。
- 改進的服務(wù)交付:AIOps能夠通過特定的監(jiān)控方式,來提高產(chǎn)品的交付速度和質(zhì)量。
- 更好地預防錯誤:AIOps能夠檢測并發(fā)現(xiàn)到錯誤的模式與規(guī)律,使用主動預測技術(shù),來預防錯誤的發(fā)生與惡化。
- 提高生產(chǎn)力:AIOps既可以大幅減輕人員的工作量,又能夠創(chuàng)造出一個更具生產(chǎn)效率的環(huán)境。
適用于企業(yè)的AIOps解決方案
盡管AIOps是一個相對較新的解決方案,但市場上已經(jīng)出現(xiàn)了不少大公司的成熟產(chǎn)品與方案,可供企業(yè)挑選與實現(xiàn)。其中包括:
- Splunk,是業(yè)界領(lǐng)先的AIOps供應(yīng)商。通過將人工智能和機器學習相結(jié)合,它提供了一致性的數(shù)據(jù)聚類、分析、預測、事件管理、以及異常檢測等服務(wù)。Splunk通過一個完整的軟件包,讓用戶企業(yè)更快地實現(xiàn)并交付IT運營。
- PagerDuty,是另一種實用的AIOps產(chǎn)品。為了讓用戶企業(yè)可以輕松地提取各種警報數(shù)據(jù),它使用機器學習來減少噪聲,對可操作的數(shù)據(jù)進行分類,以及利用自動化來解決各類事件。此外,它還提供了特定的監(jiān)控、關(guān)聯(lián)和分析等解決方案。
- 該領(lǐng)域的知名公司與出色方案產(chǎn)品還包括:BigPanda、Moogsoft、AppDynamics、Micro Focus、Centerity、Zenoss和Kentik等。
購置AIOps產(chǎn)品之前應(yīng)考慮什么?
在選擇AIOps供應(yīng)商,并購置其產(chǎn)品之前,我們應(yīng)考慮如下因素:
- 適應(yīng)性:AIOps解決方案不但應(yīng)具有處理多種數(shù)據(jù)類型的能力,而且應(yīng)該具有適應(yīng)數(shù)據(jù)結(jié)構(gòu)變化,并具有面向未來擴展的能力。
- 數(shù)據(jù)改進:AIOps解決方案應(yīng)當能夠協(xié)助用戶企業(yè)改進其現(xiàn)有的數(shù)據(jù)。也就是說,當企業(yè)收集到大量數(shù)據(jù)時,AIOps應(yīng)該可以將過往數(shù)據(jù)與實時數(shù)據(jù)相結(jié)合,以創(chuàng)建準確的預測。
- 自我學習:AIOps系統(tǒng)應(yīng)當能夠了解其目標數(shù)據(jù),并具有跟蹤模式的能力。例如,它可以發(fā)現(xiàn)并記錄各種危險模式,并在將來警告用戶團隊。
- 易用性:憑借著其易用的界面,以及平緩的學習曲線,用戶企業(yè)的IT人員應(yīng)當能夠輕松地全面操控AIOps系統(tǒng)。
小結(jié)
綜上所述,在日益數(shù)字化的浪潮中,AIOps可以為企業(yè)降低成本,提高預測的準確性,提供有價值的數(shù)據(jù)洞見,減少IT日常運營的各項成本與開銷,以及為業(yè)務(wù)創(chuàng)建各種可持續(xù)使用的數(shù)據(jù)模型。最后,希望本文能對您了解AIOps提供幫助。
原文標題:A Beginner’s Guide toAIOps,作者: Mir Ali
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】