不容錯過的AIOps落地關(guān)鍵點指南
譯文【51CTO.com快譯】隨著系統(tǒng)效率和復(fù)雜程度的日益提高,我們用于承載服務(wù)的IT環(huán)境也變得異常復(fù)雜。許多企業(yè)在向微服務(wù)和容器化的邁進的過程中,給已有的應(yīng)用進一步增加了大量的服務(wù)組件。那么如何管理和協(xié)調(diào)好各個組件之間的功能與關(guān)系,顯然是我們需要面對和處理的巨大挑戰(zhàn)。
對于大多數(shù)企業(yè)而言,他們的IT運營(IT Ops)團隊往往只能疲于應(yīng)付上述復(fù)雜局面,且很難獲取到更多的實用信息與管理資源。而這恰恰是人工智能化IT運營(AIOps)一顯身手的地方。通過由大數(shù)據(jù)、數(shù)據(jù)分析和機器學(xué)習(xí)等技術(shù)所提供高水準的定制服務(wù),AIOps能夠為當(dāng)下流行的基礎(chǔ)架構(gòu)提供的全面、且深入的寶貴支持。
下面我們來一起了解一下,那些涉及到AIOps落地實踐方面的關(guān)鍵知識點。
了解AIOps
如今,雖說已經(jīng)出現(xiàn)了大量的自動化工具,但是IT Ops團隊卻無法收益于效率的提升。由于這些工具尚無法基于數(shù)據(jù)進行自動化的決策,因此人工運維的工作量仍舊十分龐大。
而AIOps提供了一種將數(shù)據(jù)分析集成到IT Ops中的更為精細的方法。它能夠根據(jù)組織的目標,來更好地支持可擴展性的工作流。
AIOps平臺的各種技術(shù)組件
AIOps的各種用例
異常檢測 – 作為一種最基本的檢測方法,只有在檢測到數(shù)據(jù)中的異常之時,才會觸發(fā)某個補救措施。
因果分析 - 為了快速有效地解決問題,AIOps能夠按需進行根本原因的分析。
預(yù)測 — AIOps可以利用所支持的工具對未來進行自動化的預(yù)測。例如,它可以了解用戶流量的變更方式與時間,并籍此做出反應(yīng),進而解決問題。
警報管理 – 它可以自動實施智能化的補救、以及閉環(huán)補救,而無需任何人工干預(yù)。
在AIOps和DevOps之間制造平衡
眾所周知,DevOps已經(jīng)給許多企業(yè)帶來了文化上的轉(zhuǎn)變,而AIOps也有著異曲同工之妙。通過幫助企業(yè)從各種相互連接的、卻又分散的數(shù)據(jù)中發(fā)現(xiàn)潛在的洞見,AIOps讓企業(yè)的決策自動化變得更敏捷且準確。
對于企業(yè)而言,擺脫長期以來的信息孤島狀態(tài)是非常重要的,他們希望由自己系統(tǒng)所生成的數(shù)據(jù)能夠具有全局化的可觀察性(observability),而不僅限于單個部門或業(yè)務(wù)。
另外,通過AIOps,IT Ops管理人員的傳統(tǒng)職能也會逐漸轉(zhuǎn)化為系統(tǒng)現(xiàn)場可靠性工程師的(Site Reliability Engineer)這一角色。籍此,他們能夠利用手頭上收集到的信息、并以更加有效的方式解決碰到的各種問題。
盡管AIOps和DevOps的落地目標都是為了改進組織的服務(wù)、并提高總體生產(chǎn)力,但是AIOps還能夠通過減少妨礙生產(chǎn)力的干擾因素,來提高DevOps的各項實踐效率。例如:AIOps就能有效地減少來自各種平臺的誤報和通知的數(shù)量,由此DevOps工程師們便可以更加輕松地將有限的精力,集中到真正的故障問題之上。可以肯定地說,AIOps能夠?qū)evOps工程師、及其企業(yè)目標起到事半功倍的效果。
AIOps與時間管理
無論企業(yè)開發(fā)團隊的規(guī)模是大還是小,他們總是會遇到“時間緊、任務(wù)急”之類的常見問題。幸運的是,無論是在創(chuàng)建機器學(xué)習(xí)模型、還是在處理數(shù)據(jù)方面,AIOps都能夠通過靈活地獲取數(shù)據(jù),以及處理大量新的信息,來幫助您在有限的時間內(nèi)完成海量的任務(wù)。
過去,企業(yè)雖然深知高質(zhì)量數(shù)據(jù)的重要性,但是面對其復(fù)雜性時,往往無法通過常規(guī)的數(shù)據(jù)分析,來進行解讀、驗證,甚至為自己所用。正如一份畢馬威會計師事務(wù)所的調(diào)查所顯示的那樣:由于與自己的想法或經(jīng)驗并不相符,67%的CEO會不得不選擇性地忽略那些計算機驅(qū)動的模型、或由數(shù)據(jù)分析所提供的洞見與判斷。
如今,AIOps則能夠利用那些訓(xùn)練有素的機器學(xué)習(xí)算法,“實時”地捕獲并維護那些高質(zhì)量的數(shù)據(jù),進而采用大量既有的用例,來實現(xiàn)快速準確的處理。例如:對于那些能夠檢測服務(wù)異常狀態(tài)的用例而言,快速識別錯誤代碼與信息往往是至關(guān)重要的。特別是在防范系統(tǒng)安全漏洞的場景中,AIOps能夠讓自動化且精準的方式為運營團隊,以最快的方式找到解決問題各種備選方案。
AIOps的日益普及
當(dāng)然,擁有數(shù)據(jù)是一回事,而真正能夠有效地使用數(shù)據(jù)則是另一回事了。在實際應(yīng)用中,企業(yè)往往需要利用機器學(xué)習(xí)的相關(guān)技術(shù),來自動化地擴展目標應(yīng)用及其對應(yīng)的平臺。
根據(jù)MarketsandMarkets(https://www.marketsandmarkets.com/PressReleases/aiops-platform.asp)的預(yù)測:明年,企業(yè)采用AIOps平臺的增長率將達到34%,而目前的轉(zhuǎn)化率需求也正在持續(xù)增長。在不增加資源負擔(dān)的情況下,AIOps讓企業(yè)變得更加靈活,他們的響應(yīng)能力也會更強。可以說,AIOps即將成為高度數(shù)字化時代的必備工具。
AIOps的落地
隨著越來越多的企業(yè)愿意在運營中采用AIOps模式,他們所要面對的問題是:如何以與業(yè)務(wù)需求相適應(yīng)的方式來接受它。以下是我們?yōu)槟鷾蕚涞囊恍┯嘘P(guān)AIOps落地關(guān)鍵點指南:
- l實施團隊通過了解人工智能和機器學(xué)習(xí)的基礎(chǔ)知識,以便更好地運用相關(guān)技術(shù)。
- 通過調(diào)查,發(fā)現(xiàn)運營人員日常工作中最耗時的任務(wù)。尤其是那些需要有效地轉(zhuǎn)化為自動化的重復(fù)性任務(wù),往往最需要通過AIOps的干預(yù)來減輕作業(yè)的負擔(dān)。
- 避免一次性涉及太多的方面。我們可以從小處做起,從高優(yōu)先級的任務(wù)開始。一旦獲得了良好的反饋,則可以通過及時的評估,將該技術(shù)用例推行其他領(lǐng)域和任務(wù)的解決任務(wù)之中。
- 針對不同的數(shù)據(jù)采用AIOps。毫無疑問,此舉可能需要比您想象更長的時間才能實現(xiàn),不過您將會收獲更多有關(guān)當(dāng)前系統(tǒng)的洞悉。此外,通過成功地定義各項參數(shù),并及時地評估各項指標,您需要確保AIOps的各項工作能夠與組織的目標完美契合。
從應(yīng)用成熟度來看
對于大多數(shù)組織,特別是IT部門的領(lǐng)導(dǎo)者而言,他們更熱衷于通過對于復(fù)雜事件與任務(wù)的自動化執(zhí)行,來減少各類警報的數(shù)量,降低服務(wù)中斷和停機所帶來的成本。而在AIOps的采用和落地時,不同組織的目標可能會有所不同。不過,他們通常會希望獲得目標系統(tǒng)更全面的可見性,以及對于生產(chǎn)環(huán)境更有效的運營處理能力。
下圖展示的是一個五步走的成熟度模型。該模型能夠幫助組織確定自身在監(jiān)視和自動化過程中所處的位置。
資料來源:ScienceLogic
其實,AIOps主要適用于那些有著長期目標、并將其運用到以微服務(wù)為驅(qū)動應(yīng)用程序的領(lǐng)域。也就是說,AIOps旨在確保組織內(nèi)部信息的流動,以滿足整體架構(gòu)和業(yè)務(wù)目標,而不僅僅是改善當(dāng)前的運營流程。運營團隊需要從當(dāng)前應(yīng)用的角度出發(fā),協(xié)同架構(gòu)團隊、甚至是云端支持團隊,重新考慮如何去感知整個堆棧。而且,這對于那些使用微服務(wù)所構(gòu)建的應(yīng)用程序尤為重要。同時,企業(yè)需要通過重新設(shè)計各種運營功能,來深入了解應(yīng)用層的架構(gòu)特點,進而讓恰當(dāng)?shù)臄?shù)據(jù)自動流向應(yīng)用開發(fā)人員,并提供各種必要的見解。
總結(jié)
如今,已有不少的企業(yè)嘗鮮式地采用了AIOps的運營模式,但是他們也碰到了不少實際落地方面的問題。希望上述建議能夠幫助您更平滑地實現(xiàn)向AIOps的轉(zhuǎn)化,并充分釋放AIOps的潛能。
原文標題:The Most Important Elements of AIOps,作者:Rahul Singh
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】