有了AI,IT運維原來可以這么輕松
本文轉載自微信公眾號「計算機世界」,作者Maria Korolov 。轉載本文請聯(lián)系計算機世界公眾號。
使用人工智能驅動的IT運營技術可以自動監(jiān)控和管理IT產(chǎn)品。云平臺、托管服務提供商和進行數(shù)字化轉型的企業(yè)已經(jīng)開始從這種新興的IT趨勢中獲益。
這種新興的技術被稱為 AIOps,它可以提前阻止?jié)撛诘腻礄C和性能問題對運營、客戶和企業(yè)最終利潤產(chǎn)生的負面影響。不過,企業(yè)開始部署更高級的人工智能系統(tǒng),是因為它不僅可以識別問題,或在問題發(fā)生之前預測問題,還可以對事件做出智能、自動化的緩解舉措。
那么AIOps究竟是什么?企業(yè)又是如何使用它的?在本文中,我們將更深入地介紹AI輔助IT 運營的技術、戰(zhàn)略和挑戰(zhàn)。
什么是AIOps?
AIOps是一種新興的IT技術,它將人工智能應用于IT運維,幫助企業(yè)實現(xiàn)智能管理基礎設施、網(wǎng)絡和應用程序,以提高性能、適應性、容量、運行時間,甚至安全性。通過將傳統(tǒng)的閾值警示和手動流程轉移到利用人工智能和機器學習的系統(tǒng),AIOps使企業(yè)能夠更好地監(jiān)控IT資產(chǎn)并預測可能發(fā)生的負面事件和不良影響。
職業(yè)服裝零售商Carhartt 的CIO John Hill在三個主要領域:服務管理、績效管理和 IT 自動化中利用 AIOps?,F(xiàn)在,由于智能監(jiān)控,Carthartt可以在問題影響到用戶或客戶之前就發(fā)現(xiàn)問題。
“AIOps會監(jiān)控環(huán)境和了解正在發(fā)生的事情的整個過程,并根據(jù)這些指示信號采取行動,”Hill說,“以前,人們會根據(jù)停電或已經(jīng)產(chǎn)生的異常工作跡象得知有哪些地方需要修復,但是在發(fā)現(xiàn)之前,客戶體驗就已經(jīng)被損害了。”
AIOps工具
大部分AIOps平臺是建立在歷史悠久的監(jiān)控系統(tǒng)上,還有一些是來自于人工智能實驗室,然后向外發(fā)展而成。好的AIOps工具會生成關于機器負載的前瞻性猜測,然后觀察是否有產(chǎn)生偏離的情況。當異常出現(xiàn),就會發(fā)出警報,生成電子郵件、Slack帖子,如果偏差足夠大,則會生成尋呼機消息。復雜的AIOps工具還提供“根本原因分析”,它創(chuàng)建流程圖來跟蹤問題,看問題是如何在同一個現(xiàn)代企業(yè)應用程序中通過不同機器傳播的。每個考慮采用AIOps的人都希望評估每個AIOps產(chǎn)品與特定數(shù)據(jù)庫和服務的集成程度。以下這些AIOps工具是當今最好用的工具中的幾個:
- AppDynamics
- BigPanda
- Datadog
- Dynatrace
- GitHub Copilot
- IBM Watson Cloud Pak for AIOps
- LogicMonitor
- Moogsoft
- New Relic One
- Splunk
AIOps應用案例
AIOps可能已經(jīng)在你的IT產(chǎn)品中發(fā)揮作用了,而你甚至都不知道。高級的CRM或ERP系統(tǒng)通常會內(nèi)置智能管理系統(tǒng)。大多數(shù)云平臺也會使用機器學習驅動的監(jiān)控和管理工具。
但是依賴單點解決方案中的內(nèi)置功能也存在缺點。在AIOps Exchange的調查中,65%的IT組織表示,他們?nèi)匀灰蕾嚤O(jiān)控方法(無論是否智能),這些方法要么是孤立的、墨守成規(guī)的,要么無法滿足整個IT環(huán)境的需求。此外,根據(jù)BigPanda最新的一項調查顯示,42%的IT組織在他們的IT環(huán)境中使用了超過10種不同的監(jiān)控工具。
Carhartt一開始就是使用了這種方式。“以前,面對不同的環(huán)境,我們必須對它們進行獨立監(jiān)控,”Hill說。為了管理這種復雜性,Hill選擇將監(jiān)控結合到兩個平臺上,首先使用 AppDynamics進行應用程序性能監(jiān)控,然后利用Turbonomic來監(jiān)視 Carhartt 的基礎設施。
黑色星期五和網(wǎng)購星期一的購物高峰,通常會使公司網(wǎng)站出現(xiàn)需要即時修改的性能問題。Hill說,當公司發(fā)現(xiàn)問題時,客戶已經(jīng)感覺到服務質量下降了。
自從Carhartt在2017年秋季部署 AppDynamics 到現(xiàn)在,黑色星期五和網(wǎng)購星期的峰值期間已經(jīng)實現(xiàn)了零宕機。
“我們?nèi)〉昧藙?chuàng)紀錄的增長,”Hill說,“我們的增長速度是整個行業(yè)的兩倍,而且再也沒有出現(xiàn)過任何之前所經(jīng)歷過的宕機或性能下降。”
Carhartt在2019年初添加了Turbonomic,用于本地和云環(huán)境的資源管理。Hill表示,新系統(tǒng)使利用率從70%增加到92%。“它大概為我們節(jié)省了25%的基礎設施成本。”
增加利用率需求是自動處理的,無需人工干預,而是否為此減少容量仍需要人工批準。
“它一旦監(jiān)測到我們遇到了容量挑戰(zhàn),就會向ServiceNow提出變更請求,”Hill說,“當我們有太多容量時,它會在ServiceNow 中創(chuàng)建一張通知單,然后有人會先快速地審查一下,只需單擊一下,所以目前我們還不需要讓它實現(xiàn)自動化。”
該公司的下一步是把業(yè)務任務自動化,例如使用文本識別和自然語言識別來處理客戶訂單。
作者:Maria Korolov,過去 20 年來一直致力于報道新興技術和新興市場。
原文網(wǎng)址:
https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html