有關(guān)AIOps的6個誤解和解釋
究竟什么是AIOps?IT領(lǐng)導(dǎo)者需要了解有關(guān)AIOps的常見誤解,特別是了解對于AIOps方法為何符合或不符合目標(biāo)的解釋。
你認(rèn)為DevOps很難理解嗎?可以先了解AIOps。調(diào)研機構(gòu)Gartner公司于5年前首次創(chuàng)造了這個術(shù)語,AIOps的含義如今已從“Algorithmic IT Operations(基于算法的 IT 運維)”轉(zhuǎn)換為“AI Operations(人工智能運維)”。使用通用算法幫助IT運營團隊的想法并不是那么新穎。有人可能會說,AIOps試圖趕上人工智能的宣傳和炒作浪潮,也有一些運維和監(jiān)視工具制造商試圖增加人工智能的成分。如果要求10個人來定義AIOps的話,就可能會得到10個不同的定義:這類似于以前很少有人就云計算的定義達(dá)成共識一樣。
DevOps研究所的研究主管Eveline Oehrlich對此進(jìn)行了描述:“AIOps解決方案使IT運營和其他團隊能夠通過對即將到來的數(shù)據(jù)量和類別進(jìn)行更好的分析,以改善關(guān)鍵流程、任務(wù)和決策。采用這些工具可以自動快速接收大量數(shù)據(jù)。機器學(xué)習(xí)用于分析數(shù)據(jù)并提供可預(yù)測或警告發(fā)現(xiàn)的問題。這些新發(fā)現(xiàn)的知識可以用于自動化或決策。”
IT領(lǐng)導(dǎo)者需要能夠了解并解釋一些關(guān)于AIOps的常見誤解,這些誤解可能來自組織的領(lǐng)導(dǎo)者、同事、合作伙伴和客戶。以下將解釋各種AIOps方法符合或不符合業(yè)務(wù)目標(biāo)的原因。
關(guān)于AIOps的真相:它是什么,能做什么
因此,以下深入地研究推動當(dāng)前AIOps勢頭增長的因素以及IT團隊所看到的收益。例如,如果組織已經(jīng)在使用容器和Kubernetes,那么可能會有喜歡自動驅(qū)動集群的想法,那么現(xiàn)在可以立即開始實施AIOps。
1. AIOps不是一種產(chǎn)品
如果想將AIOps引入組織,則可能會想購買一種AIOps產(chǎn)品,并計劃在一年中部署并完成。在運營堆棧中添加了另一種產(chǎn)品,并且增加了復(fù)雜性,如何處理更多的復(fù)雜性?
首先,考慮當(dāng)前AIOps產(chǎn)品提供的常見功能,仔細(xì)查看當(dāng)前的工具集,并評估存在漏洞的地方:
- 基線:用于度量和其他基于時間序列的數(shù)據(jù)。
- 根本原因分析:連接多個信息源并深入掘取。
- 異常檢測:預(yù)測未來并警告偏差。
- 相關(guān)性:例如指標(biāo)和票證之間的相關(guān)性。
- 模擬:假設(shè)場景。
人們會看到AIOps是一種功能,而不是獨立的產(chǎn)品。對于某些功能來說,專用工具的功能并不夠,因為可能只將所有工具進(jìn)行互連,才會產(chǎn)生“魔法”。這就像單個神經(jīng)元無法構(gòu)成大腦一樣。
2.在使用AI之前,需要Ops
俗話說,“在學(xué)會跑步之前需要先學(xué)會走路。”原有的監(jiān)控措施并沒有什么問題,只是需要在系統(tǒng)環(huán)境中增加指標(biāo)、日志和可觀察性。因此,首要任務(wù)是使其運營變得簡單。如果遇到太多警報,需要確定最重要的警報。如果沒有從關(guān)鍵應(yīng)用程序中獲取指標(biāo),則開始實施指標(biāo)。開始定義組織需要滿足的服務(wù)水平指標(biāo)(SLI)和一些服務(wù)水平目標(biāo)(SLO)。
在這樣做的同時,就會發(fā)現(xiàn)監(jiān)控設(shè)置中的一些盲點,并提高工作的可視性和運營能力。在遇到障礙之后,人工設(shè)置警報閾值不再起作用,那么現(xiàn)在是使用新工具的時候了。
了解局限性始終是改進(jìn)的第一步,因此,AIOps的旅程始于收集數(shù)據(jù)并理解這些數(shù)據(jù)。如果人工智能研究人員涉足新領(lǐng)域,那么要做的第一件事就是進(jìn)行探索性數(shù)據(jù)分析(EDA)。這包括了解數(shù)據(jù)特征,例如什么是列名,什么是值以及什么是語義場景。
同樣,AIOps工作的第一步將是確保組織可以輕松地收集和訪問所有運營數(shù)據(jù),并且能夠?qū)⑵淇梢暬?。這不僅意味著當(dāng)前的數(shù)據(jù),也意味著歷史數(shù)據(jù)。
只有在這樣做之后,才能開始下一步旅程,嘗試尋找新的信號和見解,并將其投入自動化的行動中。
3. AIOps是一種文化的轉(zhuǎn)變
有些人將AIOps看作是運營中的一種文化變革,就像DevOps運動因相關(guān)的文化變革而聞名一樣。DevOps結(jié)合了開發(fā)和運營團隊的兩種文化思想,創(chuàng)造出一種以速度和試驗為特征的新文化。如今,人們理所當(dāng)然地認(rèn)為DevOps專業(yè)人員同時使用開發(fā)人員和運營工具集中的工具。將會看到諸如統(tǒng)一的基礎(chǔ)設(shè)施或應(yīng)用程序開發(fā)團隊之類的東西為運行其代碼提供了服務(wù)水平指標(biāo)(SLI)。
現(xiàn)在,可以將數(shù)據(jù)科學(xué)家角色添加到組合中,將會獲得AIOps。換句話說,使用探索性數(shù)據(jù)分析(EDA)之類的方法或Jupyter Notebooks之類的工具來使組織的卓越運營變得更好,這將推動更多的IT專業(yè)人員進(jìn)入AIOps領(lǐng)域。
人工智能/機器學(xué)習(xí)的社區(qū)實際上也是如此,它仍然與部署模型的運營方面脫節(jié)。如果數(shù)據(jù)科學(xué)家變得更像人工智能工程師并且接受和理解DevOps的優(yōu)勢和挑戰(zhàn),那又會怎樣?然后隨著時間的推移,人們會將注意力轉(zhuǎn)移到IT領(lǐng)域的問題上:很有趣的是,采用人工智能技術(shù),在識別有關(guān)貓的圖片方面可能比人類還要強大,但識別壞硬盤方面對于人工智能技術(shù)來說仍然是一個挑戰(zhàn)。
4.整合成為首要事項
因此,如果AIOps不是一種產(chǎn)品,那么將在哪里產(chǎn)生?一旦發(fā)現(xiàn)數(shù)據(jù)集之間存在某種關(guān)聯(lián),或者多次發(fā)生中斷,就希望AIOps自動執(zhí)行某些運行或指導(dǎo)如何解決中斷問題。
而這個“魔法”發(fā)生在工具之間的結(jié)構(gòu)中。它可以體現(xiàn)在零售價格較小的連接層中,例如聊天機器人為用戶提供了到相關(guān)系統(tǒng)的鏈接,從而使從指標(biāo)儀表板跳轉(zhuǎn)到調(diào)試控制臺變得更加容易。
但是關(guān)聯(lián)如果不是因果關(guān)系,即使使用AIOps工具找到了兩組指標(biāo)之間的相關(guān)性,仍然需要對其進(jìn)行驗證,并決定將來是否要對它采取行動?;蛘?,相關(guān)性可以幫助確定中斷的原因。
一切都是為了更好地理解和管理設(shè)置的復(fù)雜性,然后集成自動化的幫助程序和操作。
5.使用開源的軟件
這正是開源軟件發(fā)揮重要作用的地方。在開源產(chǎn)品中,組織可以在任何級別讀取代碼并理解正在做什么。將其轉(zhuǎn)換為運營領(lǐng)域,用戶能夠在軟件堆棧的每一層公開指標(biāo)并跟蹤數(shù)據(jù),并理解其含義。新一代數(shù)據(jù)中心建立在Kubernetes的基礎(chǔ)上,Kubernetes大量使用了微服務(wù)和API驅(qū)動的軟件部署流程。如今,監(jiān)視API調(diào)用非常簡單。從本質(zhì)上來說,可觀察性意味著可以隨時以任何細(xì)節(jié)層次檢查景觀。使用一些數(shù)據(jù)科學(xué)工具可視化并指導(dǎo)瀏覽數(shù)據(jù),可以幫助進(jìn)行根本原因分析和故障排除。
現(xiàn)在,組織使用相同的范例來部署和管理自己的應(yīng)用程序,將它們?nèi)萜骰?,然后重新使用監(jiān)視堆棧,可以檢查和觀察其應(yīng)用程序堆棧。
因為使用了相同的工具,所以可以輕松地將平臺和應(yīng)用程序中的指標(biāo)關(guān)聯(lián)起來。 Prometheus已經(jīng)成為該領(lǐng)域中的實際監(jiān)控標(biāo)準(zhǔn),并且本身是由API驅(qū)動的。而類似的項目(例如Loki和Jaeger),可以幫助進(jìn)行日志和跟蹤。
然后,組織可以使用諸如Open Data Hub或Kubeflow之類的Kubernetes本地數(shù)據(jù)科學(xué)平臺來收集和分析所有數(shù)據(jù)。
對于IT團隊而言,其好處是減少了摩擦并實現(xiàn)了深度集成,其標(biāo)準(zhǔn)是通過開源工具實施的。
6.數(shù)據(jù)至關(guān)重要
也許組織無法擁有足夠的數(shù)據(jù)。但是如上所述,這些數(shù)據(jù)必須干凈且易于理解。因此,組織可以收集自己的數(shù)據(jù)池并訓(xùn)練自己的人工智能模型,實際上,所有商業(yè)AIOps工具都需要這樣做,因為沒有內(nèi)置的預(yù)先訓(xùn)練的智能。
但是,如果可以在公共數(shù)據(jù)上訓(xùn)練一些通用模型,然后將其用作訓(xùn)練自己的模型的基準(zhǔn),那該怎么辦?沒有人希望從頭開始,而是希望獲得更多的幫助。數(shù)據(jù)庫應(yīng)用程序很可能會為常見的工作負(fù)載和架構(gòu)提供自己的模型。然后根據(jù)組織特定需求將學(xué)習(xí)內(nèi)容轉(zhuǎn)移到特定設(shè)置中。這將是一個開始,根據(jù)自己的需求進(jìn)行區(qū)分。
例如在一個公共云項目中,平臺和工作負(fù)載在社區(qū)中運行,而運營數(shù)據(jù)(例如度量、日志和票證)則在開放源代碼許可下發(fā)布。這是為了使數(shù)據(jù)科學(xué)家能夠創(chuàng)建開放和免費的模型。
如何開始采用AIOps
任何采用DevOps工作方式的IT領(lǐng)導(dǎo)者都知道,改變習(xí)慣需要不斷的實踐。對于采用AIOps思維方式的IT團隊也是如此??梢詮囊粋€容易理解的問題開始做起,然后經(jīng)歷開發(fā)AIOps功能的演進(jìn)周期,努力實現(xiàn)更多的人工智能輔助、人工智能增強,最后是人工智能自動化的IT運營。
文化的改變需要組織中的擁護者、贊助者和榜樣。與其陷入對人工智能的宣傳和炒作,不如先采用,理解基本原理,并解決問題。每一次革命性的創(chuàng)新都是從小事開始的。人們在未來可能會為思想開放的工程師、運營專家以及先進(jìn)的平臺和操作堆棧所能完成的工作感到驚訝。