自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

宜信研發(fā)總監(jiān)張真:運維機器人之任務(wù)決策系統(tǒng)演進

原創(chuàng)
人工智能 機器人
2018年5月18-19日,由51CTO主辦的全球軟件與運維技術(shù)峰會在北京召開。在“容器下的AIOps”分會場,宜信研發(fā)總監(jiān)張真做了主題為《運維機器人之任務(wù)決策系統(tǒng)演進》的精彩演講。演講過程中,分析了AIOps系統(tǒng)的目標(biāo)與挑戰(zhàn),對運維機器人和任務(wù)決策系統(tǒng)進行了闡述、對任務(wù)決策系統(tǒng)演進做了深入的剖析。

【51CTO.com原創(chuàng)稿件】2018年5月18-19日,由51CTO主辦的全球軟件與運維技術(shù)峰會在北京召開。此次峰會圍繞人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈等12大核心熱點,匯聚海內(nèi)外60位一線專家,是一場高端的技術(shù)盛宴,也是頂級IT技術(shù)人才學(xué)習(xí)和人脈拓展不容錯過的平臺。

在“容器下的AIOps”分會場,宜信研發(fā)總監(jiān)張真做了主題為《運維機器人之任務(wù)決策系統(tǒng)演進》的精彩演講。演講過程中,分析了AIOps系統(tǒng)的目標(biāo)與挑戰(zhàn),對運維機器人和任務(wù)決策系統(tǒng)進行了闡述、對任務(wù)決策系統(tǒng)演進做了深入的剖析。

AIOps自身的目標(biāo)與挑戰(zhàn)

宜信是一家金融企業(yè),業(yè)務(wù)關(guān)聯(lián)復(fù)雜性非常高,如圖1是由宜信UAVStack(全維監(jiān)控軟件)產(chǎn)出的狀態(tài)監(jiān)控圖。

圖1 UAVStack產(chǎn)出的狀態(tài)監(jiān)控圖

這張錯綜復(fù)雜的狀態(tài)圖,描繪了宜信所處的生產(chǎn)環(huán)境中,應(yīng)用、數(shù)據(jù)庫、服務(wù)和緩存等多個關(guān)聯(lián)件之間的調(diào)用與關(guān)系。面對這樣復(fù)雜的業(yè)務(wù)規(guī)模,尤其是微服務(wù)架構(gòu)上,即便是一個非常簡單的微服務(wù),排除故障都不是易事。這樣的狀態(tài)下,自動化運維不再是最佳選擇,AIOps系統(tǒng)勢必成為必然。AIOps系統(tǒng)可以通過深度洞察能力為運維提供持續(xù)、高質(zhì)量的效率運轉(zhuǎn),相比自動化運維來說,不會再受限于人的生理極限和認(rèn)知局限。

在做AIOps系統(tǒng)之前,需要設(shè)立明確的目標(biāo),更重要的是需要應(yīng)對種種挑戰(zhàn)分析透徹。

三大目標(biāo)

目標(biāo)一:時效類。自動化運維雖大幅度提高了我們的時效,但核心決策者仍然是人。當(dāng)超越了人的生理極限,效率也將很難保證,但是AIOps系統(tǒng)則不存在上述問題。

目標(biāo)二:深度洞察。人的認(rèn)知有局限性,AIOps系統(tǒng)則可以利用大數(shù)據(jù),洞察更多現(xiàn)存問題與未知的運維模式。

目標(biāo)三:自主調(diào)優(yōu)。AIOps系統(tǒng)可以自主保持系統(tǒng)最優(yōu)狀態(tài),自主生成達成目標(biāo)需要的執(zhí)行計劃。

六大挑戰(zhàn)

理想與現(xiàn)實究竟有多遠? 構(gòu)建AIOps系統(tǒng)的過程中需要面對的挑戰(zhàn)如下:

一、如何獲取高質(zhì)量,高時效的監(jiān)控數(shù)據(jù)。傳統(tǒng)監(jiān)控體系中,想要獲得更多的數(shù)據(jù)就必然要建立各種系統(tǒng)。這些系統(tǒng)本身在時效和品控層面如何達成一致是個難題。

二、多維度數(shù)據(jù)如何實現(xiàn)高效關(guān)聯(lián)。僅有數(shù)據(jù)不能解決任何問題,需要把所有數(shù)據(jù)有機有效進行關(guān)聯(lián)才可以。

三、如何實現(xiàn)運維場景的實時感知。工程師之所以比傳統(tǒng)監(jiān)控和運維系統(tǒng)靠譜,主要是因為運維工程師了解非常多的現(xiàn)實認(rèn)知能力,如機房、網(wǎng)絡(luò)、虛機等相關(guān)詳情。如果希望AIOps系統(tǒng)做的更好,就需要增強其運維場景的感知能力。

四、AI“工程化”的復(fù)雜性。實際過程中,把機器學(xué)習(xí)算法落地到實際場景的這個過程還有很多的路要走,相比實驗室中的機器學(xué)習(xí)要難很多。

五、機器學(xué)習(xí)模型的訓(xùn)練困境。生產(chǎn)運維中SLA(Service-Level Agreement,服務(wù)等級協(xié)議)的矛盾和故障樣本太少,致使仿真模擬有局限。

六、遺留技術(shù)棧,混合架構(gòu)的復(fù)雜性。初創(chuàng)公司會有大量歷史的遺留技術(shù)棧與混合技術(shù)架構(gòu),遺留系統(tǒng)“業(yè)務(wù)需求”變更頻繁。那么,要如何使它們很好的融合到AIOps系統(tǒng)呢?

確定目標(biāo),明晰挑戰(zhàn)之后,宜信制定了適合自己的AIOps技術(shù)路線,如圖2所示。

圖2 AIOps的技術(shù)路線

AIOps的技術(shù)路線分為三個步驟:全維監(jiān)控、全維關(guān)聯(lián)和全維智能。全維監(jiān)控階段,需要將監(jiān)控體系進行統(tǒng)一,盡量去獲取高質(zhì)量高時效的監(jiān)控數(shù)據(jù),利用監(jiān)控軟件去提取不同運維場景中的源數(shù)據(jù),同時去適應(yīng)和適配遺留技術(shù)棧和各種混合架構(gòu)。全維關(guān)聯(lián)階段,需要將多維數(shù)據(jù)進行高效關(guān)聯(lián),同時解決機器學(xué)習(xí)模型的訓(xùn)練困境問題。全維智能階段,需要花費時間攻破AI工程化的復(fù)雜性。

運維機器人是AIOps系統(tǒng)的核心

確定AIOps的技術(shù)路線后,宜信首先落地的是權(quán)威監(jiān)控平臺——“運維機器人”。運維機器人,也叫AI-Mission-Robot(任務(wù)機器人),如圖3所示。

圖3運維機器人

任務(wù)機器人的設(shè)計理念是基于CUI形式交互,基于API形式執(zhí)行,結(jié)合微智能、人工智能等前沿技術(shù),使運維機器人實現(xiàn)真正意義上的決策,并且最終很好的向運維人員進行反饋。

任務(wù)機器人之所以是AIOps系統(tǒng)的核心,在全維關(guān)聯(lián)和全維智能的作用很關(guān)鍵,如圖4所示。

圖4任務(wù)機器人是核心

任務(wù)機器人的作用是對接全維監(jiān)控平臺和大數(shù)據(jù)平臺,同時也要面向DevOps工具鏈和業(yè)務(wù)系統(tǒng)。

淺析任務(wù)決策系統(tǒng)的六大職責(zé)

在介紹了任務(wù)機器人的基本概況后,張真對任務(wù)機器人的任務(wù)決策系統(tǒng)及其職責(zé)進行了淺析。

什么是任務(wù)決策系統(tǒng)

張真表示,了解認(rèn)知和決策之間的關(guān)系,是理解任務(wù)決策系統(tǒng)的前提,如圖5所示。

圖5 認(rèn)知和決策的關(guān)系

認(rèn)知智能的理解、解釋、規(guī)劃和推理四部分和決策息息相關(guān),映射到智能運維場景中,對應(yīng)的便是如圖5所示的四點,從中可以看出,任務(wù)決策的前提是增強現(xiàn)實感知。

圖6 增強現(xiàn)實感知的過程

圖6是增強現(xiàn)實感知的過程。通過這種方式,實現(xiàn)對用戶場景的感知。在這個過程中, AI提供了很多決策能力,如利用機器學(xué)習(xí)技術(shù)進行分類判斷和回歸檢測、知識圖譜的構(gòu)建和系統(tǒng)加深對事物的認(rèn)知、以及搜索技術(shù)實現(xiàn)模糊和精確的匹配等。

任務(wù)驅(qū)動模式和自主驅(qū)動模式是任務(wù)機器人的兩種驅(qū)動模式:任務(wù)驅(qū)動模式是被動任務(wù),當(dāng)收到發(fā)出的指令,理解指令的意圖后,任務(wù)決策的同時決策任務(wù)執(zhí)行方式,最后執(zhí)行任務(wù)并反饋結(jié)果。自主驅(qū)動模式是主動接受來自施令者的期望,對意圖進行理解之后,規(guī)劃任務(wù)實施方案去主動執(zhí)行任務(wù),應(yīng)需反饋結(jié)果。

任務(wù)決策系統(tǒng)的六大職責(zé)

為了支撐任務(wù)驅(qū)動模式和自主驅(qū)動模式這兩種驅(qū)動模式,任務(wù)決策系統(tǒng)需要具備六大職責(zé),如圖7所示。

圖7 任務(wù)決策系統(tǒng)的六大職責(zé)

接下來,張真對每個職責(zé)的基本工作原理進行了詳盡的解讀。

職責(zé)一:意圖理解

圖8 意圖理解的工作原理

如圖8所示,意圖理解首先進行自然語言理解,再把自然語言映射成機器人能夠理解的語素,再進入意圖路由。意圖路由的作用是理解人的指令,基本上可以分為四種:

  1. 人和機器人之間進行多輪對話。
  2. 人給出直接性的指令(ChatOps指令)。
  3. 判斷是否需要進入指令理解的過程。指令理解就是把偏向于自然語言的語素翻譯成偏向于機器人理解的語素。
  4. 擴展意圖,在這個過程中,需要使用圖計算技術(shù)。圖計算包含算法、整個圖的構(gòu)造和查詢過程三部分。

 職責(zé)二:系統(tǒng)理解

圖9 系統(tǒng)理解的工作原理

如圖9 所示,系統(tǒng)理解首先是構(gòu)造知識圖譜,分為API語義和細粒度畫像兩部分。之后再結(jié)合指令理解的結(jié)果,進行一個圖計算的過程,帶來兩個效果:一個是可以幫助選擇要用的API,另一個是做參數(shù)填充。

職責(zé)三:現(xiàn)實理解

圖10 現(xiàn)實理解的工作原理

如圖10所示,現(xiàn)實理解也要先做知識圖譜,這就需要收集多維數(shù)據(jù),如基礎(chǔ)、關(guān)聯(lián)和業(yè)務(wù)畫像等。之后通過圖計算的方式,解決What型和關(guān)聯(lián)型兩個需求。最后,在之前工作的基礎(chǔ)上,協(xié)助問題定位、根因分析和現(xiàn)實判斷。

職責(zé)四:異常檢測

圖11 異常檢測的工作原理

異常檢測的工作原理如圖11所示,把全維指標(biāo)(也就是全維監(jiān)控階段拿到的數(shù)據(jù))轉(zhuǎn)換成指標(biāo)關(guān)聯(lián)模型,涉及高效計算和高精度計算這兩種模型。先由高效計算模型進行計算,粗略得出來一個結(jié)論,再交給高精度模型實現(xiàn)。

職責(zé)五:問題分析

圖12 問題分析的工作原理

如圖12所示是問題分析的工作原理,當(dāng)有異常檢測的結(jié)果或者異常特征圖譜(數(shù)學(xué)空間中的一套模型)輸入后,加上現(xiàn)實理解,通過計算和圖12中所示的三大協(xié)助分析能力,最終得出一系列的關(guān)聯(lián)認(rèn)知需求、問題定位、關(guān)聯(lián)根因和影響評估。

職責(zé)六:執(zhí)行計劃

圖13 執(zhí)行計劃的工作原理

如圖13所示,是執(zhí)行計劃的工作原理,主要分為預(yù)設(shè)計劃,現(xiàn)實理解和系統(tǒng)理解這三個層次。執(zhí)行計劃職能是對之前五個職能的理解與整合,是自主驅(qū)動模式中最重要的點。當(dāng)有了這樣的執(zhí)行計劃后,很多執(zhí)行計劃就可以相互嵌套,當(dāng)嵌套到一定復(fù)雜度時,便可以形成一個非常復(fù)雜的工作過程,這個工作過程就是任務(wù)機器人慢慢趨近于人,逐步智能化的過程。

任務(wù)決策系統(tǒng)的具體的演進   

緊接著,張真通過一些案例,剖析了任務(wù)決策系統(tǒng)的具體演進。任務(wù)決策系統(tǒng)是AIOps平臺架構(gòu)中的一個版塊,如圖14所示。

圖14  AIOps平臺框架

AIOps平臺框架底層是微服務(wù)計算平臺,基于這個平臺之上,構(gòu)建全維監(jiān)控服務(wù)和任務(wù)機器人系統(tǒng)。任務(wù)機器人系統(tǒng)包含Interaction、Think和Handson三大部分,任務(wù)決策服務(wù)是Think其中之一的版塊。

任務(wù)驅(qū)動架構(gòu)的四次迭代

第一代任務(wù)驅(qū)動架構(gòu),指令理解、參數(shù)填充是在代碼層進行實現(xiàn),包括任務(wù)確定,全維監(jiān)控之間的關(guān)系,也是靠服務(wù)注冊發(fā)現(xiàn)來完成的。第二代任務(wù)驅(qū)動架構(gòu),不僅加入了自然語言和指令理解,初步引入知識圖譜,還實現(xiàn)了基于語意模板的方式進行回復(fù)。第三代任務(wù)驅(qū)動架構(gòu),構(gòu)建了微智能知識圖譜的同時,加入多輪對話的管理,已經(jīng)基本可以判斷清楚人的意圖,并且可以對整個報警的簡單統(tǒng)計。

圖15 第四代任務(wù)驅(qū)動架構(gòu)

如圖15所示,第四代架構(gòu)豐富了很多功能,如多輪對話支持?jǐn)U展意圖的連接、知識圖譜本身管理服務(wù)、引入問題分析等。

自主驅(qū)動架構(gòu)的兩次迭代

對比報警之后再進行處理的任務(wù)驅(qū)動模式,自主驅(qū)動方式使得運維從被動變?yōu)橹鲃?。自主?qū)動就是宜信正在做的智能巡檢場景,這等同于運維工程師對系統(tǒng)進行常規(guī)巡檢的效果。

智能巡檢異常檢測、問題定位、根因分析、影響評估和自愈計劃是智能巡檢場景的五個步驟。實現(xiàn)智能巡檢,有兩個基本過程:記憶期望和主動實施。

自主驅(qū)動(第一代)過程一:記憶期望

圖16 自主驅(qū)動過程一:記憶期望

如圖16所示,首先任務(wù)機器人要記住我們的某個期望,在理解業(yè)務(wù)的前提下,高頻執(zhí)行。判斷我們給的期望和其中的某個計劃相一致,并且把結(jié)果進行存儲,這個過程中存儲的是預(yù)設(shè)計劃結(jié)果,并不是真正的執(zhí)行計劃。當(dāng)真正執(zhí)行時,就可以根據(jù)上下文生成一個具體的工作列表。

自主驅(qū)動(第一代)過程二:主動實施

圖17 自主驅(qū)動過程二:主動實施

如圖17所示,當(dāng)機器人真正去執(zhí)行時,遵循執(zhí)行計劃的工作原理,基于圖計算全自動生成執(zhí)行計劃。同時執(zhí)行計劃針對知識圖譜進行調(diào)度API調(diào)用,進而對現(xiàn)實進行理解。通過模型計算對調(diào)度進行異常檢測,這一代以單指標(biāo)為主,不涉及問題分析。

自主驅(qū)動(第二代)

圖18 自主驅(qū)動(第二代)架構(gòu)圖

如圖18所示,自主驅(qū)動(第二代)增加問題分析結(jié)果的引導(dǎo),實現(xiàn)結(jié)果主動反饋,實時向?qū)I(yè)人員請求借助。指標(biāo)關(guān)聯(lián)模型的異常檢測方面,加入了問題定位和根因分析的過程,同時在預(yù)警服務(wù)部分引入了事件關(guān)聯(lián)。

任務(wù)決策系統(tǒng)的未來

任務(wù)決策系統(tǒng)的未來將針對以下方面進一步攻克:

  1. 準(zhǔn)確率需要不斷的提高。
  2. 針對問題診斷結(jié)果進行影響面的評估(系統(tǒng)/應(yīng)用/業(yè)務(wù)層面),從而決定自愈執(zhí)行的手段。
  3. 人機互助增強,在系統(tǒng)尋求人的協(xié)助基礎(chǔ)上,實現(xiàn)雙向的協(xié)作支持。
  4. ChatOps命令意圖理解全自動化,也就是實現(xiàn)部署即理解。
  5. 引入一些半自動化協(xié)助手段,幫助預(yù)設(shè)計劃建模,降低預(yù)設(shè)計劃建模復(fù)雜性。
  6. 目前還是針對特定場景的建模方式,通用性不足,高指標(biāo)關(guān)聯(lián)模型的通用性還有待提高。

演講最后,張真對本次演講行總結(jié):應(yīng)對AIOps自身挑戰(zhàn)的技術(shù)路線是從全維監(jiān)控到全維關(guān)聯(lián),最后到全維智能。任務(wù)機器人是AIOps系統(tǒng)的核心,基于它才能實現(xiàn)全維關(guān)聯(lián)和全維智能。任務(wù)決策是認(rèn)知智能與AI技術(shù)結(jié)合的體現(xiàn),包括六個基本職能:系統(tǒng)理解、現(xiàn)實理解、意圖理解、異常檢測、問題分析和執(zhí)行計劃。任務(wù)機器人有任務(wù)和自主兩種驅(qū)動模式,任務(wù)驅(qū)動關(guān)鍵是根據(jù)人的意圖映射成系統(tǒng)可執(zhí)行的操作,自主驅(qū)動關(guān)鍵是執(zhí)行計劃的生成,并且影響到執(zhí)行的效果。

【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2018-09-21 10:17:12

AIOps運維機器人

2018-03-30 16:34:51

AIOps運維變革

2017-09-11 19:01:13

宜信AIOps

2019-03-15 10:13:10

運維云計算運營

2021-09-03 16:12:52

機器人人工智能編程

2020-08-24 09:08:17

機器人自主研發(fā)技術(shù)

2017-03-07 16:10:36

腦控機器人糾錯

2015-11-03 13:50:21

SlackDocker運維機器人

2022-03-04 10:14:46

機器人

2018-04-24 09:51:38

亞馬遜家用機器人銷售

2020-10-15 15:42:00

人工智能

2018-03-28 09:28:16

CITE機器人智能系統(tǒng)館

2019-12-31 10:33:48

架構(gòu)運維技術(shù)

2021-07-22 10:17:55

加密機器人加密貨幣機器人

2017-09-01 13:15:05

機器人京都大學(xué)檢查

2021-08-19 15:44:20

機器人人工智能機器學(xué)習(xí)

2015-07-28 09:36:11

機器人

2015-12-10 21:49:32

IM機器人

2012-03-08 09:42:16

開源軟件Linux

2024-01-05 09:16:22

谷歌機器人人工智能
點贊
收藏

51CTO技術(shù)棧公眾號