WOT程超:自動化到智能化的阿里監(jiān)控發(fā)展之路
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年5月18-19日,由51CTO主辦的全球軟件與運維技術峰會在北京召開。來自全球企業(yè)的技術精英匯聚北京,暢談軟件技術前沿,共同探索運維技術的新邊界。而在本次大會上,除了眾星云集的主論壇環(huán)節(jié),12場分論壇更是各具特色,在“容器下的AIOps”分論壇上,來自阿里巴巴集團監(jiān)控負責人程超就自動化到智能化的阿里監(jiān)控發(fā)展之路主題進行了精彩演講。
阿里巴巴集團監(jiān)控負責人程超
程超自2008年開始加入阿里巴巴,接手的***個項目就是CMDB,這一代CMDB運營到現(xiàn)在已經(jīng)快十年了,中間經(jīng)歷了很多的運維平臺的迭代。程超最初以開發(fā)者的角色進入阿里巴巴,最近幾年,主要在做監(jiān)控平臺的開發(fā)和運營工作。
阿里巴巴監(jiān)控系統(tǒng)回顧
據(jù)程超介紹,阿里巴巴最開始的監(jiān)控系統(tǒng)也是開源的,開源的監(jiān)控系統(tǒng)***的問題就是不能實現(xiàn)規(guī)?;?,一旦規(guī)模上來了,就會碰到各種各樣的問題。2009年,程超的團隊放棄了開源系統(tǒng),自己搭建一套監(jiān)控系統(tǒng)。***代自研的監(jiān)控系統(tǒng)大概支撐了阿里巴巴五年左右的發(fā)展,直到今天還有一部分是在使用著,這套監(jiān)控系統(tǒng)***的功勞是解決了量的問題,因為它有了域的概念。
如今阿里巴巴使用的監(jiān)控平臺是***一代,也是阿里巴巴最重要的一代監(jiān)控平臺,它有很多不一樣的地方。以前阿里巴巴的存儲是使用的Hbase現(xiàn)在的存儲正在向HiTSDB推進。與常規(guī)的監(jiān)控系統(tǒng)不同,阿里巴巴自研的架構是自上向下的,傳統(tǒng)的監(jiān)控系統(tǒng)是自下向上的。
程超表示,現(xiàn)在阿里巴巴的監(jiān)控規(guī)模是內(nèi)部有90+的租戶,租戶包括淘寶、盒馬、優(yōu)酷等阿里巴巴的不同業(yè)務,監(jiān)控系統(tǒng)的機器數(shù)量是4000多臺虛擬機,這是去年雙十一的量。
阿里今天的監(jiān)控系統(tǒng)
在簡單回顧過去的幾代監(jiān)控系統(tǒng)之后,程超講述了現(xiàn)在阿里的監(jiān)控系統(tǒng)。他認為做了比較重要的幾件事情:首先,我們做了Zero-Copy,程超認為設計監(jiān)控系統(tǒng)的原則是所有在機器上的處理要放到中心來,而不要在終端機器上直接做處理。當機器監(jiān)控系統(tǒng)在執(zhí)行監(jiān)控任務時,其實很容易出現(xiàn)問題,例如CPU的抖動會影響到監(jiān)控效果,這種問題真實出現(xiàn)過,所以程超的監(jiān)控系統(tǒng)時用帶寬換CPU,不做任何處理甚至是壓縮。其次,我們借鑒了Akka做了自己的框架,整個框架的設計理念比較先進,當然也經(jīng)過了不斷的調(diào)試和改進,才能適應今天的需求。
程超又強調(diào)了Agent的部分。他介紹道,在Agent上,阿里巴巴做了很多的事情。我們在做Agent之初,需要接入各種各樣的系統(tǒng),因為監(jiān)控系統(tǒng)是在業(yè)務系統(tǒng)之后才搭建的,不是先有監(jiān)控規(guī)則,大家都遵守。現(xiàn)實的情況是我要表達一個日期,就有非常多的可能性,今天我們兼容了七種其實還有更多,那些更不常用,日期的格式。還有目錄也是各種各樣的寫法。程超強調(diào),Agent需要適應業(yè)務,因為整套的監(jiān)控系統(tǒng)最最核心的價值是保證業(yè)務的穩(wěn)定性。
為什么阿里巴巴以業(yè)務作為重點呢?程超表示,之前提到的HiTSDB還沒有做完整,正在進行開發(fā)中。阿里巴巴實現(xiàn)了自己的MQL,但是使用HBASE是不能發(fā)揮MQL的價值,但是阿里巴巴擁有強大的HBASE的開發(fā)和運維團隊,這幾年的 使用都非常穩(wěn)定,沒有出現(xiàn)過任何問題。那么,阿里巴巴為何要切換到HiTSDB呢?程超解釋,HBASE有些事情是不能完成的,比如各個緯度的靈活組合等,所以阿里巴巴正在切換HiTSDB。HiTSDB是阿里巴巴基于openTSDB規(guī)范實現(xiàn)的一個數(shù)據(jù)庫,為了適應監(jiān)控大規(guī)模系統(tǒng),阿里巴巴也正在努力,現(xiàn)在HiTSDB還在不斷的優(yōu)化過程中,預計在今天的雙十一之前,HiTSDB切換可以完成。
他還向大家介紹,阿里的監(jiān)控系統(tǒng)在計算、報警通知方面也有所建樹。報警和通知這兩項,幾乎是每個監(jiān)控系統(tǒng)都要碰到的。因為規(guī)模大了以后,報警和通知變得更有意義。
最初阿里巴巴只有一套監(jiān)控系統(tǒng),程超的團隊在摸索中前進,最初認為沒有價值的東西,待監(jiān)控系統(tǒng)的規(guī)模升級之后,也變得更有意義。報警和通知系統(tǒng)對于監(jiān)控系統(tǒng)來說也是獨立而至關重要的。A監(jiān)控系統(tǒng)和B監(jiān)控系統(tǒng)***的不同就是針對的領域,相信到整個的計算領域真正普及了報警功能的時候就會大同小異。程超在培訓時使用微信、短信、郵件、釘釘,這樣做的好處就是在通知那一層還能做很多事情,比如說報警、風暴的問題和在監(jiān)控系統(tǒng)里面很難解決的問題,當我們嘗試把這一層切出來以后,有機會在監(jiān)控系統(tǒng)之外,還能做出一些價值。
程超認為,在今天的監(jiān)控系統(tǒng)領域,大家對業(yè)務的關心還是太少,因為很多做監(jiān)控系統(tǒng)的人,原來從事的是運維業(yè)務,或者是開發(fā)業(yè)務,他們有種天然特性,就是認為監(jiān)控系統(tǒng)只是為了解決運維的問題。這樣的認知和格局是不夠的。我們看到,在(阿里巴巴)第二代的架構里面,那個時候做出來的監(jiān)控系統(tǒng),只是在解決運維的問題。然而在去年,阿里巴巴解散了整個運維團隊。如果不做這個徹底的改變,所謂的Devops只是說說而已。
運維團隊解散以后,很多平臺層面的、工具層面的,自動化的、智能的都會逐步跟進,沒有了運維的保姆式的服務,就迫使工具團隊和開發(fā)團隊必須演進出一套用戶模型,我們希望把這個模型做成細分級、全方位、全鏈路、縱向的模型??v向模型指的是我們的網(wǎng)絡質(zhì)量、應用、線路指標、APM、網(wǎng)絡、DIC,再到數(shù)據(jù),希望能用這個模型把它們串聯(lián)起來、結(jié)合起來,這就是我們監(jiān)控系統(tǒng)未來的建設方向。
本次WOT峰會講師演講稿件由51CTO采編整理,如欲了解更多,敬請登錄www.scjtxx.cn進行查看。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】