WOT2016吳兆松:Zabbix監(jiān)控自動(dòng)化的未來(lái)如何發(fā)展
原創(chuàng)“運(yùn)籌帷幄之中,決勝千里之外。”在IT運(yùn)維中,監(jiān)控占據(jù)著很重要的地位,按比例來(lái)說(shuō),以30%來(lái)計(jì)一點(diǎn)也不為過(guò)。對(duì)IT運(yùn)維工程師來(lái)說(shuō),構(gòu)建一個(gè)真正可用的監(jiān)控告警系統(tǒng)是一項(xiàng)艱巨的任務(wù)。在監(jiān)控系統(tǒng)的開源軟件中,可供選擇的工具眾多,然而真正適合自己需求,能夠真正解決自己業(yè)務(wù)問(wèn)題的監(jiān)控系統(tǒng)軟件卻鳳毛麟角。
本次51CTO記者特別采訪了【WOT2016互聯(lián)網(wǎng)運(yùn)維與開發(fā)者峰會(huì)】特邀講師、OneOaaS技術(shù)合伙人吳兆松,他將和大家分享Zabbix監(jiān)控自動(dòng)化如何發(fā)展和優(yōu)秀運(yùn)維工程師需要具備的特質(zhì)。在他的運(yùn)維職業(yè)生涯中,監(jiān)控系統(tǒng)用過(guò)Cacti、Nagios,以及公司自行開發(fā)的監(jiān)控告警系統(tǒng),直到接觸了Zabbix,才發(fā)現(xiàn)這個(gè)靈活而強(qiáng)大的自動(dòng)化監(jiān)控工具正是他所尋找的。
講師介紹
OneOaaS技術(shù)合伙人 吳兆松
吳兆松,曾任職餓了么,后離職創(chuàng)業(yè)。目前就職于OneOaaS,作為公司技術(shù)合伙人,主要從事運(yùn)維工具開發(fā),Zabbix監(jiān)控服務(wù)和二次開發(fā)。OneOaaS是一家集運(yùn)維工具開發(fā),監(jiān)控服務(wù),運(yùn)維架構(gòu)咨詢于一體的運(yùn)維服務(wù)公司,同時(shí)也是中國(guó)地區(qū)的Zabbix官方合作伙伴。
1.在餓了么的工作經(jīng)歷,對(duì)您現(xiàn)在的創(chuàng)業(yè)有什么影響嗎?您有哪些創(chuàng)業(yè)經(jīng)驗(yàn)分享給想創(chuàng)業(yè)的朋友們?
餓了么是一家很重視技術(shù)的公司,員工非常年輕,是一群有想法、有追求的年輕人。因此,我與這么多有激情,富有創(chuàng)造力的同事在一起工作是非常開心的事情。餓了么的專注,效率和執(zhí)行力是大家有目共睹的,這些對(duì)我的影響很大。
在創(chuàng)業(yè)前期,我還是一個(gè)“小學(xué)生”,還要向更多前輩學(xué)習(xí)。對(duì)于***次創(chuàng)業(yè)的朋友們提下小建議,也是自我的感受:創(chuàng)業(yè)前的你一定要想好所具備的資源,選擇方向的發(fā)展前景,如果這兩點(diǎn)已經(jīng)確認(rèn)了,那么你就要十分專注,為了家人、伙伴和***的人生去勇敢的拼搏一次。
2.您工作中所使用的Zabbix監(jiān)控自動(dòng)化處于什么階段呢?您對(duì)于它的未來(lái)發(fā)展有哪些期待?
Zabbix是一個(gè)基于Web界面,提供分布式系統(tǒng)監(jiān)視以及網(wǎng)絡(luò)監(jiān)視功能的企業(yè)級(jí)開源解決方案。它能監(jiān)視各種網(wǎng)絡(luò)參數(shù),保證服務(wù)器系統(tǒng)的安全運(yùn)營(yíng),并提供柔軟的通知機(jī)制以讓系統(tǒng)管理員快速定位/解決存在的各種問(wèn)題,是企業(yè)自動(dòng)化運(yùn)維監(jiān)控的利器。Zabbix靈活的設(shè)計(jì)為用戶提供了易用的二次開發(fā)接口,讓用戶既可以使用Zabbix本身提供的功能,又可以自定義更多的監(jiān)控項(xiàng)功能,從硬件監(jiān)控,到操作系統(tǒng),再到服務(wù)進(jìn)程,以及網(wǎng)絡(luò)設(shè)備。
目前,我們?yōu)榭蛻籼峁㈱abbix監(jiān)控的咨詢架構(gòu)與設(shè)計(jì)實(shí)現(xiàn)中,規(guī)模有大有小,既有多達(dá)幾千臺(tái)規(guī)模的服務(wù)器,也有幾百臺(tái)規(guī)模的服務(wù)器。環(huán)境有物理機(jī),網(wǎng)絡(luò)設(shè)備,虛擬化,存儲(chǔ),也有云環(huán)境,如AWS,阿里云等。甚至有些客戶監(jiān)控點(diǎn)的物理位置分布在全球各地,因網(wǎng)絡(luò)環(huán)境造成的監(jiān)控波動(dòng)比較嚴(yán)重。我們所涉及到的監(jiān)控需求是比較復(fù)雜的。
就監(jiān)控系統(tǒng)的自動(dòng)化運(yùn)維發(fā)展階段來(lái)說(shuō),我們可以從幾個(gè)方面來(lái)理解。
?。?)設(shè)備添加的自動(dòng)化,是指監(jiān)控系統(tǒng)能夠通過(guò)一定規(guī)則來(lái)實(shí)現(xiàn)監(jiān)控的自動(dòng)添加,如主動(dòng)上報(bào),被動(dòng)掃描。
?。?)監(jiān)控指標(biāo)添加的自動(dòng)化,對(duì)發(fā)現(xiàn)后的設(shè)備,添加需要的監(jiān)控指標(biāo),或根據(jù)業(yè)務(wù)指標(biāo),或根據(jù)設(shè)備類型指標(biāo)。
?。?)失效監(jiān)控指標(biāo)自動(dòng)清理,過(guò)期自動(dòng)清理無(wú)效的監(jiān)控指標(biāo)。
?。?)監(jiān)控客戶端配置的自動(dòng)化,實(shí)現(xiàn)配置管理的自動(dòng)化。
(5)對(duì)故障處理的自動(dòng)化,在出現(xiàn)故障后,需要能夠?qū)崿F(xiàn)故障自愈,自動(dòng)去修復(fù)。
在實(shí)現(xiàn)自動(dòng)化的過(guò)程中,監(jiān)控系統(tǒng)與資產(chǎn)管理系統(tǒng)(CMDB)需要有效的結(jié)合。資產(chǎn)管理的重要性相信大家都深有體會(huì),作為所有資產(chǎn)信息的唯一入口,例如上線、下線、發(fā)布、維護(hù),均需要準(zhǔn)確的資產(chǎn)信息。監(jiān)控系統(tǒng)與資產(chǎn)管理系統(tǒng)有機(jī)結(jié)合,可以實(shí)現(xiàn)不誤報(bào),不漏報(bào),不會(huì)添加錯(cuò)監(jiān)控項(xiàng),同時(shí)還能夠發(fā)現(xiàn)資產(chǎn)與監(jiān)控不一致的記錄。
對(duì)于應(yīng)用的監(jiān)控,由于環(huán)境的多樣,其復(fù)雜程度較高,需要監(jiān)控系統(tǒng)能夠自動(dòng)發(fā)現(xiàn)監(jiān)控的指標(biāo),自動(dòng)配置監(jiān)控指標(biāo)項(xiàng),自動(dòng)配置告警的閾值,以及需要告警匯聚、合并等,如對(duì)周期出現(xiàn)的故障,***能自我修復(fù)。
對(duì)于未來(lái)的發(fā)展,希望Zabbix能夠在監(jiān)控的可視化方面有更好的展示效果,如自動(dòng)拓?fù)涞纳?,?shí)現(xiàn)類似zatree,graph tree的樹形圖形展示功能,在報(bào)表分析方面有更方便的功能,能夠提供環(huán)比功能等。
3.日常工作中,您有哪些軟件及開源工具推薦給大家?它們有哪些優(yōu)點(diǎn)和需要注意的地方?
我把日常工作中,使用比較順手的三類開源工具推薦給大家,希望對(duì)大家有所幫助。
(1)配置管理類開源工具,我推薦ansible和saltstack。
ansible是基于ssh協(xié)議,無(wú)agent模式,方便快捷,適合于機(jī)器初始化,代碼發(fā)布,集中管理配置等場(chǎng)景。而saltstack是屬于socket通信協(xié)議,執(zhí)行效率高,功能模塊也非常全面,社區(qū)響應(yīng)快,文檔豐富。在大多數(shù)場(chǎng)景下,這兩者可以結(jié)合起來(lái)使用。
?。?)API離線文檔神器
我推薦Mac下的dash和Windows下的zeal,它們集合了100多種API離線文檔,方便離線搜索。
?。?)監(jiān)控系統(tǒng),我推薦Zabbix 、Open-falcon。
Open-falcon屬于后起之秀,它吸收了opentsdb,Zabbix等監(jiān)控工具的一些長(zhǎng)處,維護(hù)非常方便。它的缺點(diǎn)是當(dāng)前支持監(jiān)控協(xié)議的種類還偏少。但一般中大型互聯(lián)網(wǎng)公司,因?yàn)楸O(jiān)控對(duì)象比較固定,所以完全可以滿足他們的使用需求。
4.您心目中優(yōu)秀的運(yùn)維工程師是怎樣的?
我覺得一位優(yōu)秀的運(yùn)維工程師,應(yīng)該具備以下特點(diǎn)。相信擁有這些特質(zhì)的他們,不管到哪里工作,都會(huì)很受歡迎。
?。?)具有一定的視野。對(duì)業(yè)務(wù)、對(duì)技術(shù)才會(huì)有很好的把控能力,讓技術(shù)為業(yè)務(wù)服務(wù)。
?。?)具有良好的學(xué)習(xí)能力。對(duì)于新技術(shù)能夠很快掌握,并能為業(yè)務(wù)服務(wù)。
?。?)良好的溝通能力。運(yùn)維工作中,工程師常常需要跨部門溝通,與業(yè)務(wù)的上下游,與部門同事、領(lǐng)導(dǎo)溝通,這都需要主動(dòng)積極去推動(dòng)工作的進(jìn)行。
?。?)良好的團(tuán)隊(duì)協(xié)作能力。
(5)應(yīng)該掌握一門編程語(yǔ)言,如Python,Perl等。具有編碼能力的運(yùn)維工程師才能將工作做得更得心應(yīng)手,因?yàn)殚_源工具雖多,但需求總會(huì)有新的,總會(huì)有開源工具無(wú)法滿足的場(chǎng)景。因此,掌握編碼是每個(gè)運(yùn)維工程師必備的技能。
?。?)文檔能力也不可缺少。
5.您將在4月份北京舉行的WOT互聯(lián)網(wǎng)運(yùn)維和開發(fā)者峰會(huì)上分享哪些內(nèi)容?
在本次的峰會(huì)上,我主要會(huì)分享Zabbix監(jiān)控運(yùn)維自動(dòng)化的相關(guān)知識(shí)點(diǎn)。例如,如何做運(yùn)維基礎(chǔ)設(shè)施監(jiān)控,如何做業(yè)務(wù)監(jiān)控,如何實(shí)現(xiàn)監(jiān)控的自動(dòng)化,如何告警和告警中涉及難點(diǎn)的解決方案,以及分享我們對(duì)Zabbix進(jìn)行二次開發(fā)的工具等??傮w來(lái)說(shuō),干貨很多,值得大家期待!