資深運(yùn)維南非螞蟻:合格的運(yùn)維工程師是怎樣練成的?
編者按:本次采訪對(duì)象:高俊峰(昵稱:南非螞蟻),是一位資深系統(tǒng)管理員、系統(tǒng)架構(gòu)師、DBA和技術(shù)顧問(wèn),對(duì)Linux和開(kāi)源運(yùn)維有些認(rèn)識(shí),曾出版Linux入門書(shū)籍《循序漸進(jìn)Linux》和運(yùn)維實(shí)戰(zhàn)書(shū)籍《高性能Linux服務(wù)器構(gòu)建實(shí)戰(zhàn)》。今天有幸請(qǐng)到高總,和大家分享運(yùn)維技術(shù)相關(guān)知識(shí)。
CU社區(qū):
高總您好!從事Linux運(yùn)維已經(jīng)多年,您覺(jué)得一名合格的運(yùn)維工程師是如何練成的?
南非螞蟻:
一名合格的運(yùn)維工程師,要具備兩個(gè)方面的能力,分別是:
個(gè)人素質(zhì)方面:
1:溝通能力、團(tuán)隊(duì)協(xié)作
2:主動(dòng)性、執(zhí)行力、精力旺盛、抗壓能力強(qiáng)
3:工作中膽大心細(xì)、不走尋常路
4:邏輯思維能力要強(qiáng),為人謙和
5:有探索創(chuàng)新精神
技術(shù)方面:
1、開(kāi)發(fā)能力,這個(gè)很重要,因?yàn)檫\(yùn)維工具都需要自已開(kāi)發(fā),開(kāi)發(fā)語(yǔ)言:c/c++(必備其中之一)、perl、python、php等、shell(awk,sed,expect….等),需要有過(guò)實(shí)際開(kāi)發(fā)經(jīng)驗(yàn),否則工作會(huì)非常痛苦。
2、應(yīng)用方面需要了解:操作系統(tǒng)(主要是linux、bsd)、webserver相關(guān)(nginx,apahe,php,lighttpd)、數(shù)據(jù)庫(kù)(mysql,oralce),還有類似系統(tǒng)優(yōu)化,集群方面的東西。
3、網(wǎng)絡(luò)、安全,存儲(chǔ)等需要相當(dāng)了解。
在這里我把個(gè)人素質(zhì)方面放到了***位,是有一定含義的,因?yàn)閺拈L(zhǎng)遠(yuǎn)的職業(yè)發(fā)展來(lái)說(shuō),個(gè)人素質(zhì)方面決定了一個(gè)人的職業(yè)路線和發(fā)展前景。技術(shù)方面雖然也是重點(diǎn),但是就目前國(guó)內(nèi)環(huán)境來(lái)講,技術(shù)當(dāng)?shù)肋€需要走很遠(yuǎn)的路。
CU社區(qū):
現(xiàn)在運(yùn)維安全越來(lái)越緊迫,高總是如何帶領(lǐng)團(tuán)隊(duì)做好運(yùn)維監(jiān)控和安全防范措施的?
南非螞蟻:
運(yùn)維安全是個(gè)龐大的話題,涉及到網(wǎng)絡(luò)設(shè)備、安全設(shè)備、機(jī)房環(huán)境、主機(jī)系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、應(yīng)用系統(tǒng)等,對(duì)于這些軟、硬件的監(jiān)控是保證運(yùn)維安全的重要工作,在運(yùn)維監(jiān)控方面,我們有一套安全管理流程和規(guī)章制度,在運(yùn)維監(jiān)控部署上,我們以nagios和cacti為基礎(chǔ)二次開(kāi)發(fā)了一套功能完備的監(jiān)控軟件,支持集中式和分布式相結(jié)合的部署方式,在數(shù)據(jù)采集方面,可以支持分布式主動(dòng)輪詢或被動(dòng)接受的方式采集數(shù)據(jù),我們的數(shù)據(jù)采集能夠支持秒級(jí)單位的采樣周期,***通過(guò)web界面展示物理拓?fù)浣Y(jié)構(gòu),并通過(guò)物理拓?fù)浣Y(jié)構(gòu)提供全網(wǎng)的狀態(tài)信息,***通過(guò)顏色變化表示出來(lái),在軟件或者硬件出現(xiàn)故障時(shí),可以迅速發(fā)現(xiàn)網(wǎng)絡(luò)故障點(diǎn)的位置,從而保證運(yùn)維安全。在故障或者風(fēng)險(xiǎn)出現(xiàn)時(shí),我們有多樣化的響應(yīng)與執(zhí)行方式,常用的有聲音、短信、E-mail等多種方式進(jìn)行告警提示,同時(shí)結(jié)合監(jiān)控系統(tǒng)強(qiáng)大的事件分析能力,迅速定位問(wèn)題進(jìn)而解決問(wèn)題。
總而言之,對(duì)于企業(yè)安全運(yùn)維管理來(lái)說(shuō),三分技術(shù),七分管理。建立一套完善的安全管理規(guī)章制度是很有必要的。
CU社區(qū):
在從事運(yùn)維工作中,有沒(méi)有遇到過(guò)工作中的瓶頸?是否走過(guò)彎路?給大家分享一下吧。
南非螞蟻:
彎路是肯定走過(guò)的,在我剛接手運(yùn)維團(tuán)隊(duì)的時(shí)候,無(wú)論是運(yùn)維管理制度還是監(jiān)控軟件等都處于不健全或者癱瘓的狀態(tài),眾多的開(kāi)源軟件無(wú)法實(shí)現(xiàn)因地制宜,有些應(yīng)用構(gòu)架根本不適合我們的環(huán)境,但是仍然再用,進(jìn)而導(dǎo)致應(yīng)用系統(tǒng)性能低下,同時(shí)在應(yīng)用出現(xiàn)故障時(shí),監(jiān)控軟件沒(méi)有統(tǒng)一接口,數(shù)據(jù)收集不準(zhǔn)確,不完善,報(bào)警手段不及時(shí),導(dǎo)致故障很難及時(shí)發(fā)現(xiàn),故障點(diǎn)很難精確定位,為此不知道鉆了多少次機(jī)房,在機(jī)房熬過(guò)了一個(gè)又一個(gè)不眠之夜。
經(jīng)過(guò)多年的運(yùn)維,我認(rèn)為,要帶好一個(gè)運(yùn)維團(tuán)隊(duì),必須要做好下面幾個(gè)方面工作。
1:定制一套適合自己環(huán)境的運(yùn)維管理流程和制度,例如定期巡查制度,故障搶救制度,責(zé)任到人制度等。
2:有一個(gè)屬于自己的運(yùn)維監(jiān)控軟件,監(jiān)控軟件很多,適合自己的才是***的,不要盲目追求功能,如果無(wú)法滿足自己的需求,***進(jìn)行二次開(kāi)發(fā)。
3:建立一個(gè)完備的監(jiān)控軟件報(bào)警體系,軟、硬件出現(xiàn)故障要在***時(shí)間發(fā)現(xiàn),進(jìn)而迅速解決問(wèn)題,不然只能鉆機(jī)房熬夜了。
CU社區(qū):
對(duì)于自動(dòng)化運(yùn)維這一塊,不知高總有什么高見(jiàn)?能否和大家分享一下?
南非螞蟻:
充分利用現(xiàn)有的開(kāi)源技術(shù),結(jié)合自己的實(shí)際應(yīng)用環(huán)境,進(jìn)行監(jiān)控軟件的二次開(kāi)發(fā)和整合,是我們運(yùn)維團(tuán)隊(duì)的堅(jiān)持的一個(gè)準(zhǔn)則,在自動(dòng)化運(yùn)維方面,我們經(jīng)常使用的工具有自動(dòng)安裝工具Kickstart、Cobbler等,配置管理類的有Puppet,目前正在將這些工具整合進(jìn)我們開(kāi)發(fā)的監(jiān)控系統(tǒng)中,最終實(shí)現(xiàn)自動(dòng)安裝、自動(dòng)配置、自動(dòng)報(bào)警的聯(lián)動(dòng)系統(tǒng)。
對(duì)于應(yīng)用系統(tǒng)的集群構(gòu)架,我們基本都是利用開(kāi)源軟件進(jìn)行整合實(shí)現(xiàn)的,我們使用比較多的構(gòu)架有keepalived+lvs、HAproxy+keepalived、Nginx+Keepalived等方案或者組合方案。其實(shí)這些方案的組合已經(jīng)能夠滿足我們大部分的集群應(yīng)用需求。所以做二次開(kāi)發(fā)的很少。
CU社區(qū):
在招聘linux運(yùn)維工程師的時(shí)候,您最看重的是什么?如何留住優(yōu)秀的人才?
南非螞蟻:
對(duì)于運(yùn)維人員,我更注重的不是技術(shù)本身,而是溝通能力,做事方式,當(dāng)然技術(shù)也是衡量運(yùn)維人員的標(biāo)準(zhǔn),但是我認(rèn)為僅占30%。現(xiàn)在做任何事情,溝通能力都顯得非常重要,在一個(gè)運(yùn)維團(tuán)隊(duì)中,及時(shí)、準(zhǔn)確的溝通,不但可以節(jié)省很多時(shí)間和成本,而且也是留著人才的關(guān)鍵。
根據(jù)運(yùn)維人員的不同性格,讓他們?cè)谏瞄L(zhǎng)的領(lǐng)域發(fā)揮自己的優(yōu)勢(shì),這是我的一個(gè)原則,有些運(yùn)維人員性格外向,喜歡溝通交流,那么就讓他做相關(guān)的協(xié)調(diào)和管理工作,而有些運(yùn)維人員更喜歡細(xì)心的鉆研技術(shù),那么我們就給他提供學(xué)習(xí)空間,提供實(shí)踐環(huán)境,讓他成為這個(gè)領(lǐng)域的專家。
CU社區(qū):
上次咱們的數(shù)據(jù)庫(kù)大會(huì)我們有個(gè)議題是35歲后的技術(shù)人生,都說(shuō)技術(shù)人35歲是個(gè)坎,那么對(duì)于您,對(duì)于IT運(yùn)維這個(gè)職業(yè),您對(duì)35歲之后的技術(shù)人生有什么想法?
南非螞蟻:
對(duì)于技術(shù)人員來(lái)說(shuō),實(shí)時(shí)的轉(zhuǎn)型是很有必要的,但是不能一概而論,是否轉(zhuǎn)型,轉(zhuǎn)型的方向要結(jié)合自己的實(shí)際情況而定。
5年前你是個(gè)高級(jí)程序員,如果你醉心技術(shù),而現(xiàn)實(shí)生活沒(méi)有太大壓力的話,那么現(xiàn)在你可以繼續(xù)深造做個(gè)技術(shù)總監(jiān);如果你厭倦了程序員生活,并且自己的溝通和協(xié)調(diào)能力還可以,那么你也可以嘗試轉(zhuǎn)型技術(shù)管理;如果你有很強(qiáng)的溝通能力,那么轉(zhuǎn)型銷售領(lǐng)域也未嘗不可。
我認(rèn)為35歲不是技術(shù)的坎,而是一個(gè)內(nèi)心的坎,結(jié)合自己實(shí)際,結(jié)合公司的應(yīng)用環(huán)境,實(shí)時(shí)而變,才能在技術(shù)的領(lǐng)域游刃有余。