從零起步到Linux運(yùn)維經(jīng)理,你必須管好的23個細(xì)節(jié)
不想成為將軍的士兵,不是好士兵-拿破侖
如何成為運(yùn)維經(jīng)理?成為運(yùn)維經(jīng)理需要什么樣的能力?我想很多運(yùn)維工程師都會有這樣的思考和問題。
如何成為運(yùn)維經(jīng)理。一般來說,運(yùn)維經(jīng)理大概有兩種出身,一種是從底層最基礎(chǔ)的維護(hù)做起,通過出色的維護(hù)工作,讓公司領(lǐng)導(dǎo)對這個人非常認(rèn)可,同時對Linux運(yùn)維工作也比較重視,逐步走向Manager的崗位。第二種是業(yè)務(wù)管理出身或者有IT技術(shù)背景,具備了一定經(jīng)驗直接進(jìn)入IT管理層的人員。
那么做為一個Linux運(yùn)維經(jīng)理,你需要哪些技能武器、管理哪些細(xì)節(jié),具備什么樣的能力?
運(yùn)維技能武器庫
Bootstrapping: Kickstart、Cobbler、rpmbuild/xen、kvm、lxc、Openstack、 Cloudstack、Opennebula、Eucalyplus、RHEV
配置類工具: Capistrano、Chef、puppet、func、salstack、Ansible、rundeck
監(jiān)控類工具: Cacti、Nagios(Icinga)、Zabbix、基于時間監(jiān)控前端Grafana、Mtop、MRTG(網(wǎng)絡(luò)流量監(jiān)控圖形工具)、Monit
性能監(jiān)控工具: dstat(多類型資源統(tǒng)計)、atop(htop/top)、nmon(類Unix系統(tǒng)性能監(jiān)控)、slabtop(內(nèi)核slab緩存信息)、sar(性能監(jiān)控和瓶頸檢查)、sysdig(系統(tǒng)進(jìn)程高級視圖)、tcpdump(網(wǎng)絡(luò)抓包)、iftop(類似top的網(wǎng)絡(luò)連接工具)、iperf(網(wǎng)絡(luò)性能工具)、smem)(高級內(nèi)存報表工具)、collectl(性能監(jiān)控工具)
免費(fèi)APM工具: mmtrix(見過的最全面的分析工具)、alibench
進(jìn)程監(jiān)控: mmonit、Supervisor
日志系統(tǒng): Logstash、Scribe
繪圖工具: RRDtool、Gnuplot
流控系統(tǒng): Panabit、在線數(shù)據(jù)包分析工具Pcap Analyzer
安全檢查: chrootkit、rkhunter
PaaS: Cloudify、Cloudfoundry、Openshift、Deis (Docker、CoreOS、Atomic、ubuntu core/Snappy)
Troubleshooting:Sysdig 、Systemtap、Perf
持續(xù)集成: Go、Jenkins、Gitlab
磁盤壓測: fio、iozone、IOMeter(win)
Memcache Mcrouter(scaling memcached)
Redis Dynomite、Twemproxy、codis/SSDB/Aerospike
MySQL 監(jiān)控: mytop、orzdba、Percona-toolkit、Maatkit、innotop、myawr、SQL級監(jiān)控mysqlpcap、拓?fù)淇梢暬ぞ?/p>
MySQL基準(zhǔn)測試: mysqlsla、sql-bench、Super Smack、Percona's TPCC-MYSQL Tool、sysbench
MySQL Proxy: SOHU-DBProxy、Altas、cobar、58同城Oceanus
MySQL邏輯備份工具: mysqldump、mysqlhotcopy、mydumper、MySQLDumper 、mk-parallel-dump/mk-parallel-restore
MySQL物理備份工具: Xtrabackup、LVM Snapshot
MongoDB壓測:iibench&sysbench
運(yùn)維管理工作全貌
1. 域名
從買域名開始,要買多個域名,50個甚至100個。分為主域名和推廣域名(給推廣鏈接用的)。要從godaddy上買域名,因為這里的域名穩(wěn)定,不會出現(xiàn)被攻擊等事情。同時還要買域名保護(hù),這樣互聯(lián)網(wǎng)用戶ping這個域名就解析不到真實的服務(wù)器地址。
同時域名解析的操作不要在godaddy上進(jìn)行,要把解析的操作放在cloudflare上或者dnspod上進(jìn)行操作,也可以放到zndns上(這個dns可以做到一個域名解析多個IP地址,根據(jù)就近原則,把最快的IP地址解析給用戶。)也可以自己搭建dns服務(wù)器,在godaddy上只想到自己搭建的dns服務(wù)器就可以了。這樣,修改dns指向的時候會更快。
2. CDN
一定要買cdn服務(wù)。如果出現(xiàn)部分用戶訪問不了就使用cdn服務(wù)。可以從cloudflare上購買cdn服務(wù),這樣域名解析到cdn上,然后cdn解析到肉盾擊還是那個,然后肉盾擊指向核心服務(wù)器上。Cdn充當(dāng)一個緩存和轉(zhuǎn)發(fā)的作用,大流量攻擊的時候他可以防御至少200G的攻擊。Cdn是全球緩存的。
3. 圖片服務(wù)器
在國內(nèi)租用幾臺服務(wù)器做圖片緩存服務(wù)器即可,這樣提高訪問速度。其實nginx本身就是一個圖片緩存服務(wù)器。
圖片服務(wù)器和其他服務(wù)器要分開,肉盾擊可做圖片緩存。
4. 服務(wù)器機(jī)房
選擇機(jī)房太重要了,要服務(wù)質(zhì)量好的,還要高防好的,還要可靠性高的,還要相應(yīng)及時的,還要能隨時可以查看服務(wù)器狀態(tài)的,最重要還要服務(wù)態(tài)度好了。
機(jī)房要買香港九河(用戶核心服務(wù)器),美國圣安娜機(jī)房(用于肉盾擊)(雖然慢,但是安全高防做的真好,大流量攻擊的時候,這里的機(jī)房還是可以訪問,所以,雞蛋不要放在一個籃子里頭,要各個等級都有才叫好的,國內(nèi)機(jī)房快,但是高防效果差,美國機(jī)房慢但是高防效果好)
5. 主頁
一個主頁,就是招商或成為打廣告的網(wǎng)站,可以租用云主機(jī),這樣被打死就被打死吧。里面可以有一個鏈接,指向游戲首頁,這個鏈接可以是帶端口號的,那就簡單了。
也可以是不帶端口號的,這時候就一定要用cdn服務(wù)器,或者使用免備案機(jī)房,把肉盾擊放在免備案機(jī)房,因為國內(nèi)搭建網(wǎng)站都是要備案的,博彩這個行業(yè)是被禁止的,為了避免域名或者IP地址被和諧了(gwf)所以要用免備案機(jī)房。
或者就把肉盾擊也放到香港或者臺灣或者韓國等等機(jī)房。這樣用戶可以不使用端口號,直接用域名就可以訪問咱們的網(wǎng)站。
6. 監(jiān)控系統(tǒng)
要個網(wǎng)站要有監(jiān)控系統(tǒng),實時監(jiān)控服務(wù)器是否有攻擊,功過查看日志是否激增,還要把日志放到日志服務(wù)器上(syslog服務(wù)),使用cacti服務(wù)可以把日志放到cacti上。網(wǎng)速是一定要查看的,網(wǎng)速激增則證明一定是有攻擊。
每天要看日志,要用日志分析軟件,看看訪問源是單一訪問源還是多個不同的訪問源.監(jiān)控服務(wù)器要有報警功能,一旦情況異常就要立刻報警,然后起床處理攻擊。
7. 防攻擊
攻擊一般看情況而定,一般的攻擊都是直接攻擊域名。小量的攻擊可以通過nginx和iptables本身的防御功能就防掉。大量的攻擊由于直接把網(wǎng)絡(luò)帶寬占用滿了,服務(wù)器無法正常相應(yīng),只能依靠機(jī)房的高防了。
所以要買大量的高防,建議至少200G。如果攻擊源是單一IP或者幾個IP,那么就讓機(jī)房把這幾個IP給屏蔽就可以了。遇到cc或者ddos攻擊,只能靠機(jī)房解決。一臺服務(wù)器被打死后,需要立刻把域名指向另一臺服務(wù)器,(或者直接把域名指向百度)。
大量的攻擊還要使用cdn,讓cdn直接指向核心服務(wù)器就可以了,這樣能快一點,讓用戶還可以玩??傊罅髁抗羰遣荒芡耆乐沟?。
8. 冗余
一個網(wǎng)站一定要有冗余,比如現(xiàn)在是1000人同時訪問的并發(fā)量,一定要讓網(wǎng)站的負(fù)載達(dá)到2000人的并發(fā)量,要不然一搞活動,網(wǎng)站負(fù)載不了那么多人就完了。
9. 服務(wù)器
服務(wù)器的配置,要用三網(wǎng)卡,一個用于用戶連接,對外的訪問(要好的網(wǎng)卡)。一個用于內(nèi)網(wǎng)服務(wù)器之間的訪問使用。一個用于ssh管理,這樣大量攻擊的時候咱們還可以操作服務(wù)器。
每個網(wǎng)卡還要多個IP地址,這樣防止某個IP被屏蔽了。國內(nèi)網(wǎng)絡(luò)和國外網(wǎng)絡(luò)經(jīng)常會有IP不好用的情況。硬盤至少要鏡像(raid 1),cpu要兩路的,雙電源,總之不要有單點故障。至于肉盾擊的配置可以低一些,甚至臺式機(jī)的配置都可以,但是網(wǎng)絡(luò)一定要好,尤其是和核心服務(wù)器之間的網(wǎng)絡(luò)一定要好。
10. 數(shù)據(jù)庫
數(shù)據(jù)庫要做主從復(fù)制,要有異地備份,nginx服務(wù)器要做集群,就是upstream。前臺(提供用戶訪問頁面)和后臺(員工管理界面)要用兩臺不同的機(jī)器,不要互相影響。其余的服務(wù)可以使用一臺虛擬機(jī)完成。
這樣可以省錢,郵箱直接買google的gmail企業(yè)郵箱就好了,非常好用,最好沒人一個?;蛘吖緝?nèi)部搭建自己的聊天軟件(最好還錢買聊天軟件)。
11.測試環(huán)境
測試環(huán)境要三套,開發(fā)人員電腦上自己的環(huán)境,要局域網(wǎng)一套測試環(huán)境,互聯(lián)網(wǎng)一套測試環(huán)境,生產(chǎn)環(huán)境。局域網(wǎng)的測試環(huán)境一定要穩(wěn)定,可以買一個機(jī)柜等等的網(wǎng)絡(luò)設(shè)備放在一起,不要用普通電腦。局域網(wǎng)要有svn或git的代碼管理工具。充分測試后在上傳到生產(chǎn)環(huán)境。
12. 肉盾擊和核心服務(wù)器
肉盾擊和核心服務(wù)器之間一定要可以使用ping命令,這樣可以看看那個IP地址不能使用了,網(wǎng)絡(luò)連通性都可以看出來。
13. 運(yùn)維人員
至少兩個,如果有運(yùn)維經(jīng)理一個運(yùn)維人員就夠了。這樣所有運(yùn)維工作必須有操作文檔,兩個人互相協(xié)調(diào)工作,不需要倒班,但是24小時待命。網(wǎng)管一個就夠了。
普通的運(yùn)維部門大概就這樣,如果是大的網(wǎng)絡(luò)架構(gòu),會有自己的數(shù)據(jù)中心機(jī)房到時候在安排人手。
14. Linux系統(tǒng)優(yōu)化和安全
要有優(yōu)化和安全配置,比如說nginx基于cpu的優(yōu)化,每個程序基于cpu和內(nèi)存的限制。
所有密碼要有3個月就修改一次,尤其是域名的賬號和郵箱密碼,域名是最重要也是最脆弱的環(huán)節(jié)。
15. 局域網(wǎng)
局域網(wǎng)一定要穩(wěn)定,可以買兩條網(wǎng)線,至少10M帶寬,還要買一個移動wifi,給員工手機(jī)上網(wǎng)。
16. 機(jī)房
如果是大型網(wǎng)絡(luò)架構(gòu),那得有自己的核心機(jī)房,就不是租用機(jī)房了,每個崗位都是若干人組成的,包括運(yùn)維工程師,數(shù)據(jù)庫管理工程師,網(wǎng)絡(luò)工程師,安全工程師,存儲備份系統(tǒng)工程師,運(yùn)維經(jīng)歷負(fù)責(zé)協(xié)調(diào)各個部門間的工作。目前就是一個運(yùn)維就能完成所有的工作。
17. 運(yùn)維工具
運(yùn)維的工具要統(tǒng)一,比如連接數(shù)據(jù)庫使用sqlyog工具,連接服務(wù)器使用crt工具,密碼管理用keepass,上傳服務(wù)器代碼使用winscp工具,等等。這樣運(yùn)維人員之間工作比較好協(xié)調(diào)。
另外運(yùn)維一定要有大量時間學(xué)習(xí),每天都要上網(wǎng)找新技術(shù),好的資料,最好要懂英文,因為好的技術(shù)文檔都是英文寫的。這樣對運(yùn)維工作很有幫助,而且運(yùn)維技術(shù)實力會有很大的進(jìn)步的,為迎接更大的需求做準(zhǔn)備。
18. 災(zāi)備預(yù)案
最后一定要有預(yù)案,就是服務(wù)器一旦出現(xiàn)重大問題,就是解決不了了,這個時候就不要去解決這臺服務(wù)器,使用預(yù)案,把啟用備用方案,盡快讓網(wǎng)站可用。
平時多做預(yù)案演習(xí),還要多做備份的還原操作,因為有的備份不可用,這是常見現(xiàn)象。別到關(guān)鍵時刻備份不能用,整個網(wǎng)站就完了。
19. 服務(wù)器安全
要有一整套的安全配置,包括用戶安全,應(yīng)用安全,系統(tǒng)安全,文件安全等。這樣防止服務(wù)器被黑客侵入。
20. 高并發(fā)測試
一定要做高并發(fā)測試,模擬同時在線用戶2000人,看服務(wù)器的負(fù)載情況,要有服務(wù)器高并發(fā)配置,網(wǎng)絡(luò)方面是機(jī)房的事情,但是得選擇最合適的IP地址,最適合的機(jī)房,及出口帶寬。
高并發(fā)是服務(wù)器架構(gòu)的事情,不是單單一臺服務(wù)器的事情。該花錢的地方一定要花,可以省錢的地方要知道怎么省錢。
21. 運(yùn)維信息
運(yùn)維所有信息兩個人共享,包括密碼和服務(wù)器配置步驟,由運(yùn)維經(jīng)理帶領(lǐng)團(tuán)隊,打造成一個互相學(xué)習(xí),技術(shù)實力雄厚,目標(biāo)一致的和諧團(tuán)隊。讓每個人在團(tuán)隊中都得到自己想要的。
運(yùn)維經(jīng)理的為人就很重要,要不然留不住人,大家心不往一起使勁。運(yùn)維工作技術(shù)不是最重要的,因為這個職位現(xiàn)學(xué)現(xiàn)用也來得及,所以工作態(tài)度/為人和經(jīng)驗是最重要的。
22. 服務(wù)器日志
對服務(wù)器建立日志,所有服務(wù)器的所有操作都要有記錄,并且寫清時間操作內(nèi)容。對生產(chǎn)服務(wù)器操作之前一定要做風(fēng)險評估及解決方案。
23. 運(yùn)維工作
應(yīng)用上線后,運(yùn)維工作才剛開始,具體工作可能包括:升級版本上線工作、服務(wù)監(jiān)控、應(yīng)用狀態(tài)統(tǒng)計、日常服務(wù)狀態(tài)巡檢、突發(fā)故障處理、服務(wù)日常變更調(diào)整、集群管理、服務(wù)性能評估優(yōu)化、數(shù)據(jù)庫管理優(yōu)化、隨著應(yīng)用PV增減進(jìn)行應(yīng)用架構(gòu)的伸縮、安全、運(yùn)維開發(fā)工作。
核心運(yùn)維管理工具箱
重點介紹運(yùn)維流程管理、運(yùn)維發(fā)布變更、運(yùn)維監(jiān)控告警三個方面的具體工具,可作為工作日記使用。
第一類:運(yùn)維流程管理工具
1.發(fā)布變更流程管理工具
做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風(fēng)險。流程管理工具并不負(fù)責(zé)具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。
2.告警和突發(fā)管理工具
體現(xiàn)業(yè)務(wù)受損的告警自動建單管理。人工確認(rèn)之后升級為突發(fā)單。通過建單管理告警和突發(fā)確保流程的閉環(huán),以及每次故障都能夠總結(jié)出經(jīng)驗,并未度量業(yè)務(wù)的可用性提供KPI。
第二類:運(yùn)維發(fā)布變更工具
1.版本管理工具(數(shù)據(jù)庫)
所有的發(fā)布應(yīng)該以版本管理為起點。研發(fā)給的版本包先入版本管理工具,再從版本管理工具分發(fā)到現(xiàn)網(wǎng)發(fā)布。杜絕 rsync 一臺服務(wù)器發(fā)布另外一臺的做法。
2.配置管理工具(數(shù)據(jù)庫)
版本加配置等于現(xiàn)網(wǎng)每臺機(jī)器的狀態(tài)。最粗粒度的配置管理是到 IP 級別,相當(dāng)于對機(jī)器做資產(chǎn)管理,分組到不同的業(yè)務(wù),模塊和大區(qū)等業(yè)務(wù)概念上。細(xì)粒度一點會管理到進(jìn)程以及進(jìn)程的相關(guān)配置。
3.配置和版本下發(fā)工具
把指定的版本,結(jié)合配置好的配置下發(fā)到現(xiàn)網(wǎng)的機(jī)器上。不同的版本和配置方式需要完全不同的下發(fā)方式。以 ssh/fabric 為代表的下發(fā)方式是以腳本為中心的。以 puppet/chef 為代表的下發(fā)方式是以配置為中心的。
4.現(xiàn)網(wǎng)狀態(tài)同步工具
為了規(guī)避現(xiàn)網(wǎng)狀態(tài)漂移,與管理工具內(nèi)的記錄不一致。需要有一個工具定時上報現(xiàn)網(wǎng)的實際狀況。
5.服務(wù)調(diào)度工具
發(fā)布變更經(jīng)常需要一個串行的流程,先做A模塊,再做B模塊。很多機(jī)器的時候,需要把能并發(fā)的操作并發(fā)執(zhí)行,不能并發(fā)的操作確保串行執(zhí)行。同時很多發(fā)布變更流程需要操作管理范圍外的服務(wù),比如云端的DNS服務(wù)器記錄等。這就需要有一個服務(wù)調(diào)度工具統(tǒng)一調(diào)度配置和版本下發(fā)工具,流程單據(jù)工具,以及其他系統(tǒng)的API接口共同組裝成一個流程。
6.資源管理和隔離工具
以xen/kvm為代表的工具讓運(yùn)維可以更靈活的切割資源。比如虛擬機(jī)的快速起停,ip在idc內(nèi)的漂移等。以 lxc/docker 為代表的工具讓運(yùn)維可以進(jìn)一步的切割資源到進(jìn)程級別。資源隔離代理的細(xì)粒度的資源控制可以獲得更好的資源利用率,以及更容易進(jìn)行可伸縮的資源配置。
7.發(fā)布變更統(tǒng)一界面
包裝所有的下層工具,提供簡單的界面完成標(biāo)準(zhǔn)化的發(fā)布變更操作。
第三類:運(yùn)維監(jiān)控告警工具
1.采集工具
一般是采集日志文件,也可以是定時輪詢 DB 或者其他系統(tǒng)的接口。流行的開源方案是 logstash。
2.收集工具
采集工具上報給收集工具。或者由開發(fā)直接修改代碼上報指標(biāo)給收集工具。流程的開源方案還是 logstash。
3.統(tǒng)計入庫工具
上報可能是每次調(diào)用就上報一次,統(tǒng)計工具負(fù)責(zé)統(tǒng)計出一分鐘內(nèi)的次數(shù)。上報也可能是每5秒上報一次數(shù)值,統(tǒng)計工具負(fù)責(zé)統(tǒng)計出一分鐘內(nèi)的最大值。統(tǒng)計工具的存在是為了上報的方便。流行的開源方案是 statsd,也有大公司基于 storm 來做二次開發(fā)的。
4.時間序列數(shù)據(jù)庫
所有定時指標(biāo)會落地到數(shù)據(jù)庫里。監(jiān)控告警所需要的數(shù)據(jù)庫需要能夠支撐非常大的數(shù)據(jù)量,但是并沒有很嚴(yán)格的 ACID 要求。
5.運(yùn)維事件數(shù)據(jù)庫
記錄所有的告警。包括從其他系統(tǒng)獲得告警,以及對現(xiàn)網(wǎng)的所有變更操作記錄。這些數(shù)據(jù)用于支撐告警的原因定位。
6.指標(biāo)異常檢測工具
基于數(shù)學(xué)模型發(fā)現(xiàn)指標(biāo)是否與過去的穩(wěn)定模式背離,而推測出現(xiàn)網(wǎng)狀態(tài)的變化。
7.撥測工具
定時 PING 或者 HTTP GET,模擬實際用戶發(fā)現(xiàn)服務(wù)是否中斷,產(chǎn)生告警。同時也產(chǎn)生指標(biāo)上報給收集系統(tǒng)。撥測又分為本地?fù)軠y,和遠(yuǎn)程撥測。本地?fù)軠y可以用于發(fā)現(xiàn)磁盤只讀等本機(jī)告警。遠(yuǎn)程撥測可以模擬用戶的地理分布,把網(wǎng)絡(luò)的鏈路狀況也包含在撥測覆蓋的范圍內(nèi)。
8.告警收斂工具
綜合所有來源的告警,進(jìn)行頻率收斂,根源分析。統(tǒng)一匯總成報告催促人工修復(fù)。
9.告警自動修復(fù)工具
接受告警進(jìn)行自動化的處理。幫運(yùn)維完成固定的故障機(jī)下架退庫等操作?;蛘咴跇I(yè)務(wù)本身沒有做高可用的情況下,做故障機(jī)替換,ip漂移等現(xiàn)網(wǎng)修復(fù)操作,一定程度地提高業(yè)務(wù)可用性。
10.告警通知工具
重要的告警需要升級為電話。需要有高可用的電話,短信,微信等通知接口。
11.監(jiān)控告警統(tǒng)一界面
屏蔽下層各種工具,提供統(tǒng)一的agent安裝,指標(biāo)采集設(shè)置,指標(biāo)曲線展示,告警查詢的界面。一個地方知道現(xiàn)網(wǎng)的所有的問題。
優(yōu)秀運(yùn)維經(jīng)理的能力
1、系統(tǒng)架構(gòu)的設(shè)計和規(guī)劃能力。做為一個技術(shù)工程師,你關(guān)注更多的是具體的技術(shù)和問題分析、故障處理等細(xì)節(jié),而做為一名運(yùn)維經(jīng)理,則需要你站在全局的高度,把控各環(huán)節(jié)的應(yīng)用來規(guī)劃和設(shè)計系統(tǒng)架構(gòu),以實現(xiàn)高效穩(wěn)定的IT系統(tǒng)。
2、量化和問題管理的能力。熟悉ITIL以及相關(guān)運(yùn)維工具,通過運(yùn)維管理工具,跟蹤事件的流程,實現(xiàn)整個IT系統(tǒng)的統(tǒng)一與協(xié)調(diào);通過運(yùn)維管理工具,幫助運(yùn)維人員監(jiān)控和定位問題根源;通過知識庫的積累可以有效解決人員變更后的管理問題??梢哉f,IT系統(tǒng)不僅僅需要人的運(yùn)維,為了發(fā)揮IT系統(tǒng)的最大作用,利用工具來量化、標(biāo)準(zhǔn)化管理更是有必要的。我們可以運(yùn)用自動化的一些工具來采集輸出更為全面的監(jiān)控預(yù)警信息,化被動運(yùn)維為主動運(yùn)維;通過自動化的運(yùn)維工具把多點的管理集中減少到一點都能更好的簡化運(yùn)維工作量和提高運(yùn)維的效率。標(biāo)準(zhǔn)的流程清晰明確了,這樣當(dāng)問題出現(xiàn)時,就不會出現(xiàn)A部門找B部門反饋,B部門又找C部門處理,C可能說是D部門的問題,這樣導(dǎo)致很簡單的問題無法得到及時有效的處理,影響的不僅僅是業(yè)務(wù)本身,部門之間也會怨聲載道。
3、管理團(tuán)隊和協(xié)調(diào)能力。大多數(shù)時候,運(yùn)維人員都在進(jìn)行著簡單重復(fù)的工作,且很難得到最終用戶的肯定。曾有一個詞“窮忙族”形容運(yùn)維工程師,工位上不見人影,一坐下電話不斷,是不是你該解決的問題都有人來找你。這樣的場景,大家應(yīng)該都有體會。標(biāo)準(zhǔn)化流程的制定非常重要,不僅方便問題的梳理而且能讓對應(yīng)的問題找到對應(yīng)的人,這對運(yùn)維是很重要的,同時有利于團(tuán)隊的協(xié)作。作為運(yùn)維經(jīng)理還要關(guān)心團(tuán)隊中的每一個成員,協(xié)調(diào)每名工程師的工作時間和CASE,合理安排工作任務(wù)。另外肯定每個工程師的付出,對他們優(yōu)秀完成的工作給予積極肯定和表揚(yáng),這些都有助于凝聚人心和培養(yǎng)團(tuán)隊的榮譽(yù)感。
4、資產(chǎn)管理與審計能力。準(zhǔn)確了解公司現(xiàn)有的IT資產(chǎn)和設(shè)備,對設(shè)備進(jìn)行清查,明確每一個設(shè)備的損耗和維保信息。當(dāng)公司需要購置新機(jī)時,都會有明確的數(shù)據(jù)來支撐你的采購申請。當(dāng)設(shè)備出故障或發(fā)生變更時,通過前期的數(shù)據(jù)都可以做到實時掌握第一手準(zhǔn)確數(shù)據(jù)。而且隨著公司的業(yè)務(wù)發(fā)展,分支機(jī)構(gòu)和員工的增多,資產(chǎn)管理與審計都會變得更重要,對IT運(yùn)維支持的意義就更大了。
5、組建運(yùn)維梯隊,合理搭配運(yùn)維資源的能力。人員管理問題,在運(yùn)維當(dāng)中是比較重要的。很多時候由于運(yùn)維工作分配不合理,業(yè)績無法準(zhǔn)確考核。若將運(yùn)維人員分成一、二、三線支持,不同運(yùn)維人員各司其職,就能使有限的運(yùn)維力量得到合理利用,整體工作效率將明顯提升;同時也方便對各自的工作業(yè)績進(jìn)行評估。再據(jù)此制定相應(yīng)獎懲措施,或針對不同崗位提供不同服務(wù)技能培訓(xùn),亦能提高員工工作積極性。比如:將所有IT問題統(tǒng)一匯總到技術(shù)服務(wù)臺,對于絕大多數(shù)(80%以上)問題,服務(wù)臺可直接解決;服務(wù)臺解決不了的,再按照問題處理優(yōu)先級,統(tǒng)一分配不同級的運(yùn)維力量,來確保不同問題的處理,同時運(yùn)維人員也不會錯過需要及時處理的重大問題。
6、技術(shù)創(chuàng)新與積累能力。運(yùn)維經(jīng)理本身需要有過硬的技術(shù)能力,需要熟悉各種設(shè)備、不同的操作系統(tǒng)、各環(huán)節(jié)應(yīng)用、數(shù)據(jù)庫、存儲、備份與災(zāi)難恢復(fù)、調(diào)優(yōu)、安全等。但是在具體的問題和重大的問題處理上,需要聽取團(tuán)隊的意見,這樣方案會因大家的補(bǔ)充和建議更加完善。多數(shù)時候在具體的細(xì)節(jié)處理上還會有技術(shù)創(chuàng)新,同時對大家都是一個學(xué)習(xí)和積累。對每個處理過的重大問題和典型問題編寫技術(shù)文檔,日積月累形成知識庫,不僅方便自己總結(jié)學(xué)習(xí)也方便技術(shù)的傳承和積累。
7、開會與分享能力。開會有時是個很好的溝通方式,也許很多時候你可能比較反感開會。那可能是因為它的 形式化、一言堂或跑題、不能解決實際問題。其實開會的作用在于:
歸一化:讓大家在項目、任務(wù)、工作的理解、反饋、描述、執(zhí)行等層面達(dá)到一致性。減少內(nèi)部溝通成本,提高團(tuán)隊效率。
可視化:追求項目的可視化是項目管理的最高境界。逐層分解下來,就要求各級管理者對項目、任務(wù)的進(jìn)度、風(fēng)險、問題做到一目了然的管理。
項目管理:通過對團(tuán)隊各維度進(jìn)行管理、項目管控,人員工作安排,團(tuán)隊學(xué)習(xí)提升,工作方向調(diào)整等等。
理念貫徹和方向:貫徹公司文化和團(tuán)隊文化,統(tǒng)一大家的思路和模式。傳達(dá)上面領(lǐng)導(dǎo)的指示和部署,同時明確下一步工作重點和方向。
具體問題解決:針對疑難點,進(jìn)行指導(dǎo)或頭腦風(fēng)暴,集思廣益群策群力。
最后,說一點如何成為優(yōu)秀的運(yùn)維經(jīng)理。什么是優(yōu)秀的運(yùn)維經(jīng)理,是不是具備了以上七大能力就是優(yōu)秀呢,很多人心中或許有不同的定義,我認(rèn)為優(yōu)秀的管理者所需要具備的一大品質(zhì),就是帶領(lǐng)自己的團(tuán)隊不斷進(jìn)取和擁有永不止步的精神。
看一看,這么多能力你還差什么?