運維人員不具備這些能力,你就是別人眼中的咸魚
運維的核心能力有哪些?
運維,在部分沒有接觸過IT的小伙伴的概念中覺得是一個比較低級的職位,很容易從字面理解為運營、維護、很多朋友認為,無論IDC機房運維、網絡運維、桌面運維、Linux系統(tǒng)運維、數(shù)據(jù)庫運維、云計算運維、等在互聯(lián)網公司中的工作就是安裝系統(tǒng),部署服務、處理緊急故障,為公司開發(fā)人員及其它部門提供支持。同時負責內外網的網絡穩(wěn)定。上面描述的工作的確是運維的一部分工作,但并不是全部,或者說是中小公司低級的運維勞動,并不能詮釋運維的核心能力。
1 運維人員必須具備運維思想
在我看來,除了上面的角色外,運維人員還是管理、制度、規(guī)范、流程的制定和推行、監(jiān)督角色。運維的核心是運維思想,非運維技術本身(如部署服務等,這是部分朋友的誤區(qū))。上百臺以上的服務器的規(guī)模如果沒有好的管理流程、規(guī)范、制度策略,是無法協(xié)調工作的,上千臺、上萬臺更是如此。運維流程、運維規(guī)范、運維制度、自動化、智能化、批量部署、批量管理、網站架構優(yōu)化、監(jiān)控預警、流量及日志分析統(tǒng)計、成本控制(注意字眼是控制,不是節(jié)省)才是真正的運維人員需要做的。
如何推進并完善上面的工作,提升工作效率,提升團隊以一當十的戰(zhàn)斗力才是最核心的內容。運維的宗旨:保護數(shù)據(jù)安全、7*24小時網絡穩(wěn)定、用戶體驗良好(用戶包括內部的員工、外部的網站用戶)所以,我們做什么都不要離開運維的宗旨,否則,你的工作都可能是徒勞的無用功(起碼和目標沒直接對接)。有經驗的運維人員會先思考在動作,經驗不足的運維人員會先做,遇到問題在思考,這是完全不同的層次和境界。試想蓋一座大樓如果先蓋好在思考,那還能蓋好么?所以,請別輕易說你精通什么什么服務,會多少多少軟件,那只是幾塊磚頭、幾袋水泥、幾根鋼筋而已。蓋好大樓,這些僅僅是基本的元素,運維同樣是如此!
2 運維人員必須對即將面對威脅要特別清楚
專家研究和大量企業(yè)實踐表明,IT項目生命周期中,大約80%的時間與IT項目運營維護有關,而該階段的投資僅占整個IT投資的20%,形成了典型的“輕服務、重技術”現(xiàn)象。國際著名咨詢調查機構Gartner集團的調查發(fā)現(xiàn),在經常出現(xiàn)的問題中,源自技術或產品(包括硬件、軟件、網絡、電力失常及天災等)方面的問題其實只占20%,而流程失誤問題占40%,人員疏失問題占40%。流程失誤包括未做好變更管理、超載、無測試等程序上的錯誤或不完整,人員疏失包括忘做某些事情、訓練不足、備份錯誤或安全疏忽等。 面對如此高的要求和壓力,IT部門就需要有一套完善的并可管理的IT服務流程,對IT運維進行有效地管理、使信息系統(tǒng)更加適應業(yè)務持續(xù)變化的需求、使IT部門從成本中心轉變?yōu)槔麧欀行?。當現(xiàn)代企業(yè)建立完善而成熟的IT運維管理體制后,通過流程管理,不斷提高IT運維質量,實現(xiàn)高效運維,提升組織內IT服務滿意度。
我們的IT運維要如何保障
服務支持 事故管理 :有效解決沖突事件,盡快恢復IT服務 問題管理 :找尋問題的根源和解決方案,消除或減少問題事件的發(fā)生 配置管理 :管理更改的實施過程,避免或者減少變更的影響變更管理 :控制IT系統(tǒng)的軟件的發(fā)布過程及版本發(fā)布管理 :管理IT系統(tǒng)的所有元素及相關信息,描述IT元素之間的相互關系
服務交付
服務級別管理:提供與服務級別對等的服務內容完成量化服務器管理
可用性管理:監(jiān)控IT重要資源和運行指標,保障整個業(yè)務系統(tǒng)的可用性
能力管理:監(jiān)控和提高系統(tǒng)性能行進性能規(guī)劃
持續(xù)性管理:簡歷業(yè)務持續(xù)計劃,實現(xiàn)業(yè)務可持續(xù)化運行
財務管理:IT服務的預算管理,成本管理
3 運維人員必須具備故障管理及庫管理的能力
故障管理:
故障管理,通過系統(tǒng)預定義好的故障情況,準確定位故障的級別,并通過多樣的告警方法將故障信息派發(fā)給直接負責人員,避免故障的無法及時處理和是否升級的判定。
故障管理通過設定故障規(guī)則,能夠為一個設備設定多個報警規(guī)則或多個設備統(tǒng)一為一個事件報警規(guī)則,為每個事件規(guī)則設定相關的級別,由系統(tǒng)來確定故障級別和通知對象,并自動觸發(fā)相關的工單給相關人員。故障信息可以通過聲音、告警燈、短信、郵件、腳本等形式告知故障處理負責人。配置管理提供系統(tǒng)配置功能,包括報警配置、事件配置、視圖配置、用戶權限、監(jiān)測配置等供配置控制模塊調用。IT部門可以通過此模塊簡單的進行配置控制,對配置信息進行變更,對系統(tǒng)設置進行管理。
問題庫管理
提供問題庫的管理,管理人員可以把在運維過程中遇到的無法解決的問題錄入到知識庫中,讓系統(tǒng)對相關的問題進行分配,讓對應職位的人員進行處理。同時提出人還可以對問題進行跟蹤,這樣就不會讓提出的問題石沉大海。
知識庫管理
用來記錄系統(tǒng)故障情況及維修記錄的;- 用來幫助管理員排查系統(tǒng)故障的工具;- 用來給管理員提供問題的處理辦法的;- 用來給管理員提供運維經驗。
預案庫管理
提供預案庫管理,管理人員可以讓對相關事件有過處理經驗的人員就相關的情況編寫一份處理預案,當不熟悉這個事件處理流程的人員進行處理時有據(jù)可以。同時極大的縮短了人員培訓的時間,也幫企業(yè)節(jié)約了成本
4 運維人員必須具過硬的專業(yè)技能
運維人員保護數(shù)據(jù)安全、7*24小時網絡穩(wěn)定、用戶體驗良好(用戶包括內部的員工、外部的網站用戶),必須具備以下技能!
1、扎實的Linux操作系統(tǒng)和網絡基礎知識;
2、熟悉阿里云、騰訊云等云廠商產品知識,例如ECS、RDS、VPC等;
3:精通一門以上腳本語言(shell/python/go等其中一種);
4:至少熟悉一種開源監(jiān)控系統(tǒng)(zabbix、prometheus、open-falcon等),對監(jiān)控優(yōu)化有深入理解;
5、熟悉CI/CD持續(xù)集成與持續(xù)交付,熟悉Gitlab、Jenkins、Ansible、Grafana等工具使用;
6:熟悉Nginx、Tomcat、MySQL、Redis、MongoDB、MQ、ELK等的日常維護與優(yōu)化,且熟練操作Mysql、Mongodb、Redis;
7、熟悉Docker容器技術,對docker的網絡、存儲、安全有良好的理解;
8、熟悉Kubernetes部署、了解微服務架構更佳;優(yōu)化具備良好的自我驅動和主動思考習慣
9、要是掌握自動化運維工具的開發(fā)前途不可限量