自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IT運(yùn)維如何防止陷入“中年油膩”和頻繁被動地打“遭遇戰(zhàn)”?

原創(chuàng)
新聞 開發(fā)工具
在擴(kuò)大運(yùn)維團(tuán)隊(duì)的同時,他們通過整合資源、逐步轉(zhuǎn)變并提升了 Ops 的相關(guān)觀念和操作模式,摸索出了一條具有本企業(yè)特色的 Ops+ 模式。

【51CTO.com原創(chuàng)稿件】近期,我拜訪了一家文化傳播公司的 IT 運(yùn)維總監(jiān) Tim,他向我講述了他的團(tuán)隊(duì)是如何像當(dāng)年玩《大航海時代》那樣將 IT 系統(tǒng)的戰(zhàn)艦越造越大,并使之在企業(yè)運(yùn)營的海洋中平穩(wěn)前行的。

[[210321]]

在此,我將他的心路歷程分享出來,希望能夠幫助您改變那種像小倉鼠一樣一直在環(huán)形輪上盲目地“跑酷”狀態(tài)。

縱然練就“72變”,也無法笑對“81難”

該文化公司成立于 2013 年,他們最初從簡單的“PC 服務(wù)器 + 二手三層交換 + 托管服務(wù)器”這樣的硬件架構(gòu)起步,既要對內(nèi)滿足員工的“上網(wǎng) + 郵件 + 文件共享 + 存儲”,又要對外提供“官網(wǎng) + 視頻上傳/下載”的服務(wù)。

在 IT 系統(tǒng)建成初期,由于處于運(yùn)維“四少”,即設(shè)備少、應(yīng)用少,流程少,問題少的狀態(tài),他和另一名同事組成的“哼哈二將”模式完全可以 hold 住各種與 Ops 相關(guān)的需求和問題。

但是隨著公司這幾年來的多元化發(fā)展,各種看得見的設(shè)備和看不見的軟件越來越多,特別是“論壇 + 會員博客 + 微官網(wǎng) + 在線訂單 + 移動支付 + 遠(yuǎn)程訪問”等業(yè)務(wù)所帶動的系統(tǒng)復(fù)雜性,縱然他們不斷練就七十二變,也無法笑對前方的八十一難。

在擴(kuò)大運(yùn)維團(tuán)隊(duì)的同時,他們通過整合資源、逐步轉(zhuǎn)變并提升了 Ops 的相關(guān)觀念和操作模式,摸索出了一條具有本企業(yè)特色的 Ops+ 模式。

總的說來就是:針對整個運(yùn)維生命周期中的各個方面,用三步遞進(jìn)的模式來逐步改進(jìn)日常各項(xiàng)工作,即“標(biāo)準(zhǔn)化—配置與流程、自動化—操作與安全、平臺化—監(jiān)控與管理”。

Ops+ 運(yùn)維模式初探

標(biāo)準(zhǔn)化—配置與流程

過去他們的運(yùn)維人員過分依賴技術(shù)上的大牛,由于上手門檻較高,部門里往往充斥著個人英雄主義,當(dāng)然也就造成了人員資源上的單點(diǎn)風(fēng)險。與此同時,他們又時常被服務(wù)廠商所“綁架”。

由于各家實(shí)現(xiàn)方式的不盡相同,在系統(tǒng)出現(xiàn)問題的時候,要么相互推諉,要么一擁而上、各自為政。這些都給系統(tǒng)的正常運(yùn)營埋下了不少的“雷”。

在經(jīng)歷數(shù)次“多么痛的領(lǐng)悟”之后,他們逐漸認(rèn)識到標(biāo)準(zhǔn)化的重要性,并通過如下方面的實(shí)踐,有效杜絕了各種“任性”。

軟硬件類型標(biāo)準(zhǔn)化

無論是網(wǎng)絡(luò)設(shè)備、服務(wù)器端、用戶終端,還是操作系統(tǒng)和應(yīng)用軟件,他們都有既定的支持和首選的列表。

這樣一來,在品牌和型號層面上大幅降低了不兼容性,并縮小了排查的可能性范圍。

安裝配置標(biāo)準(zhǔn)化

可參照的實(shí)施步驟文檔與配圖包括:

  • 設(shè)備上架安裝所在的機(jī)房和機(jī)架的物理位置約定。
  • 網(wǎng)線、電源線的走向、編號和顏色等規(guī)范。
  • 在服務(wù)器端,涉及到虛擬硬件資源(CPU、內(nèi)存、磁盤空間、分區(qū)大小)的分配、虛擬機(jī)安裝文件的準(zhǔn)備、主機(jī)名/IP地址/默認(rèn)使用目錄/日志目錄/代碼目錄的定義。
  • 在用戶端,通過 PXE 和 cobbler 來使用鏡像文件批量安裝操作系統(tǒng)。
  • 規(guī)范服務(wù)端所用到的基礎(chǔ)支撐軟件(如 IIS)和產(chǎn)品應(yīng)用的部署路徑和配置順序。
  • 賬號名稱、對應(yīng)的密碼和權(quán)限屬性、以及服務(wù)與端口的關(guān)開列表。

流程規(guī)范標(biāo)準(zhǔn)化

無論是新建發(fā)布、服務(wù)變更、事件處理、事故響應(yīng)、還是項(xiàng)目推進(jìn)等,都有可遵循的流程和清晰的操作次序圖表。

交接標(biāo)準(zhǔn)化

雖然他們不像一些互聯(lián)網(wǎng)企業(yè)那樣有專門的 Dev 團(tuán)隊(duì)、且產(chǎn)品迭代也不頻繁,但是他們也充分考慮到了“建轉(zhuǎn)運(yùn)”過程中的風(fēng)險。

通過分階段、分步驟地制定了相應(yīng)的轉(zhuǎn)化流程,他們實(shí)現(xiàn)了測試賬戶的及時回收,并合理區(qū)分了系統(tǒng)類與業(yè)務(wù)類賬戶與數(shù)據(jù)的遷移。

除了上述各個方面的標(biāo)準(zhǔn)化之外,他們還日常維護(hù)著諸如:硬件設(shè)備全量清單、軟件應(yīng)用全量清單、第三方服務(wù)提供清單、干系人聯(lián)系清單等支持類文檔。

這些文檔多以圖表的形式清晰直觀地提供了各類速查的信息,同時方便了后面將要提到的平臺化所進(jìn)行的二次篩選與統(tǒng)計(jì)。

他們有專門的共享知識庫(后面會提到 CMDB)來分門別類地妥善存放所有的標(biāo)準(zhǔn)化文檔。

可以說,他們以標(biāo)準(zhǔn)化作為基礎(chǔ)的 Ops+ 模式,能有效地降低人員犯低級錯誤的發(fā)生頻率,統(tǒng)一整體的服務(wù)水平,提高他們的響應(yīng)和處理速度,并能簡化對其工作質(zhì)量的考核。

自動化—操作與安全

雖說上述各個方面的標(biāo)準(zhǔn)化能夠從規(guī)范的角度減少出錯的可能,但是隨著需要維護(hù)的設(shè)備數(shù)量和系統(tǒng)復(fù)雜程度的增加,各種重復(fù)性的例行操作日趨占據(jù)了維護(hù)人員的大量時間和精力。

為了控制成本和增加系統(tǒng)本身的魯棒性,他們的團(tuán)隊(duì)在如下方面進(jìn)行了自動化的嘗試,進(jìn)而提高了系統(tǒng)日常管理的效率。

監(jiān)控自動化

通過軟件(如 Zabbix)的自動注冊與發(fā)現(xiàn)特性實(shí)現(xiàn)了:

  • 機(jī)房環(huán)境、物理設(shè)備、網(wǎng)絡(luò)流量、虛擬化、數(shù)據(jù)庫、業(yè)務(wù)應(yīng)用、存儲狀態(tài)、備份作業(yè)和日志等方面的實(shí)時自動巡檢。
  • 自動跟蹤監(jiān)測的項(xiàng)目除了標(biāo)準(zhǔn)的 CPU、內(nèi)存、磁盤、I/O 之外,還有定制化的某項(xiàng)服務(wù)(如 Nginx、PHP 頁面等)的 KPI 性能。
  • 在顯示上通過自動發(fā)現(xiàn),能提供 2D 機(jī)房拓?fù)鋱D、3D 機(jī)架視圖、地域鏈路實(shí)時圖、流量歷史曲線圖和各類應(yīng)用的dashboard等。

而運(yùn)維人員通過進(jìn)一步點(diǎn)擊,則可細(xì)致到每個服務(wù)自有的狀態(tài)視圖,以便人工分析潛在的異常并介入跟蹤診斷。

操作自動化

善假于物方可事半功倍:

  • 通過調(diào)用各種云服務(wù)平臺所提供的 API,自動化啟/停、操作和管理云端的服務(wù)。
  • 運(yùn)用 SaltStack 在初始化好的操作系統(tǒng)上部署 Nginx,運(yùn)用預(yù)先定制好 sls 之類的文件對目標(biāo)主機(jī)進(jìn)行程序包、文件、網(wǎng)絡(luò)配置、服務(wù)以及用戶等方面的管理。
  • 使用 Ansible 來實(shí)現(xiàn)上述標(biāo)準(zhǔn)化的安裝部署方案,把多個 Shell、Python、PowerShell、Bat 等腳本串在一起執(zhí)行,實(shí)現(xiàn)對系統(tǒng)和服務(wù)的流程化操作。
  • 在補(bǔ)丁和訂閱方面,他們有用到 SCCM 和 Yum 分別對服務(wù)器端的 Windows 和 Linux 進(jìn)行自動化的定期更新和升級。
  • 這些軟件通過對版本文件的上傳、分發(fā)、以及在必要時進(jìn)行的回滾等實(shí)現(xiàn)各種版本控制與更新操作。
  • 根據(jù)自動化監(jiān)控到的事件進(jìn)行知識關(guān)聯(lián),依照既定的規(guī)則進(jìn)行自動化的初步響應(yīng),包括各種報警和服務(wù)中斷保護(hù)等。

安全自動化

上述操作自動化雖然能夠廣受運(yùn)維人員的推崇,但勢必會涉及到對特權(quán)的調(diào)用和對基線的調(diào)整。

為了防范由此所帶來的安全隱患和漏洞,他們也上馬和啟用了針對安全運(yùn)維方面的自動化:

  • 根據(jù)身份和訪問管理(IAM)原則,安全程序能智能地識別出各種場景,如:請求 SSH 的服務(wù)在屢次嘗試性登錄失敗后,僅有一次成功的記錄。

非活躍 VPN 用戶在非常規(guī)工作時間登錄,并對共享文件進(jìn)行頻繁的移動、復(fù)制甚至是刪除等操作。

某臺主機(jī)向內(nèi)網(wǎng)的其他主機(jī)發(fā)送探測掃描包;網(wǎng)絡(luò)設(shè)備的配置在計(jì)劃外的時間被更改;以及 Web 頁面出現(xiàn) 404、401、500 等錯誤代碼。

  • 基線核查:對于主機(jī)而言,對指定目錄和文件的完整性檢查,對指定設(shè)備和系統(tǒng)的端口勘察,對指定操作系統(tǒng)的注冊表、服務(wù)和進(jìn)程、以及惡意軟件 Rookit 和 WebShell 予以檢查。

而對于內(nèi)網(wǎng)的數(shù)據(jù)流量而言,則是對協(xié)議、內(nèi)容和攻擊簽名模式的匹配檢查。

  • 自動合規(guī):根據(jù)審計(jì)的流程,檢查各個系統(tǒng)上多余/可疑的賬號與組,文件/文件夾的屬性/訪問權(quán)限,遠(yuǎn)程訪問的 IP 與賬戶限制,靜態(tài)代碼中的漏洞,各類補(bǔ)丁與防毒簽名的更新等,并且能根據(jù)既定的 playbook 自動進(jìn)行整改和加固。

平臺化—監(jiān)控與管理

業(yè)界喜歡用物理學(xué)上的熵理論來闡述:倘若不對 IT 系統(tǒng)進(jìn)行人工管控的話,則會趨向于無序。

Tim 和他的運(yùn)維團(tuán)隊(duì)認(rèn)識到:如果日常運(yùn)維工作完全依賴于標(biāo)準(zhǔn)化和自動化進(jìn)行推進(jìn)的話,很快就會陷入“中年油膩”,大家也會頻繁被動地打“遭遇戰(zhàn)”。

因此,他們基于過往的經(jīng)驗(yàn)匯總、需求分析、當(dāng)然也考慮到實(shí)際預(yù)算,設(shè)計(jì)并集成了一個具有可視化和方便管控的平臺架構(gòu)。該平臺具體由如下三部分所組成:

資產(chǎn)、資源管理

做到手中有糧,心里不慌:

  • 通過建立 CMDB 來存儲所有的主機(jī)名、域名、IP 地址及分配范圍、應(yīng)用服務(wù)特征屬性等資產(chǎn)相關(guān)的信息,從而為日常運(yùn)維和問題處理提供最新且完整的信息。

下一階段,他們將引入數(shù)據(jù)分析模塊,分析一般用戶和專業(yè)運(yùn)維人員登錄該平臺后,檢索知識庫的方式(如題名、關(guān)鍵詞、作者、部門等)、使用頻率、駐留時間、反饋信息等。

  • 在平臺上融入服務(wù)資產(chǎn)和配置管理(Service Asset and Configuration Management,SACM)的概念,通過梳理和建立資產(chǎn)、應(yīng)用和使用者的對應(yīng)關(guān)系,平臺能夠快速、準(zhǔn)確地獲知新發(fā)布的服務(wù)和應(yīng)用,從而自動化執(zhí)行掃描、編錄和后續(xù)的管理。
  • 引入“容器”的概念,從資產(chǎn)的購置入庫開始進(jìn)行整個生命周期的跟蹤,及時回收閑置的資產(chǎn),在提高資源復(fù)用率的前提下避免了資源的浪費(fèi)和設(shè)備超期服役所帶來的安全隱患。
  • 對關(guān)鍵備件狀態(tài)和第三方服務(wù)合同,這兩個容易被忽視的地帶提供平臺化的跟蹤管理,為預(yù)算和決策提供數(shù)據(jù)依據(jù)。

監(jiān)控報警

一站式獲取策略的實(shí)施和服務(wù)的狀態(tài):

  • 平臺提供一致的可視化入口,實(shí)時反映:人員的操作行為(用戶操作、文件處置與打印、移動設(shè)備使用)、設(shè)備與服務(wù)的運(yùn)行狀況、鏈路的連接質(zhì)量與擁塞程度、數(shù)據(jù)存儲與備份作業(yè)完全情況、工具與文檔的更新頻率等。
  • 通過各種標(biāo)準(zhǔn)接口對自建的或是由第三方平臺提供的云服務(wù)進(jìn)行監(jiān)控。例如:通過設(shè)定監(jiān)控的頻率和觸發(fā)報警的閥值,獲知資源(CPU、IOPS)的使用率、通用服務(wù)(如 HTTP、PING 等)和特定服務(wù)(如果 POST 方法、HEAD 方法)的可用狀態(tài)和請求響應(yīng)的時間。

事件分析

做到事前防范、事中控制、事后溯源:

  • 從兩個維度出發(fā),分別抓取和過濾來自各個主機(jī)層面的系統(tǒng)事件和基于網(wǎng)絡(luò)的異常流量信息,通過持續(xù)將經(jīng)過整理的日志信息寫入 Hbase 數(shù)據(jù)庫,為后期的各種故障診斷和攻擊取證提供重要的判定依據(jù)。
  • 管理平臺對某些事件的發(fā)生次數(shù)和頻率進(jìn)行統(tǒng)計(jì),為了去重,系統(tǒng)可以對事件進(jìn)一步按照其特征碼的種類予以分組顯示。
  • 在平臺上引入了應(yīng)用性能分析(APM)模塊,能夠精確地定位到應(yīng)用服務(wù)中某個 URL 的訪問速度的驟降、或是用戶在網(wǎng)站上提交某個 SQL 執(zhí)行語句時的延時,這些都能協(xié)助運(yùn)維人員快速定位問題。
  • 平臺通過關(guān)聯(lián)分析,可以有效地處置風(fēng)險、提出持續(xù)改進(jìn)的建議,以及發(fā)現(xiàn)和預(yù)報可能出現(xiàn)的問題。

小結(jié)

我正好在采訪 Tim 之前閱讀過《鳳凰項(xiàng)目——一個IT運(yùn)維的傳奇故事》一書,書中很多橋段與他所奉行的 Ops+ 模式遙相呼應(yīng)。

在 Tim 看來,通過他們的 Ops+,運(yùn)維人員提升了對系統(tǒng)各類隱患的發(fā)現(xiàn)能力、對例行操作的處理能力、對應(yīng)急事故的恢復(fù)能力和對內(nèi)外攻擊的應(yīng)對能力。

正如他自己所坦言的那樣:“我們正在確保自己所維護(hù)的系統(tǒng)能從 run right(運(yùn)行正確)穩(wěn)步進(jìn)化為 right run(正確地運(yùn)行)”。

好了,最后低調(diào)地幫他打一下 call 吧:希望上述分享的運(yùn)維“大禮包”能夠如一杯泡滿枸杞的保溫杯一般給您在這個冬天帶來一絲暖意。

[[210322]]

陳峻(Julian Chen) ,有著十多年的 IT 項(xiàng)目、企業(yè)運(yùn)維和風(fēng)險管控的從業(yè)經(jīng)驗(yàn),日常工作深入系統(tǒng)安全各個環(huán)節(jié)。作為 CISSP 證書持有者,他在各專業(yè)雜志上發(fā)表了《IT運(yùn)維的“六脈神劍”》、《律師事務(wù)所IT服務(wù)管理》 和《股票交易網(wǎng)絡(luò)系統(tǒng)中的安全設(shè)計(jì)》等論文。他還持續(xù)分享并更新《廉環(huán)話》系列博文和各種外文技術(shù)翻譯,曾被(ISC)2 評為第九屆亞太區(qū)信息安全領(lǐng)袖成就表彰計(jì)劃的“信息安全踐行者”和 Future-S 中國 IT 治理和管理的 2015 年度踐行人物。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2014-03-28 10:56:57

2020-02-13 21:25:12

5G運(yùn)營商網(wǎng)絡(luò)

2012-02-01 13:33:45

2015-07-07 09:29:50

2012-01-17 10:04:07

2012-01-13 13:35:57

CTOIT運(yùn)維管理

2014-04-03 16:50:28

CactiNagios監(jiān)控

2009-08-26 10:41:21

防止數(shù)據(jù)丟失

2017-11-20 09:55:56

程序員油膩中年

2018-08-16 08:37:03

機(jī)房運(yùn)維硬件

2024-06-06 16:54:14

2013-05-06 15:10:18

IT運(yùn)維管理大數(shù)據(jù)

2025-03-14 08:00:00

CISO網(wǎng)絡(luò)安全職業(yè)倦怠

2012-01-09 10:48:21

2016-12-13 13:15:49

運(yùn)維

2019-01-23 16:59:09

存儲系統(tǒng)運(yùn)維

2019-03-19 08:41:38

Linux運(yùn)維變更

2017-11-29 11:47:33

云計(jì)算云廠商CDN

2018-09-27 08:59:29

2014-05-07 14:33:40

ARM英特爾
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號