數(shù)據(jù)運維對于運維具有哪些重要意義
大數(shù)據(jù)模式已經(jīng)到來!個體既是數(shù)據(jù)的創(chuàng)造者也是數(shù)據(jù)的使用者,醫(yī)療,科技,教育領域都早已參與其中。并創(chuàng)造無數(shù)的好產(chǎn)品和價值。核心數(shù)據(jù)搜索和推薦、電商定點廣告和推送,基因健康預測等都在不斷重新定義互聯(lián)網(wǎng)的生活。人們的生活并因此而改變。大數(shù)據(jù)的確對社會進步會產(chǎn)生深遠影響和意義。簡單來說就是數(shù)據(jù)可以產(chǎn)生價值!
每個人都在工作中對結果負責并為此帶來效益和價值,同時有些人沖在一線在做體系之外的綠葉。他們的工作不直接產(chǎn)生效益但是他們可以足夠影響效益結果,這就是苦逼而沉默的運維。默默無聞的運維一代是否可以真正爆發(fā),來證明自己的存在意義和價值。讓自己的未來工作充滿驅動力和想象力,這就需要運維拯救自己。特別是在互聯(lián)網(wǎng)沖擊時代下的運維更要如此,那么在運維時代的你和我,如何能夠了解數(shù)據(jù)價值呢?
不要讓老板在有問題的時候才感覺到你的存在!這是多么痛的領悟??!想到這里就眼鏡濕潤的想起了自己的夢想,我可不是想這樣工作下去。的確需要改變,一定要打破“出了問題是你的,不出問題你應該做的” 這樣的狗屁理念。那么我們就要提出數(shù)據(jù)運維的概念。
一、工程數(shù)據(jù)
描述出你所運維的系統(tǒng)或者工程項目的所有價值數(shù)據(jù),體現(xiàn)如下:
1.工單數(shù)量
這里應該包括你的每天完成工單的質量和時間。而且要有平臺可視化的體現(xiàn)。在完成工單的同時對業(yè)務的穩(wěn)定性和目的要加以描述讓你的工作變得更有意義。
2.SLA可用性
在老板眼里只關心兩件事:一是他賺了多少錢,二是他花了多少錢。 SLA影響產(chǎn)品和業(yè)務性能也就間接影響老板的財路。所以這里要***的體現(xiàn)出來你在幫老板賺錢了。我希望的是運維的同行真的每周的報表里要體現(xiàn)出來并為此運維所做的努力和付出。哪怕只有三個9這也是我們努力過的。
3.基礎資源
我們運維的服務器數(shù)量和網(wǎng)絡設備數(shù)量,IDC數(shù)量。之間的數(shù)據(jù)交互延時多少。我們每天的業(yè)務調用數(shù)量是多少? 調用的RTT如何? 我們報廢的設備多少等等這些都要體現(xiàn)出來。反正這些數(shù)據(jù)即使你不主動表達一般的老板也不會臺關心。除非你發(fā)生了故障...
4.故障率
沒有故障是大家的集體愿望。但是所有的事件都是有規(guī)律和原因的??赡苁俏覀兊牟唤?jīng)意的一個升級zlib庫就會導致服務不可用。所以,我還是愿意在平臺化上展示出這些數(shù)據(jù)。如果有進步讓老板看到實際變化,如果沒有對自己的工作也是一個重要的警醒。
5.報警統(tǒng)計
如果要消滅報警,我們就可以高枕無憂了。也有人說消滅報警自己TM 不就失業(yè)了嗎? 但是老天會告訴你失業(yè)除非是你rm了服務器上的資源,否則老天會保佑你的,我們通過報警數(shù)據(jù)的統(tǒng)計根據(jù)內容做一些數(shù)據(jù)挖掘和提前預警。同時也要對報警內容進行問題分析和指引。如果老板欣喜的看到了你把短信報警的條數(shù)已經(jīng)控制在3%以內,那么老板沒有理由不給你漲工資的。
二、業(yè)務數(shù)據(jù)
業(yè)務運維系統(tǒng)的價值數(shù)據(jù)。如下:
1.業(yè)務dashboard
說白一點就是類似業(yè)務層的監(jiān)控數(shù)據(jù)。我們可以做一些數(shù)據(jù)匯總然后平臺化展示出來。比如業(yè)務的可用性訪問狀態(tài),訪問量的數(shù)據(jù)狀態(tài),DNS解析服務的狀態(tài),模擬產(chǎn)品化的監(jiān)控狀態(tài)等??梢宰屵@些數(shù)據(jù)活的更有價值從而也更直觀體現(xiàn)出業(yè)務的穩(wěn)定狀態(tài)。
2.trace調用鏈
這一點重要性毋庸置疑,從Google的dapper到twitter的zippikn再到趙海平跳槽到阿里(其實是說在做這樣的鷹眼系統(tǒng))??梢郧逦吹綐I(yè)務調用之間的耗時,模塊之間的依賴map可以非??焖俚膸椭\維定位問題。從而提高業(yè)務穩(wěn)定狀態(tài)和自身效率。
3.業(yè)務拓撲切換
有很多的重要業(yè)務都不是單點在一個IDC中心,往往多活在多個地方為了可控單點風險。所以在這樣繁雜的業(yè)務體系當中,經(jīng)常會有業(yè)務的穩(wěn)定性切換。
比如模塊降級次數(shù),比如切換頻率,切換之后的穩(wěn)定時間,切換之后的訪問質量等這些都需要數(shù)據(jù)描繪出來。
4.業(yè)務指標
每個運維要明確自己的服務的業(yè)務指標。如果是做Web要看訪問量,如果是做電商要看訂單率等。而且要實時展示出來自己的業(yè)務指標。我們可以根據(jù)歷史數(shù)據(jù)和經(jīng)驗進行預測和總結。比如我們要擴容帶寬,我們要購買服務器這些數(shù)據(jù)都是我們的依據(jù)。
5.業(yè)務基準數(shù)據(jù)
比如運維鎖服務器的平臺的業(yè)務***QPS,購買新服務器硬件性能的測試基準數(shù)據(jù)。在業(yè)務模式下的資源狀態(tài)數(shù)據(jù)都需要記錄和展現(xiàn),特別是對我們在處理問題的時候能提供強大的依據(jù)。
6.業(yè)務日志挖掘
原來我們就習慣使用syslogd做統(tǒng)一化展現(xiàn)?,F(xiàn)在的大數(shù)據(jù)時代激情四射早已顛覆了傳統(tǒng)的技術。ELK就有一統(tǒng)江湖的意思。同時也有很多大公司開始自修復系統(tǒng),其實深度來源就是做數(shù)據(jù)挖掘。根據(jù)我們所有收集到的日志做挖掘,展現(xiàn)。***做調度分配,自修復,子降級。這也是我個人非常期待的事情。
三、數(shù)據(jù)如何有效展示
1.平臺可視化
運維的本質-可視化,我覺得可視化是描述數(shù)據(jù)***的方式方法。我們根據(jù)數(shù)據(jù)做歸檔,做分析,做rrd,***分析展示這本身也是想表達我們的本意。
2.業(yè)務耦合關聯(lián)
這個就是說如何讓老板,讓RD能夠容納我們的平臺。本來我們是說要展現(xiàn)自己但是這里就涉及到邊界問題。因為有些數(shù)據(jù)需要和業(yè)務交互,有些數(shù)據(jù)需要和服務器交互。這就需要和業(yè)務解耦過程是否無污染的影響業(yè)務,是否可以有良好的API實現(xiàn)都是非常的關鍵。
3.溝通先行
我們在做這些事情的時候要給予老板希望與細心,闡述我們的目的和價值。因為我們在完善一個看似意義不大的平臺。所以這里一定要多接觸業(yè)務,運營闡述我們自己的想法給予我們足夠的時間來作這些事情。
4.技術方向
其實這里做平臺化的體系,語言工具太多了。我覺得還是那句話擁抱開源,避免重復造輪子! 因為當我們爭取到的時間,我們就已經(jīng)有KPI在身了。如何能用好身邊的資源和把控時間非常重要。因為一旦項目失敗所有的印象都會要在從0開始。
數(shù)據(jù)對于我們的工作和生活都足夠重要。我們要尊重科技學會善用數(shù)據(jù)來為我們的工作支撐方向,體現(xiàn)價值!運維的工作特性也是特別需要數(shù)據(jù)來體現(xiàn)。足可以提高我們的存在價值和對工作的長遠影響。希望這些能夠對運維的兄弟有所幫助!