為了萬分之五,我們堅持7x24小時
如果用一句話,描述運維團隊的工作狀態(tài)
那大概就是
“在機房里面機房外面,有一群男精靈,
他們熬夜很清醒,他們加班到天明。”
每一個穩(wěn)定運行的系統(tǒng),
都是因為有這樣一群運維團隊在背后
夜以繼日、全年無休地
處理成千上萬條系統(tǒng)預警
但是呢?就算是這么努力
一年365天中
總難免碰到那么一兩次系統(tǒng)延遲
遭受來自四野八荒的瘋狂轟炸
“為什么系統(tǒng)登不上去了?”
“為什么訪問速度這么慢?”
“為什么頁面加載不出來?”
.......
但是,還是要弱弱地跟用戶爸爸們
說一句:系統(tǒng)宕機就和人會感冒一樣
難以百分百完全避免
真的
先來看幾條新聞
再來看一組數(shù)據(jù)
你會發(fā)現(xiàn)
想要系統(tǒng)永不宕機,簡直是一個世紀難題
畢竟兩個馬爸爸都沒有解決掉
但是,好的運維就像高明的醫(yī)生一樣
可以做到立刻恢復
好在我們舟譜(99.95%)也沒有拖后腿
和BAT處在了一樣的水平
讓客戶用上更好用更穩(wěn)定的系統(tǒng)
是我們一直以來的追求,
為此,我們也付出不懈的努力
并取得了一定的成效
除了我們的99.95%在線服務率
在過去半年里,
我們的千人周問題數(shù)下降了4-5倍;
(每1k人使用一周可能碰到的缺陷數(shù))
在線問題響應時間最快可達5分鐘;
問題處理時間也有了大幅度提升,
95%的問題可在24小時內解決......
而這一切都離不開
我們的整個研發(fā)團隊和運維保障體系
在背后的全力支撐
什么是運維保障體系
運維保障體系是為了提高軟件的開發(fā)效率及穩(wěn)定性,降低軟件的運行成本。換句話說就是只幫忙,不添亂。
舟譜數(shù)據(jù)技術總監(jiān)王宏祥指出:“實際上,基于這個目的,舟譜運維團隊要做兩件事。在研發(fā)層面,運維要為研發(fā)提供最優(yōu)質的工具,提升產(chǎn)品迭代效率,讓用戶需求得以及時滿足;在系統(tǒng)保障層面,為保障用戶使用流暢,運維一方面要協(xié)助客戶處理操作難題;另一方面,運維需要進行不間斷的系統(tǒng)監(jiān)控及優(yōu)化,保證整套系統(tǒng)持續(xù)穩(wěn)定。”
01
提升研發(fā)效率
讓用戶迅速獲得最好用的產(chǎn)品
為保證產(chǎn)品/功能以最快的速度、最優(yōu)的品質交付用戶,運維要為研發(fā)提供最高效的工具。除了采用Gitlab+Jenkin+Nexus自建倉庫自動化構建自動化集成平臺等工具外,運維還提供了CI/CD自動化工具,通過自動化的校檢,促進軟件項目的持續(xù)集成與交付的速度,使得開發(fā)團隊可以保持軟件更新并將其迅速的投入實踐中,大大提升了產(chǎn)品的迭代效率。
也正基于此,舟譜整套技術解決方案能夠得以快速落成,并且產(chǎn)品保持每2周迭代一次的頻率,每年滿足客戶需求近千條。在不斷的更新和優(yōu)化之下,產(chǎn)品功能更加完善,系統(tǒng)也更穩(wěn)定更好用。
02
提升監(jiān)控密度及問題響應速度
保證用戶使用流暢
為了保證用戶使用順暢,舟譜運維團隊還提供全天在線的技術支持。比如,在幫助客戶處理誤刪數(shù)據(jù)上,我們做到了數(shù)據(jù)秒級回滾,數(shù)據(jù)在時間上可以精確到秒還原,無縫銜接;在處理刪除銷售單問題處理上,我們不僅可以精確還原單據(jù),還可以追蹤到具體操作時間,幫助客戶找到管理上的漏洞。對于用戶比較關注的數(shù)據(jù)安全問題,我們采用最先進的網(wǎng)絡安全協(xié)議,機密傳輸及備份,并且為每一位客戶單獨分配一個數(shù)據(jù)庫來隔離,全面保護用戶的數(shù)據(jù)安全。
“運維并不是系統(tǒng)能跑起來,用戶用起來就萬事大吉,第一時間發(fā)現(xiàn)問題,能第一時間預警,能第一時間自動化解決才是運維最終目標。”
為此,舟譜引入了云監(jiān)控+自建監(jiān)控多層級告警的方式 ,能更細力度監(jiān)控各項資源的可用性以及性能,可以實時感知到業(yè)務的任何變化,并且做出實時決策,早用戶一步發(fā)現(xiàn)故障或性能瓶頸。不僅如此,我們還采用了備用服務器,當某一集群或地區(qū)出現(xiàn)故障,能夠迅速響應,第一時間切換到另一地區(qū),正常提供服務;與此同時,實行集群化部署策略,自動消除單點服務保障。除了自動化解決問題外,為了及時應對0.05%可能出現(xiàn)的故障,我們的7x24小時oncall排班策略還在持續(xù)發(fā)揮著作用,最快5分鐘迅速響應,快速恢復,95%的問題保證在24小時內解決。
一直以來,舟譜行進在一條高速迭代的快車道。從2016年第一款產(chǎn)品舟譜云管家上線,到目前舟譜形成了整套技術解決方案,在這期間,我們不斷收集新的訴求,運用新的技術,并以每月2-3次高速迭代的頻率來逐步豐富和完善產(chǎn)品。在一段時間里,相較于低頻迭代來說,高速迭代會增加系統(tǒng)的不穩(wěn)定性,因為相對而言不動的東西最穩(wěn)定;但從長遠來看,軟件更新?lián)Q代,匹配不斷變化的業(yè)態(tài)才是正確的姿態(tài),所以舟譜一如既往堅持走在快車道上。
而我們運維保障體系也在不斷地迭代,追求以更為輕便、高效的方式保證用戶使用更流暢,即便在出現(xiàn)故障時,也能保障用戶的使用不受影響或者受影響的程度可以降到最低。為客戶能夠持續(xù)獲得更好的產(chǎn)品及服務,我們還在持續(xù)努力著。
【本文是51CTO專欄機構“舟譜數(shù)據(jù)”的原創(chuàng)文章,微信公眾號“舟譜數(shù)據(jù)( id: zhoupudata)”】