專訪許楊毅:揭秘新浪微博敏捷運維背后的故事
原創(chuàng)【51CTO專稿】2013年11月22日-23日,Hadoop中國技術峰會(China Hadoop Summit 2013)在北京福朋喜來登集團酒店隆重召開,作為國內唯一專注于Hadoop技術與應用分享的大規(guī)模行業(yè)盛會,吸引了來自國內外各行業(yè)領域的近千名CIO、CTO、架構師、IT經理、咨詢顧問、工程師、Hadoop技術愛好者。本次技術峰會上,51CTO記者有幸采訪到新浪網研發(fā)中心系統(tǒng)架構師許楊毅,就新浪微博的敏捷運維問題進行探討,了解其背后的故事。
(左:許楊毅 右:51CTO記者)
【嘉賓簡介】許楊毅,新浪網研發(fā)中心系統(tǒng)架構師,14年互聯(lián)網系統(tǒng)平臺工作經驗,目前負責新浪研發(fā)中心的各類系統(tǒng)平臺的架構優(yōu)化和技術組織工作。 包括新浪微博敏捷運維體系的建立和平臺架構優(yōu)化,數(shù)據(jù)體系工程,視頻整體系統(tǒng)架構的質量改進/優(yōu)化工作。
新浪敏捷運維產生的背景
“由于業(yè)務壓力導致,在sina微博這個大規(guī)模數(shù)據(jù)量的產品上,故障的響應時間的要求就非常高,處理得稍微晚一點,這個故障可能就會從一個小范圍擴散到全國范圍內的用戶。”許楊毅談到,“正是由于處于在這樣的背景下,所以怎么把運維工作做到更好更快是運維團隊需要考量的問題。
首先,要有效的判斷超大型業(yè)務系統(tǒng)的運行狀態(tài);微博服務平臺有數(shù)萬臺各類設備,部署在全國多個IDC,是一個超大型的業(yè)務系統(tǒng),在其上部署了非常復雜的各種業(yè)務邏輯架構。通過DIP平臺來準實時/離線的搜集各個業(yè)務監(jiān)控平面的指標以及業(yè)務指標的模式分析,建立業(yè)務運行的健康和監(jiān)控標準(這一平臺在新浪內部被稱為SinaBench)。
其次,通過實時或者準實時對系統(tǒng)運行指標的多維提取 (異常值、告警區(qū)間,多維分析的漏斗模型 )來進行業(yè)務異常狀態(tài)的 自動化發(fā)現(xiàn)。
最后接入新浪的告警系統(tǒng)(SinaWatch),這樣就形成敏捷運維的效果。
敏捷運維與傳統(tǒng)運維的區(qū)別和聯(lián)系
許楊毅稱:“敏捷運維并沒有完全脫離傳統(tǒng)運維,只是在傳統(tǒng)運維的基礎上去整理和梳理的工作方法。采取一些運維工具,結合工作流程,去做優(yōu)化,提升故障管理的效率。自動發(fā)現(xiàn)各個監(jiān)控平面和業(yè)務環(huán)節(jié)的異常后,利用這些異常事件來快速定位和解決故障的問題隨之而來。”Sina是如何解決這些問題的呢?許楊毅表示,“這一方面Sina用到了DIP的大數(shù)據(jù)處理能力(HADOOP+圖計算框架)。通過業(yè)務數(shù)據(jù),能夠進行業(yè)務整體的全拓撲分析,自動建立故障事件的告警路徑,再進行可視化回溯分析來快速定位。”
敏捷運維過程中遇到的挑戰(zhàn)
“由于敏捷運維并非是一個獨立的團隊來做,包括所有和sina微博業(yè)務系統(tǒng)保障的部門,比如說:微博開發(fā)者團隊,平臺的運維團隊、系統(tǒng)和底層架構等團隊,把在某一個點或者面上的運維擴散到一個全業(yè)務、全流程的體系。所以在敏捷運維的過程中,需要協(xié)調跨部門的同事來進行,牽涉到很多業(yè)務單元,要把這些事情連動起來,難度是比較大的。”許楊毅如是說。
整合不同部門的人員和多種多樣的技術,來保證業(yè)務的可擴展性(靈活性),能事半功倍、更好的協(xié)同和更高效的做好工作,這是新浪敏捷運維背后的一些故事。如欲了解更多內容詳情,請從下邊的視頻中獲悉,或許你會發(fā)現(xiàn)更多驚喜。