攜程網(wǎng)成功實施SiteView運維平臺
【51CTO.com 綜合報道】通過前期縝密的考察挑選,攜程旅行網(wǎng)與游龍科技正式達成合作意向,簽約并成功實施SiteView ECC綜合系統(tǒng)管理(Enterprise Control Center),用于管理攜程旅行網(wǎng)龐大復雜的IT系統(tǒng)。
項目背景:
攜程旅行網(wǎng)創(chuàng)立于1999年,總部設在上海,目前已在北京、廣州、深圳、成都、杭州、廈門、青島、南京、武漢、沈陽等10個城市設立分公司,并在全國30多個大中城市設有分支機構,現(xiàn)有員工近9000人。作為中國領先的綜合性大型旅行服務公司,攜程旅行網(wǎng)成功整合了高科技產(chǎn)業(yè)與傳統(tǒng)旅行業(yè),被譽為互聯(lián)網(wǎng)和傳統(tǒng)旅行行業(yè)無縫結合的典范,并業(yè)已成為中國服務行業(yè)的成功企業(yè)樣板,并且受到國家領導人溫家寶、李克強等關注與參觀。
憑借穩(wěn)健的業(yè)務發(fā)展和優(yōu)異的贏利能力,CTRIP于2003年12月在美國納斯達克成功上市。Ctrip向全國2000萬會員提供在線集酒店預訂、機票預訂、度假預訂、商旅管理、特惠商戶及旅游資訊在內(nèi)的全方位旅行服務,他們?nèi)找嬖鲩L的龐大業(yè)務量對IT運維管理提出了很高的要求。在這種情況下,Ctrip最終選擇了 SiteView作為網(wǎng)絡運營監(jiān)控管理的服務供應商。
實施方案
建設SiteView ECC監(jiān)控系統(tǒng)的目的,是為了能夠利用一個統(tǒng)一平臺實現(xiàn)對Ctrip的服務器主機、網(wǎng)絡設備、操作系統(tǒng)、數(shù)據(jù)庫、應用系統(tǒng)、網(wǎng)站系統(tǒng)等IT基礎架構及關鍵業(yè)務系統(tǒng)的全面自動化監(jiān)控和運營維護管理,從而實現(xiàn)對故障的實時發(fā)現(xiàn)和故障定位,提高工作效率,提供更好的運營保障,并能通過各類管理報表實時地了解整個系統(tǒng)的運行情況包括各項系統(tǒng)狀態(tài)和性能參數(shù)數(shù)據(jù),實現(xiàn)資源的合理分配和利用。
監(jiān)控規(guī)模
Ctrip網(wǎng)絡系統(tǒng)核心的眾多的服務器和運行在服務器上的各種應用上的幾千個關鍵指標納入Siteview管理,關鍵的網(wǎng)絡設備也有很多臺,監(jiān)測的應用不但包括標準的web基礎組件,還包括相關的業(yè)務系統(tǒng)。
由于監(jiān)控的設備數(shù)量非常龐大,為了提高監(jiān)控的效率,采用了分布式部署的方式監(jiān)控;分布式部署模式還能夠幫助Ctrip輕松應對年均30-40%的擴容壓力;系統(tǒng)采用B/S+C/S訪問方式和非代理式數(shù)據(jù)采集模式,管理人員可以通過瀏覽器或者專用的Client端連接到監(jiān)控中心服務器對整個系統(tǒng)進行監(jiān)控和管理。
另外SiteView ECC通過數(shù)據(jù)接口實現(xiàn)了與Ctrip的后臺系統(tǒng)的對接,可以在發(fā)現(xiàn)系統(tǒng)運行異常的時候,自動提交數(shù)據(jù)并根據(jù)異?,F(xiàn)象的具體情況生成相應的工單從而轉入下一步的修復維護階段,最終實現(xiàn)IT運維管理自動化、系統(tǒng)化。
數(shù)據(jù)采集與呈現(xiàn)
SiteView ECC提供了幾百種不同類型的監(jiān)測器對Ctrip IT系統(tǒng)的性能指標數(shù)據(jù)進行自動采集。針對每一個監(jiān)控指標,SiteView ECC都根據(jù)大量用戶使用中累積的經(jīng)驗提供了缺省的監(jiān)控頻率和監(jiān)控閥值,并可隨時對這些指標進行監(jiān)控頻率和監(jiān)控閥值的調整,提供了更為靈活的監(jiān)控策略對整個IT系統(tǒng)進行監(jiān)控。
SiteView ECC提供了豐富的數(shù)據(jù)呈現(xiàn)功能,能夠讓Ctrip運維人員實時快速定位故障點,在內(nèi)部故障影響到用戶前就能夠及時處理。SiteView提供了統(tǒng)計視圖、樹形視圖、拓撲視圖三種數(shù)據(jù)呈現(xiàn)方式:
整體視圖可以查看和管理整個監(jiān)控結構和監(jiān)測器的細節(jié);樹形視圖可以過濾出所有錯誤或者危險的監(jiān)測器進行集中管理;拓撲視圖提供最直觀的圖形化界面進行整體狀態(tài)監(jiān)控。通過整體視圖可以對服務器或者網(wǎng)絡設備進行添加、編輯、刪除,對于每一個監(jiān)測器可以查看其監(jiān)控的之前幾個小時內(nèi)的簡單報告等操作。
在日常監(jiān)控中,樹形視圖可以對整個監(jiān)控系統(tǒng)中,發(fā)生故障的監(jiān)測器進行過濾觀察,做到只關心發(fā)生問題或者有故障的應用,服務器或者網(wǎng)絡設備。同時Siteview提供了批量選擇、批量修改、批量添加等細節(jié)功能,幫助Ctrip輕松應對幾百臺設備的選擇、修改、添加等需求,體現(xiàn)了Siteview以人為本的理念。
報告系統(tǒng)
SiteView ECC的報表系統(tǒng)為Ctrip提供了多種形式的報表:統(tǒng)計報告、趨勢報告、TOPN報告、對比報告、時間段對比報告。統(tǒng)計報告,關于一段時間內(nèi)的監(jiān)控指標的統(tǒng)計信息;趨勢報告,體現(xiàn)任意指定時間段里的性能指標的變化趨勢,以便對系統(tǒng)負載做一個評估;TopN報告,列出同一類型監(jiān)測指標中的前N項排序表。通過TOP N報表可以很容易的將數(shù)據(jù)排序輸出,根據(jù)排序方式的不同可以查看到各類系統(tǒng)資源的分配和利用情況。
根據(jù)Ctrip的實際需要,利用統(tǒng)計報告制作了適合運維管理的各類報表,對所有的服務器和網(wǎng)絡設備的監(jiān)測指標按需求統(tǒng)計信息。對整個IT設備的監(jiān)控指標進行TopN排序,如服務器的CPU、內(nèi)存,網(wǎng)絡設備的流量等,對于分析Ctrip的IT運維情況起到了很好的效果。
在趨勢報告中,可以看出設備的某一監(jiān)測器在一段時間內(nèi)的運行趨勢,方便了對于服務器或者網(wǎng)絡設備的歷史數(shù)據(jù)的查看和故障信息的排查。
報警系統(tǒng)
根據(jù)實際情況,采用顏色報警和Email報警兩種報警方式。顏色報警是通過SiteView ECC Client端,在統(tǒng)計視圖或樹形視圖中對系統(tǒng)的監(jiān)控,如果有危險或者錯誤的信息,即顯示黃色或者紅色的報警圖標。Email報警是系統(tǒng)有危險或者錯誤之后,以郵件的形式將故障信息發(fā)送給相應的管理人員,并通過Ctrip ITSM系統(tǒng)的接口,實現(xiàn)了監(jiān)控系統(tǒng)與ITSM系統(tǒng)集成,從而實現(xiàn)了在報警的同時自動生成工單的功能。
SiteView ECC在Ctrip部署后的效果
目前SiteView ECC系統(tǒng)已經(jīng)做為Ctrip IT運營系統(tǒng)的一部分正常運行且達到了良好的效果,通過基于SiteView ECC的IT運維管理系統(tǒng)的部署,可以供近百人的運營團隊利用SiteView平臺進行協(xié)同工作,一起對Ctrip龐大的IT基礎架構進行監(jiān)控,進一步提高了Ctrip IT系統(tǒng)的管理、監(jiān)控維護水平。
Ctrip的全部服務器和核心的網(wǎng)絡設備納入了SiteView ECC系統(tǒng)的監(jiān)控范圍。SiteView ECC對服務器、網(wǎng)絡設備的性能、故障以及Ctrip的業(yè)務系統(tǒng)進行了監(jiān)控。并做到了發(fā)現(xiàn)危險或者故障時候實現(xiàn)7*24實時報警,并完成與Ctrip 后臺系統(tǒng)的對接。同時設置了對所有的監(jiān)測器自動或者手動的生成各種各樣的報表,做到了對監(jiān)控系統(tǒng)的有據(jù)可查,并對IT運維的運行健康情況進行分析,為系統(tǒng)的進一步優(yōu)化及升級擴容提供了數(shù)據(jù)支持。
SiteView ECC提供了方便友好的操作界面,使得Ctrip的所有運維人員都能夠很輕松地熟悉和掌握監(jiān)控系統(tǒng)的操作和使用,這樣一來,使得原來一些復雜的、需要很高的技術和技巧的工作,都融合到了一個統(tǒng)一的平臺上,讓一般的操作人員也能夠完成復雜的運維工作,同時,SiteView提供了自動化的工作方式來替代原來需要消耗較多人力的手動系統(tǒng)巡查工作,節(jié)約了大量的人力。
SiteView ECC的部署使得Ctrip的運維人員可以在日常的運維工作中及時發(fā)現(xiàn)故障,避免系統(tǒng)的正常運行受到影響。同時系統(tǒng)發(fā)生異常時,SiteView ECC提供的系統(tǒng)監(jiān)控數(shù)據(jù),可以幫助運維人員快速定位和排查系統(tǒng)故障,從而大幅降低運營風險。
SiteView ECC提供的多種報表,為Ctrip IT系統(tǒng)的優(yōu)化和升級決策提供了非常有效的數(shù)據(jù)支持,根據(jù)這些報表提供的數(shù)據(jù),Ctrip可以對眾多IT資源進行合理再分配和優(yōu)化,充分挖掘現(xiàn)有IT資源的潛力,有效保護在IT資源上的投入;同時也能夠更有針對性地對IT系統(tǒng)進行升級,全面提升IT系統(tǒng)的整體運營效率。
可以說SiteView ECC的部署不僅大大提高了Ctrip的運維工作效率和質量,而且還從側面提升了Ctrip的用戶滿意度和行業(yè)口碑,從而增強了企業(yè)競爭力。