云網(wǎng)管:大規(guī)模服務(wù)器監(jiān)測破局
【51CTO.com綜合報道】在傳統(tǒng)IT運維解決方案中,如何進行監(jiān)測服務(wù)器的擴容是***的難題之一,而“云網(wǎng)管”技術(shù)將虛擬化引入到了監(jiān)測服務(wù)器系統(tǒng),有望為解決這一難題提供新的途徑。
網(wǎng)絡(luò)運維管理發(fā)展之困
在目前的網(wǎng)絡(luò)運維管理實踐中,隨著用戶業(yè)務(wù)的不斷發(fā)展以及數(shù)據(jù)中心建設(shè)的不斷擴大,用戶要監(jiān)測的網(wǎng)絡(luò)設(shè)備規(guī)模越來越龐大、投入監(jiān)測服務(wù)器的成本越來越高。用戶的運維管理實踐在不斷發(fā)生變化,運維管理軟件市場已經(jīng)由對單一工具集產(chǎn)品的需求轉(zhuǎn)變?yōu)閷ν暾鉀Q方案的需求。用戶越來越需要一場新的技術(shù)變革來突破當(dāng)前所面臨的挑戰(zhàn)和困局。
美信科技(以下簡稱“MXsoft”)技術(shù)總監(jiān)陳新剛說:“在這樣的背景下我們推出了全新的 CreCloud云網(wǎng)管(以下簡稱‘CreCloud’)完整解決方案。其設(shè)計原理可以簡單概括為:將多臺普通監(jiān)控服務(wù)器虛擬為一臺計算能力強、運行穩(wěn)定的大型監(jiān)控服務(wù)器,幫助用戶在低成本的情況下,實現(xiàn)對大規(guī)模服務(wù)器和網(wǎng)絡(luò)設(shè)備的監(jiān)控。CreCloud作為一個完整的解決方案,從根本上革命性的解決了傳統(tǒng)網(wǎng)管產(chǎn)品所無法解決的種種問題。”
問題一:傳統(tǒng)網(wǎng)管產(chǎn)品的監(jiān)測能力和龐大的網(wǎng)絡(luò)規(guī)模之間的矛盾
陳新剛認(rèn)為:“在我們熟知的網(wǎng)管領(lǐng)域中,不管是簡單還是復(fù)雜,傳統(tǒng)網(wǎng)管產(chǎn)品都是以單套部署的原理來工作。即一套產(chǎn)品只能安裝在一臺監(jiān)控服務(wù)器上,這種模式有一定的局限性,其監(jiān)控能力和規(guī)模都受限于這臺監(jiān)控服務(wù)器的性能。當(dāng)被監(jiān)控規(guī)模超過這臺服務(wù)器監(jiān)控極限時,用戶不得不再購買一套產(chǎn)品,安裝在另一臺監(jiān)控服務(wù)器上,對超出部分的被監(jiān)控對象行進監(jiān)控。同時,還需要對用戶、權(quán)限和預(yù)告警數(shù)值等參數(shù)重新設(shè)置。這無疑會大大增加人力、物力上的成本。監(jiān)控的目的是為了提高工作效率,多套傳統(tǒng)網(wǎng)管產(chǎn)品的部署在解決問題的同時卻大大增加了對管理工作的復(fù)雜度。所以傳統(tǒng)網(wǎng)管產(chǎn)品對于大范圍的網(wǎng)絡(luò)監(jiān)控往往力不從心。而目前,有很大一部分的用戶需要監(jiān)測的設(shè)備越來越多,比較典型的是門戶網(wǎng)站、網(wǎng)游公司和類似中石油這樣的大型工業(yè)企業(yè),動輒就要監(jiān)測上千臺服務(wù)器。傳統(tǒng)網(wǎng)管軟件已漸漸無法滿足這類大中型規(guī)模企業(yè)的需求了。”
問題二:傳統(tǒng)網(wǎng)管產(chǎn)品的運行機制和高品質(zhì)監(jiān)測需求之間的矛盾
傳統(tǒng)網(wǎng)管產(chǎn)品大多采用單套部署的方式,這樣網(wǎng)管產(chǎn)品本身容易形成單點故障,一旦由于網(wǎng)管產(chǎn)品本身的原因(Java或者.Net編寫的網(wǎng)管產(chǎn)品在高負(fù)載時容易出現(xiàn)不穩(wěn)定或者占用系統(tǒng)資源太多的情況)或者安裝服務(wù)器的原因(比如掉線、宕機等)而發(fā)生故障時,所有的監(jiān)控任務(wù)都會無法進行。這是過去幾年中幾乎每一個行業(yè)用戶都會提出的問題,“網(wǎng)管產(chǎn)品對IT和網(wǎng)絡(luò)進行監(jiān)控,那么如何保證它們自身的安全運行呢”?
問題三:傳統(tǒng)網(wǎng)管產(chǎn)品的不可擴展和未來監(jiān)測擴容之間的矛盾
傳統(tǒng)網(wǎng)管產(chǎn)品由于采用單套部署的方式,當(dāng)監(jiān)測容量達(dá)到軟件自身的限制時,比如監(jiān)測服務(wù)器和網(wǎng)絡(luò)設(shè)備達(dá)到100臺時,性能就會大幅下降,當(dāng)達(dá)到500臺時,就會保持極限運行,隨時都有發(fā)生故障的可能。目前國內(nèi)的許多行業(yè)客戶都在大力發(fā)展信息化建設(shè), IT業(yè)務(wù)處于快速增加之中,設(shè)備和應(yīng)用輕松就會達(dá)到上百個,這樣當(dāng)監(jiān)測需要擴容時,網(wǎng)管產(chǎn)品卻出現(xiàn)了瓶頸,不能隨著IT網(wǎng)絡(luò)的擴容而自適應(yīng)增加管理能力。 如果實現(xiàn)監(jiān)測擴容,就需要新增加一套或者多套網(wǎng)管產(chǎn)品,這樣管理的效率問題就隨之而來。
除以上問題外,傳統(tǒng)網(wǎng)管產(chǎn)品還面臨著其它問題,比如對網(wǎng)管服務(wù)器的硬件要求過高從而容易加大用戶的成本,不能有效利用用戶的閑置服務(wù)器幫助用戶節(jié)省資源,都以工具或者工具集的形式出現(xiàn),無法成為真正的完善的解決方案等。
“云網(wǎng)管”解決之道
隨著新型的互聯(lián)網(wǎng)和IT應(yīng)用層出不窮,用戶的數(shù)據(jù)中心越來越大,服務(wù)器和網(wǎng)絡(luò)設(shè)備的數(shù)量越來越多,這些海量設(shè)備的存在為運維管理提出了新的挑戰(zhàn)。陳新剛表示:“為了從根本上解決以上網(wǎng)絡(luò)運維管理所面臨的困境,美信將云計算的概念引入到這個領(lǐng)域中,推出了CreCloud 云網(wǎng)管產(chǎn)品。云計算有兩個最根本的特征:虛擬化和動態(tài)擴容,在CreCloud的產(chǎn)品設(shè)計中,我們充分地體現(xiàn)了這兩個特征,CreCloud通過把多臺服務(wù)器的監(jiān)測能力虛擬成一臺超級服務(wù)器,實現(xiàn)了虛擬化監(jiān)測。當(dāng)數(shù)據(jù)中心的服務(wù)器和網(wǎng)絡(luò)設(shè)備增加時,CreCloud通過增加‘監(jiān)測云’中的服務(wù)器來實現(xiàn)動態(tài)擴容” 。
以往當(dāng)需要對大規(guī)模服務(wù)器進行海量監(jiān)測時,傳統(tǒng)的方法是使用多臺性能配置高的硬件服務(wù)器,部署多套網(wǎng)管產(chǎn)品來分割進行。而現(xiàn)在應(yīng)用CreCloud 的“云管理”技術(shù),用戶可以將多臺PC Server進行虛擬,構(gòu)建出一個性能強勁的虛擬服務(wù)器,CreCloud完全滿足了用戶對大規(guī)模監(jiān)測的穩(wěn)定可靠性、持久安全性、靈活擴展性的需求。
CreCloud的工作原理見圖一
圖一
如圖一所示,CreCloud云網(wǎng)管主要創(chuàng)新成就包括如下幾個部分:
中央控制器(Central Control Unit,簡稱CCU),是CreCloud云網(wǎng)管的大腦,主要負(fù)責(zé)協(xié)調(diào)、管理、分配眾多的任務(wù)管理器和實時數(shù)據(jù)庫,實現(xiàn)云管理方案中的各項功能。
TaskDispatcher任務(wù)管理器,主要負(fù)責(zé)調(diào)度管理由CCU中央控制器分配過來的監(jiān)測任務(wù),通常情況下,一個TaskDispatcher任務(wù)管理器可以完成對1000臺服務(wù)器(或者網(wǎng)絡(luò)設(shè)備)的監(jiān)測。如上圖所示,TaskDispatcher任務(wù)管理器所管理下的監(jiān)測服務(wù)器組成監(jiān)測云,完成對大規(guī)模設(shè)備的海量監(jiān)控。該監(jiān)測云具備動態(tài)監(jiān)測負(fù)載均衡、多機容災(zāi)備份、監(jiān)測服務(wù)器熱插拔等眾多功能。
RealDB實時數(shù)據(jù)庫,主要實現(xiàn)對海量監(jiān)測數(shù)據(jù)的實時存儲和報表數(shù)據(jù)的生成。
在陳新剛看來:“用戶的核心需求是管理設(shè)備,而不僅僅是購買工具。由于CreCloud可以使主控機實現(xiàn)雙機熱備和虛擬可動態(tài)擴容,兩臺主控制臺服務(wù)器組成高效的‘主’—‘備’模式,‘主’服務(wù)器和‘備’服務(wù)器之間通過‘智能心跳’技術(shù)實時關(guān)聯(lián),一旦主控制服務(wù)器宕機,備份服務(wù)器馬上啟動執(zhí)行任務(wù)。不但解決了用戶目前7*24小時的不間斷監(jiān)測需求,也為用戶未來系統(tǒng)擴容的需求做好了準(zhǔn)備。”
在部署方面, CreCloud提供了真正意義上的分布式部署,實現(xiàn)了在不同工作區(qū)域一套管理軟件、一套配置、一套報警,構(gòu)成了強大的虛擬后臺和簡潔的前臺呈現(xiàn)。陳新剛強調(diào):“其實云網(wǎng)管可以提供給用戶的不僅僅是一套工具,而是一整套解決方案。網(wǎng)絡(luò)運維管理的主要瓶頸之一就是數(shù)據(jù)庫分析這一層,能否把監(jiān)測采集到的數(shù)據(jù)進行快速存貯和精準(zhǔn)分析是衡量網(wǎng)絡(luò)管理系統(tǒng)優(yōu)劣的重要指標(biāo)。MXsoft通過自主開發(fā)數(shù)據(jù)庫與用戶指定數(shù)據(jù)庫相結(jié)合,滿足了不同客戶對監(jiān)測數(shù)據(jù)的存儲需求,既可以將數(shù)據(jù)存在用戶指定的數(shù)據(jù)庫中,同時也可以在自己的數(shù)據(jù)庫中進行備份。”
另外在報警形式上采用了比較多樣化的手機短信和聲音報警相結(jié)合的方式。一旦出現(xiàn)性能故障或性能指標(biāo)達(dá)到報警標(biāo)準(zhǔn),警報便會通過界面顏色顯示、聲音、郵件、手機短信息等方式自動發(fā)送,及時通知相關(guān)管理人員在故障發(fā)生前及時消除故障隱患。
據(jù)介紹,這種“云網(wǎng)管”技術(shù)所面向的用戶群體是比較高端、擁有大量服務(wù)器的用戶,MXsoft已經(jīng)瞄準(zhǔn)了例如門戶網(wǎng)站、網(wǎng)絡(luò)游戲和大型國企、電信等多個領(lǐng)域,準(zhǔn)備發(fā)力。陳新剛還透露,明年可能會發(fā)布CreCloud的日本版和英文版,進軍海外市場。在談到網(wǎng)絡(luò)運維領(lǐng)域未來的技術(shù)趨勢時陳新剛自信地指出,“越是聽上去簡單易懂的技術(shù),越需要深厚的積累和復(fù)雜的工作。云網(wǎng)管是一個勢在必行的趨勢。因為目前面對大規(guī)模服務(wù)器監(jiān)控,傳統(tǒng)網(wǎng)管產(chǎn)品已經(jīng)無法滿足需要。所以我們對這個市場的前景充滿信心。”