面對(duì)大數(shù)據(jù)處理挑戰(zhàn)需提升服務(wù)器性能
據(jù)IDC預(yù)測(cè),未來(lái)十年全球大數(shù)據(jù)將增加50倍。而僅在2011年,全球就產(chǎn)生了1.8ZB(也即1.8萬(wàn)億GB)的大數(shù)據(jù)。毫無(wú)疑問(wèn),大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲(chǔ)架構(gòu)及數(shù)據(jù)中心基礎(chǔ)設(shè)施等,也會(huì)引發(fā)云計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、商業(yè)智能等應(yīng)用的連鎖反應(yīng)。
大數(shù)據(jù)引發(fā)三重挑戰(zhàn)
具體到企業(yè)而言,其面臨的最直接的挑戰(zhàn)就是企業(yè)的基礎(chǔ)架構(gòu)是否適應(yīng)大數(shù)據(jù)管理和分析的需要,尤其是一旦要從大數(shù)據(jù)中查找或者分析出有價(jià)值的信息,那大數(shù)據(jù)的處理效率就成為了關(guān)鍵。而即使是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),其對(duì)處理速度的要求也越來(lái)越高。以銀行業(yè)為例,伴隨著銀行網(wǎng)點(diǎn)、ATM機(jī)的多點(diǎn)布局,再加上越來(lái)越多的新興業(yè)務(wù)轉(zhuǎn)移到互聯(lián)網(wǎng)上,使得銀行不得不面對(duì)無(wú)時(shí)無(wú)刻無(wú)處不在的數(shù)據(jù)處理響應(yīng)需求。
影響數(shù)據(jù)處理速度的因素很多,歸結(jié)起來(lái)主要有計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)三大方面的因素。計(jì)算依靠服務(wù)器來(lái)實(shí)現(xiàn),其CPU的主頻、內(nèi)存的容量和I/O帶寬,都會(huì)影響到運(yùn)算速度。尤其是服務(wù)器整體表現(xiàn)出來(lái)的性能,將會(huì)是影響大數(shù)據(jù)處理的關(guān)鍵因素。此外,有些企業(yè)喜歡采用x86集群或者分布式計(jì)算來(lái)對(duì)大數(shù)據(jù)進(jìn)行處理,但是各個(gè)計(jì)算節(jié)點(diǎn)間的調(diào)用和處理器使用效率,亦成為影響數(shù)據(jù)處理快慢的因素。
存儲(chǔ)方面,傳統(tǒng)的存儲(chǔ)系統(tǒng)已經(jīng)成為數(shù)據(jù)庫(kù)處理的瓶頸,這些制約因素包括存儲(chǔ)系統(tǒng)到數(shù)據(jù)庫(kù)的帶寬限制、存儲(chǔ)陣列的內(nèi)部瓶頸等。數(shù)據(jù)帶寬已經(jīng)嚴(yán)重地限制了數(shù)據(jù)庫(kù)的性能,而隨機(jī)I/O的瓶頸限制了OLTP(聯(lián)機(jī)事務(wù)處理)應(yīng)用的性能。網(wǎng)絡(luò)帶寬涵蓋了服務(wù)器和存儲(chǔ)系統(tǒng)間的帶寬、終端和主機(jī)間的帶寬。假如采用集群或分布式系統(tǒng),還需要考慮節(jié)點(diǎn)之間的帶寬。
大型數(shù)據(jù)庫(kù)開啟效率之旅
除了上述三個(gè)因素外,許多企業(yè)基于歷史發(fā)展的原因,還會(huì)創(chuàng)建多個(gè)數(shù)據(jù)庫(kù)。它們經(jīng)常采用不同的平臺(tái),使用不同的軟件,造成了數(shù)據(jù)處理和管理效率的低下。
這些數(shù)據(jù)庫(kù)通常包含與其它數(shù)據(jù)庫(kù)相重復(fù)的數(shù)據(jù)。一個(gè)數(shù)據(jù)庫(kù)一般不會(huì)將另一個(gè)數(shù)據(jù)庫(kù)作為數(shù)據(jù)源。這樣就會(huì)消耗額外的磁盤存儲(chǔ),增加重復(fù)數(shù)據(jù)遷移所需要的網(wǎng)絡(luò)帶寬,也會(huì)因從多個(gè)數(shù)據(jù)存儲(chǔ)獲取相同數(shù)據(jù)的需要而額外增加服務(wù)器CPU處理的負(fù)荷。
同時(shí),假如企業(yè)擁有多個(gè)數(shù)據(jù)庫(kù)的話,那么他們通常會(huì)將它們部署在不同的平臺(tái)上,針對(duì)不同的硬件平臺(tái)采用不同的維護(hù)方法。這樣需要維護(hù)不同品牌和模型的服務(wù)器數(shù)量越多,成本就越高。如果是關(guān)鍵任務(wù)服務(wù)器,那么提供冗余性的硬件就會(huì)重復(fù),這也會(huì)增加額外的成本。
此外,企業(yè)還不得不面對(duì)運(yùn)營(yíng)效率低下的問(wèn)題。假如在多個(gè)服務(wù)器上運(yùn)行多個(gè)數(shù)據(jù)庫(kù)系統(tǒng),那么有一些運(yùn)營(yíng)成本需要考慮,包括培訓(xùn)多個(gè)系統(tǒng)的人員、監(jiān)控多個(gè)系統(tǒng)、修復(fù)多個(gè)平臺(tái)的故障、修補(bǔ)和更新多個(gè)系統(tǒng)。而在統(tǒng)一的操作系統(tǒng)和硬件平臺(tái)上運(yùn)行一個(gè)系統(tǒng)會(huì)更簡(jiǎn)單一些,成本也更低。另外,監(jiān)控和故障修復(fù)也更加簡(jiǎn)單。
在一些情況中,數(shù)據(jù)規(guī)模直接決定了系統(tǒng)規(guī)模。大容量數(shù)據(jù)需要組織起來(lái)進(jìn)行處理才會(huì)產(chǎn)生價(jià)值。如果將整個(gè)企業(yè)的信息整合為一個(gè)統(tǒng)一且安全的整體,那么許多企業(yè)都將獲益更多。因而雖然單個(gè)大型數(shù)據(jù)庫(kù)系統(tǒng)的初始成本高于一般數(shù)據(jù)庫(kù),但是對(duì)于長(zhǎng)期運(yùn)營(yíng)而言,更加劃算。而且單個(gè)數(shù)據(jù)庫(kù)系統(tǒng)可以根據(jù)當(dāng)前需求調(diào)整規(guī)模,在有需要時(shí)增加容量,從而使整個(gè)系統(tǒng)處于高效率的運(yùn)行狀態(tài)。
內(nèi)存計(jì)算化繁為簡(jiǎn)
值得一提的是,近年來(lái)許多數(shù)據(jù)庫(kù)廠商大力發(fā)展的內(nèi)存計(jì)算技術(shù),同樣對(duì)數(shù)據(jù)處理速度的提升起到了很大的作用。
內(nèi)存計(jì)算的主要用途之一是龐大的數(shù)據(jù)集的實(shí)時(shí)操作。在傳統(tǒng)的數(shù)據(jù)庫(kù)中,數(shù)據(jù)存在硬盤上。數(shù)據(jù)和服務(wù)器的CPU,通過(guò)有線連接,所以數(shù)據(jù)要到達(dá)的“桌面”是緩慢和遙遠(yuǎn)的,當(dāng)需要十億字節(jié)或者艾字節(jié)的數(shù)據(jù)時(shí),數(shù)據(jù)庫(kù)性能緩慢的主要原因之一是數(shù)據(jù)存取的時(shí)間過(guò)長(zhǎng),不能以足夠快的速度到達(dá)所需要的地方。
在內(nèi)存計(jì)算中,數(shù)據(jù)就存儲(chǔ)在CPU的旁邊,可以瞬間到達(dá)。這意味著數(shù)百GB的數(shù)據(jù)分析,報(bào)告和預(yù)測(cè)需要幾秒鐘內(nèi)就可以完成,而不是幾小時(shí)。