如何基于云計算技術(shù)進行數(shù)據(jù)管理
數(shù)據(jù)的快速增長導(dǎo)致用戶對計算機計算能力的需求越來越高。云計算在提高普通計算機快速處理能力上起到了很大的作用。云計算能夠?qū)ζ胀ㄓ脩羰褂糜嬎銠C的模式進行改變,從而給用戶提供按需分配的存儲能力、計算能力以及應(yīng)用服務(wù)能力等,給用戶帶來更多的方便,也在很大程度上降低了用戶對軟件和硬件采購的費用。但是,云計算需要各種技術(shù)手段作為支持,其中包括虛擬化技術(shù)、分布式的儲存方式、計算數(shù)據(jù)的管理以及數(shù)據(jù)同步運算等等。
1.云計算技術(shù)
云計算是一種基于網(wǎng)絡(luò)的新的計算方式。云計算的核心思想可以追溯到上世紀(jì)60年代。利用云計算和計算機的共享軟件和硬件資源能夠滿足對不同計算機和其他設(shè)備提供信息的需求。云計算是分布式處理、網(wǎng)絡(luò)計算和并行處理的發(fā)展,被譽為計算機科學(xué)概念的商業(yè)實現(xiàn)。云計算可以包括以下幾個層次的服務(wù):基礎(chǔ)設(shè)施即服務(wù)、平臺即服務(wù)和軟件即服務(wù)。
由于云計算基于的都是一些成熟的技術(shù),很快得到了IT業(yè)界眾多大廠商的大力推廣和支持,在近些年來呈現(xiàn)很好的發(fā)展趨勢,從而也凸顯出云計算的許多特征。首先,云計算具有很高的性價比,其利用非常好的容錯處理涉及,使得現(xiàn)有的貴重的專用服務(wù)器被廉價的個人電腦代替,并且在計算能力上有很大的提高。這樣既減少了硬件投入的成本,同時軟件維護和數(shù)據(jù)管理成本也得到有效的降低。其次,云計算具有動態(tài)可擴展性,因為云具有可以靈活進行動態(tài)擴張或收縮的規(guī)模,服務(wù)器能夠在任何時刻增加或移除服務(wù)器集群中。再次,云計算具有虛擬化的特點。云計算對于軟件和硬件資源實行虛擬化管理,用戶能夠不限時間,不限地點的訪問云上的服務(wù)和數(shù)據(jù),甚至是輕易的完成超級計算任務(wù)。***,靈活定制也是云計算的一個重要特征。因為云是一個非常巨大的資源站,為用戶能夠提供極大的計算能力和存儲能力,用戶可以根據(jù)自身需要選擇相應(yīng)的數(shù)據(jù)資源和服務(wù)資源。
2.云數(shù)據(jù)管理技術(shù)
2.1 Dynamo技術(shù)
Dynamo技術(shù)能夠在不暴露于外網(wǎng)的前提下直接提供底層支持和AWS,因為它不僅具有存儲系統(tǒng)的分布式、數(shù)據(jù)庫和高可用行,還具有轉(zhuǎn)悠存儲系統(tǒng)的鍵值結(jié)構(gòu)、Hash表分布式。Dynamo的基本儲存架構(gòu)和理念是DHT,其***的特點就是能夠均勻的存儲數(shù)據(jù),各存儲點之間有相互感應(yīng)的能力,因此它的自我管理性能特別強,不需要Mater主控點的控制,同時單點故障的危險也比較低。亞馬遜平臺的基礎(chǔ)存儲架構(gòu)就是Dynamo技術(shù),并且應(yīng)用于亞馬遜的很多系統(tǒng)當(dāng)中。Dynamo技術(shù)利用的是DHT的數(shù)據(jù)儲存方式,因此沒有熱點,這樣,各點的數(shù)據(jù)存儲量和訪問壓力就呈現(xiàn)出負(fù)載均衡的優(yōu)勢。
2.2 MapReduce技術(shù)
MapReduce技術(shù)是谷歌設(shè)計的一種編程模式,適合應(yīng)用在大規(guī)模數(shù)據(jù)集的并行處理當(dāng)中,一般要求大于1TB云計算MapReduce的編程模式能夠有效的利用云計算的資源。MapReduce是一種新型的編程模式,能夠?qū)⑺嗅槍A慨悩?gòu)數(shù)據(jù)的操作抽象為mah(映射)和reduce化簡廁種操作。Map能夠按照是否能夠在單個節(jié)點上完成運算的標(biāo)準(zhǔn)將任務(wù)分解成若干個自任務(wù),再分配給不同的計算機進行處理。然后Reduce再按照軟件的程序設(shè)定對Map作用的結(jié)果集進行合成處理,得到***的分析處理結(jié)論。除此之外,MapReduce向各節(jié)點分配map和reduce任務(wù)時,會考慮數(shù)據(jù)的本地性,將相應(yīng)安排到參與數(shù)據(jù)的存放節(jié)點或附近節(jié)點去執(zhí)行。
2.3 GFS技術(shù)
GFS是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應(yīng)用。GFS整個系統(tǒng)的節(jié)點分為客戶端、主服務(wù)器和數(shù)據(jù)塊服務(wù)器三個角色。客戶端是GFS提供給應(yīng)用程序的訪問接口,是一組不遵守POVSIX規(guī)范的專用接口,以庫文件的形式提供。GFS的管理節(jié)點是主服務(wù)器,在邏輯上僅存在一個,是GFS文件系統(tǒng)中的大腦,負(fù)責(zé)整個文件系統(tǒng)的管理。數(shù)據(jù)塊服務(wù)器中是以文件的形式存儲的數(shù)據(jù),其個數(shù)可以有許多個,直接決定了GFS的規(guī)模。GFS數(shù)據(jù)以默認(rèn)64MB的固定數(shù)據(jù)塊為單位進行存儲,并且分布在不同的數(shù)據(jù)塊服務(wù)上。
2.4 BigTable技術(shù)
BigTable技術(shù)是谷歌建立在GFS和MahReduce之上的一個大型分布式數(shù)據(jù)庫,其形式實際是一個龐大的表,其規(guī)模超過1PB,能夠?qū)⑺袛?shù)據(jù)作為處理對象,從而形成一個巨大的表格。同時,BigTable還是一種擁有數(shù)據(jù)擴展功能所設(shè)計的管理結(jié)構(gòu)化分布式數(shù)據(jù)存儲系統(tǒng),從而達(dá)到巨大的規(guī)模。在BigTable技術(shù)進行數(shù)據(jù)處理工作時,能夠在每時每刻將表劃分到單獨的服務(wù)器中,并且充分運用主服務(wù)器誰是監(jiān)測子表的負(fù)荷。
3.結(jié)束語
可以說,因計算技術(shù)以及云數(shù)據(jù)管理技術(shù)作為一種非常有現(xiàn)實意義的技術(shù),使IT產(chǎn)業(yè)的運行方式有了徹底性的變化。隨著云計算技術(shù)和虛擬化的進一步發(fā)展,云計算技術(shù)必將會在更多的領(lǐng)域中得到更加廣泛的應(yīng)用。同時,也會出現(xiàn)一些新的問題,這就要求相關(guān)學(xué)者加強研究技能,在數(shù)據(jù)中不斷的提供有用信息。在以后,云數(shù)據(jù)管理技術(shù)將會在提高存儲量、提高計算速度以及數(shù)據(jù)安全方面獲得更多的進步,然而,如何利用云計算并使之逐漸走向正規(guī)化、商業(yè)化和大眾化,還需要一個非常漫長的過程。