從傳統(tǒng)架構(gòu)到云上數(shù)據(jù),發(fā)生了哪些轉(zhuǎn)變
原創(chuàng)【51CTO.com原創(chuàng)稿件】在數(shù)據(jù)時(shí)代的今天,如何部署企業(yè)的大數(shù)據(jù)平臺(tái),充分挖掘數(shù)據(jù)、分析數(shù)據(jù)、發(fā)揮數(shù)據(jù)價(jià)值,成為擺在企業(yè)面前的重要難題。面對(duì)爆炸式增長(zhǎng)的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析平臺(tái)存在著諸多的問題,已經(jīng)不能滿足需求,借助云計(jì)算實(shí)現(xiàn)的云上數(shù)據(jù)分析平臺(tái),就能夠非常靈活、輕松的實(shí)現(xiàn)企業(yè)的各種數(shù)據(jù)分析需求,并能夠有效控制成本。這里,筆者就與大家簡(jiǎn)單的聊一下從傳統(tǒng)架構(gòu)到云上數(shù)據(jù),到底發(fā)生了哪些轉(zhuǎn)變。
首先,來(lái)分析一下傳統(tǒng)數(shù)據(jù)分析平臺(tái)存在的各種問題。
傳統(tǒng)大數(shù)據(jù)分析平臺(tái)面臨的主要挑戰(zhàn)
一)多租戶支持。從Hadoop出現(xiàn)的***天起,對(duì)于多租戶的支持一直是大數(shù)據(jù)里被詬病的重要一點(diǎn)。如何在一個(gè)Hadoop集群做多租戶,由此提出了做隊(duì)列調(diào)度等等一大堆解決方案,但真正落地的并不多。如果把大數(shù)據(jù)拆成多個(gè)集群,拆完后失去了資源復(fù)用的意義,但是如果把所有數(shù)據(jù)放到一個(gè)大的集群中,又無(wú)法保證數(shù)據(jù)安全。因此,在傳統(tǒng)數(shù)據(jù)分析平臺(tái)中多租戶的支持一下是老大難。
二)快速部署。企業(yè)在建設(shè)大數(shù)據(jù)平臺(tái)時(shí)需要采購(gòu)很多設(shè)備,對(duì)于人員的技術(shù)要求非常高,快速地推向市場(chǎng)將面臨很大的風(fēng)險(xiǎn)。
三)系統(tǒng)的靈活性和可靠性。傳統(tǒng)大數(shù)據(jù)平臺(tái)想要實(shí)現(xiàn)擴(kuò)容,操作起來(lái)非常麻煩。例如計(jì)算能力不夠時(shí)需要擴(kuò)容,采購(gòu)機(jī)器至少需要花費(fèi)幾周的時(shí)間,而要真正投入到使用當(dāng)中,時(shí)間就會(huì)更長(zhǎng)。
英特爾技術(shù)專家在接受筆者采訪時(shí)曾表示,大數(shù)據(jù)分析平臺(tái)要綜合考慮效率、成本和數(shù)據(jù)安全,傳統(tǒng)的數(shù)據(jù)分析平臺(tái)無(wú)論從哪個(gè)方面來(lái)講,都已經(jīng)無(wú)法滿足企業(yè)對(duì)數(shù)據(jù)分析的需求,而云計(jì)算平臺(tái)則能夠很好的解決這些問題。
硬件革命使大數(shù)據(jù)和云計(jì)算緊密結(jié)合
眾所周知,在2011年Hadoop剛開始流行的時(shí)候,整體硬件的性能非常低,網(wǎng)絡(luò)僅有一千兆,硬盤每秒鐘磁盤的IO水平非常低,寫只有每秒50次左右,讀是每秒鐘100到300次,計(jì)算能力也不強(qiáng)。6年之后,硬件性能發(fā)生了翻天覆地的變化,CPU計(jì)算能力提升了10倍、20倍,存儲(chǔ)從每秒鐘50次寫的次數(shù)提升到每秒鐘寫次能上50萬(wàn),I/O的性能有一萬(wàn)倍的提升,網(wǎng)絡(luò)從千兆網(wǎng)到40G、100G,也有100倍的提升。正是這種硬件性能的革命,使得Hadoop的設(shè)計(jì)理念發(fā)生了一些變化。
之前在利用Hadoop做大數(shù)據(jù)分析時(shí),由于硬件性能差,挪動(dòng)數(shù)據(jù)的成本太高,所以只能挪算法,數(shù)據(jù)在哪我們就在哪里算。隨著硬件性能的提升,讓我們能夠把存儲(chǔ)和計(jì)算分開。根據(jù)客戶的實(shí)際需要,將計(jì)算集群和存儲(chǔ)集群分到兩個(gè)獨(dú)立的集群,通過(guò)高速互聯(lián)網(wǎng)鏈接起來(lái),這實(shí)際上就是成本和效率之間的折中。此外,為了保證多租戶,保證靈活性、安全性,將存儲(chǔ)網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)分開,在存儲(chǔ)網(wǎng)絡(luò)內(nèi),比如對(duì)象存儲(chǔ),可以通過(guò)Amazon S3,restful等接口訪問數(shù)據(jù),從而實(shí)現(xiàn)多租戶。同時(shí),在計(jì)算集群里通過(guò)虛擬化、容器,實(shí)現(xiàn)多租戶,按需調(diào)度。兩個(gè)集群分開,完全可以滿足用戶的部署問題、安全問題。此外,硬件的革命使得大數(shù)據(jù)+云計(jì)算成為可能,等于Big Data As a Service。
云上數(shù)據(jù),更加靈活、易管理
雖然說(shuō)云計(jì)算在大數(shù)據(jù)里面不是必須的,但是沒有云計(jì)算這個(gè)輪子,大數(shù)據(jù)里面所謂的按需分配、多租戶、靈活擴(kuò)展、動(dòng)態(tài)配置都是不可能的;而如果我們要達(dá)到一個(gè)成本和可管理性、靈活性的一個(gè)折中,云計(jì)算是必須的。所以結(jié)合在一起就是云上的大數(shù)據(jù),從而實(shí)現(xiàn)存儲(chǔ)集群和計(jì)算集群的分離。
英特爾技術(shù)專家表示,在系統(tǒng)的存儲(chǔ)層面上,包括塊存儲(chǔ)、對(duì)象存儲(chǔ)、第三方存儲(chǔ),把各種存儲(chǔ)形成一個(gè)獨(dú)立的、軟件定義的SDS(軟件定義存儲(chǔ)),靈活地在存儲(chǔ)層面上做多租戶、自動(dòng)化、靈活性。在計(jì)算層面上,通過(guò)虛擬機(jī)、容器等技術(shù),實(shí)現(xiàn)多租戶,靈活地配置各種服務(wù),把大數(shù)據(jù)做成多種服務(wù)。這樣,用戶能夠按照自己的需求來(lái)動(dòng)態(tài)選擇、動(dòng)態(tài)擴(kuò)容,實(shí)現(xiàn)兩層分開。當(dāng)然,對(duì)于SDN來(lái)講,可以用傳統(tǒng)的網(wǎng)絡(luò),用10G、40G、100G的進(jìn)行鏈接。對(duì)于互聯(lián)網(wǎng)企業(yè)來(lái)講,直接用軟件定義網(wǎng)絡(luò)即可。
例如英特爾與金山云合作的KMR計(jì)算,數(shù)據(jù)放在塊存儲(chǔ)還是放在對(duì)象存儲(chǔ)上,實(shí)際上是有不同的配置來(lái)實(shí)現(xiàn)的。用戶想節(jié)省成本,想成本***,都是批處理,這時(shí)候可以把數(shù)據(jù)全放在底層對(duì)象存儲(chǔ),用KS3做對(duì)象存儲(chǔ),當(dāng)需要計(jì)算的時(shí)候,Spark直接從對(duì)象存儲(chǔ)調(diào)用數(shù)據(jù)計(jì)算。同樣,如果用戶想保證效率,對(duì)計(jì)算的實(shí)時(shí)性要求很高,這時(shí)可以在內(nèi)存里面建立一個(gè)內(nèi)存文件系統(tǒng),把熱數(shù)據(jù)全部緩存在內(nèi)存里面,直接用KML或者是Spark實(shí)現(xiàn)內(nèi)存計(jì)算,保證查詢的實(shí)時(shí)性和計(jì)算的實(shí)時(shí)性。
寫在***:從傳統(tǒng)的架構(gòu)到云上大數(shù)據(jù),實(shí)現(xiàn)了很多的轉(zhuǎn)變。傳統(tǒng)的大數(shù)據(jù)平臺(tái)計(jì)算和數(shù)據(jù)一般都在一起,到云上之后計(jì)算有可能是虛擬機(jī)、有可能是容器,存儲(chǔ)和計(jì)算是分離的。任何計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)時(shí)都是通過(guò)高速互聯(lián)網(wǎng)絡(luò)把數(shù)據(jù)遷移到本地來(lái)。實(shí)現(xiàn)的優(yōu)勢(shì)也就是大數(shù)據(jù)的服務(wù)化,靈活配置。因此,借助強(qiáng)大的計(jì)算性能,結(jié)合云計(jì)算平臺(tái)的優(yōu)勢(shì),從傳統(tǒng)架構(gòu)的大數(shù)據(jù)平臺(tái)向云上數(shù)據(jù)的轉(zhuǎn)變,將給用戶提供更高的靈活性和管理性,并能夠?yàn)橛脩艄?jié)省大量的成本。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】