大數(shù)據(jù)與云計(jì)算的深度融合,體現(xiàn)在哪幾個(gè)方面?
隨著整個(gè)IT生態(tài)的進(jìn)一步發(fā)展,在2021年,IT從業(yè)人員對(duì)大數(shù)據(jù)的發(fā)展趨勢(shì)有一個(gè)普遍的共識(shí),就是大數(shù)據(jù)和云計(jì)算的進(jìn)一步深度融合的趨勢(shì),即大數(shù)據(jù)擁抱云計(jì)算,走向云原生化。
明哥在這里,跟大家一起看下,大數(shù)據(jù)與云計(jì)算的深度融合的趨勢(shì)下,深度融合具體體現(xiàn)在哪些地方。
大數(shù)據(jù)與云計(jì)算的深度融合,體現(xiàn)在以下幾個(gè)方面:
一、應(yīng)用方的大數(shù)據(jù)平臺(tái)上云:使用大數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用建設(shè)方,不再自建數(shù)據(jù)中心,而是將大數(shù)據(jù)平臺(tái)搬到了云上,有的是在云廠商的 IaaS 層上自建大數(shù)據(jù)平臺(tái),現(xiàn)在以這種方式在云上使用大數(shù)據(jù)的案例已經(jīng)比較少了,有的直接使用云廠商提供的 PaaS 層大數(shù)據(jù)相關(guān)產(chǎn)品,有的甚至直接使用云廠商推出的 SaaS層大數(shù)據(jù)相關(guān)產(chǎn)品?,F(xiàn)在“上云”有一點(diǎn)趨勢(shì)需要強(qiáng)調(diào)下,就是大家都很重視不 vendor-lockin,底層的云可能是多個(gè)公有云和私有的融合的 hybrid-cloud;
二、云計(jì)算廠商在不斷推出自己基于大數(shù)據(jù)的各種增值服務(wù):為了提高自己的市場(chǎng)競(jìng)爭(zhēng)力,以進(jìn)一步鞏固/拓寬自己的市場(chǎng)地位,各大云廠商也在積極推出自己整合的大數(shù)據(jù)相關(guān)產(chǎn)品,有最基礎(chǔ)的 s3/oss, emr/e-mapreduce,有上文的aws redshift,阿里云的maxcompute,除此之外,還有各種云上數(shù)據(jù)庫(kù),云上 serverless 形態(tài)的各種大數(shù)據(jù)服務(wù)等等,這個(gè)名單還在不斷增長(zhǎng)中,以下截圖可見(jiàn)一斑:

三、各傳統(tǒng)大數(shù)據(jù)廠商已經(jīng)轉(zhuǎn)向依托云來(lái)提供自己的產(chǎn)品和服務(wù):如 elastic 很早就開(kāi)始基于云交付自己的elk 技術(shù)棧了,如databricks的大數(shù)據(jù)平臺(tái)和產(chǎn)品一直都是基于云來(lái)向客戶提供服務(wù)的,如 cloudera 不斷探索改變自己的商業(yè)模式;
四、各個(gè)具體的大數(shù)據(jù)組件都在主動(dòng)改變自身架構(gòu),積極向云原生靠攏以“云化”:從理念層面講,大數(shù)據(jù)已經(jīng)從最早的強(qiáng)調(diào)“數(shù)據(jù)本地性”和“移動(dòng)數(shù)據(jù)不如移動(dòng)計(jì)算”的理念,演進(jìn)到了現(xiàn)在的強(qiáng)調(diào)“存儲(chǔ)計(jì)算分離”的理念。各個(gè)新推出的組件和框架主動(dòng)擁抱云原生,如pulsa,TiDB等都是依托于存儲(chǔ)計(jì)算分離的云原生架構(gòu);各個(gè)傳統(tǒng)的組件雖然有歷史包袱,也在不斷求新求變,如flink/spark都深度整合支持了kubernetes集群模式;如kafka也在不斷探索如花云化:包括完全去掉zookeeper依賴,包括Rebalance Protocol的 Static Membership等;正如古語(yǔ)所言,“順則昌不順則亡”,一些不適應(yīng)云原生架構(gòu)的技術(shù)組件,其市場(chǎng)正在不斷萎縮,如很多場(chǎng)景下,kubernetes都替代了yarn,對(duì)象存儲(chǔ)oss/s3等也在替代hdfs ,我們也注意到了apache 社區(qū)推出的Ozone,該組件在對(duì)象存儲(chǔ)的基礎(chǔ)上,也融合推出了文件系統(tǒng)api,該組件的背后有很多原h(huán)dfs社區(qū)的committer在貢獻(xiàn)代碼,在cloudera的cdp平臺(tái)中也內(nèi)嵌支持了該組件。下圖展示了flink/spark跟kubernetes的深度整合:(注意不是簡(jiǎn)單的使用k8s operator將spark/flink作業(yè)運(yùn)行在k8s集群中,而是native的深度的整合)
