大數(shù)據(jù)與云計(jì)算深度融合的趨勢體現(xiàn)在哪些方面?
本文轉(zhuǎn)載自微信公眾號「明哥的IT隨筆」,作者IT明哥。轉(zhuǎn)載本文請聯(lián)系明哥的IT隨筆公眾號。
隨著整個(gè)IT生態(tài)的進(jìn)一步發(fā)展,在2021年,IT從業(yè)人員對大數(shù)據(jù)的發(fā)展趨勢有一個(gè)普遍的共識,就是大數(shù)據(jù)和云計(jì)算的進(jìn)一步深度融合的趨勢,即大數(shù)據(jù)擁抱云計(jì)算,走向云原生化。
明哥在這里,跟大家一起看下,大數(shù)據(jù)與云計(jì)算的深度融合的趨勢下,深度融合具體體現(xiàn)在哪些地方。
大數(shù)據(jù)與云計(jì)算的深度融合,體現(xiàn)在以下幾個(gè)方面:
一是應(yīng)用方的大數(shù)據(jù)平臺上云:使用大數(shù)據(jù)技術(shù)的業(yè)務(wù)應(yīng)用建設(shè)方,不再自建數(shù)據(jù)中心,而是將大數(shù)據(jù)平臺搬到了云上,有的是在云廠商的 IaaS 層上自建大數(shù)據(jù)平臺(現(xiàn)在以這種方式在云上使用大數(shù)據(jù)的案例已經(jīng)比較少了),有的直接使用云廠商提供的 PaaS 層大數(shù)據(jù)相關(guān)產(chǎn)品(aws 的 emr,阿里云的 e-MapReduce等),有的甚至直接使用云廠商推出的 SaaS層大數(shù)據(jù)相關(guān)產(chǎn)品(aws的redshift, 阿里云的maxcompute等)?,F(xiàn)在“上云”有一點(diǎn)趨勢需要強(qiáng)調(diào)下,就是大家都很重視不 vendor-lockin,底層的云可能是多個(gè)公有云和私有的的融合的 hybrid-cloud;
二是云計(jì)算廠商在不斷推出自己基于大數(shù)據(jù)的各種增值服務(wù):為了提高自己的市場競爭力,以進(jìn)一步鞏固/拓寬自己的市場地位,各大云廠商也在積極推出自己整合的大數(shù)據(jù)相關(guān)產(chǎn)品,有最基礎(chǔ)的 s3/oss, emr/e-mapreduce,有上文的aws redshift, 阿里云的maxcompute,除此之外,還有各種云上數(shù)據(jù)庫,云上 serverless 形態(tài)的各種大數(shù)據(jù)服務(wù)等等,這個(gè)名單還在不斷增長中,以下截圖可見一斑:
三是各傳統(tǒng)大數(shù)據(jù)廠商已經(jīng)轉(zhuǎn)向依托云來提供自己的產(chǎn)品和服務(wù):如 elastic 很早就開始基于云交付自己的elk 技術(shù)棧了,如databricks的大數(shù)據(jù)平臺和產(chǎn)品一直都是基于云來向客戶提供服務(wù)的(可以對接aws, gcp, azure等云平臺),如 cloudera 不斷探索改變自己的商業(yè)模式(從大數(shù)據(jù)三駕馬車的輝煌期,到業(yè)績下滑下的和 hortorworks的合并,再到主動(dòng)改變商業(yè)模式基于云來交付自己的產(chǎn)品和服務(wù),甚至數(shù)據(jù)中心版的大數(shù)據(jù)平臺都改名為了 cdp private cloud base);
四是各個(gè)具體的大數(shù)據(jù)組件都在主動(dòng)改變自身架構(gòu),積極向云原生靠攏以“云化”:從理念層面講,大數(shù)據(jù)已經(jīng)從最早的強(qiáng)調(diào)“數(shù)據(jù)本地性”和“移動(dòng)數(shù)據(jù)不如移動(dòng)計(jì)算”的理念,演進(jìn)到了現(xiàn)在的強(qiáng)調(diào)“存儲(chǔ)計(jì)算分離”的理念。各個(gè)新推出的組件和框架主動(dòng)擁抱云原生,如pulsa,TiDB等都是依托于存儲(chǔ)計(jì)算分離的云原生架構(gòu); 各個(gè)傳統(tǒng)的組件雖然有歷史包袱,也在不斷求新求變,如flink/spark都深度整合支持了kubernetes集群模式;如kafka也在不斷探索如花云化:包括完全去掉zookeeper依賴,包括Rebalance Protocol的 Static Membership等;正如古語所言,“順則昌不順則亡”,一些不適應(yīng)云原生架構(gòu)的技術(shù)組件,其市場正在不斷萎縮,如很多場景下,kubernetes都替代了yarn, 對象存儲(chǔ)oss/s3等也在替代hdfs (我們也注意到了apache 社區(qū)推出的Ozone,該組件在對象存儲(chǔ)的基礎(chǔ)上,也融合推出了文件系統(tǒng)api,該組件的背后有很多原h(huán)dfs社區(qū)的committer在貢獻(xiàn)代碼,在cloudera的cdp平臺中也內(nèi)嵌支持了該組件)。下圖展示了flink/spark跟kubernetes的深度整合:(注意不是簡單的使用k8s operator將spark/flink作業(yè)運(yùn)行在k8s集群中,而是native的深度的整合)
參考鏈接
http://spark.apache.org/docs/latest/running-on-kubernetes.html
https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/resource-providers/native_kubernetes.html
https://aws.amazon.com/
https://www.confluent.io/blog/kafka-rebalance-protocol-static-membership/