盲目追“數(shù)據(jù)中臺(tái)”,遲早藥丸!
數(shù)據(jù)中臺(tái)這個(gè)概念已逐步火了起來(lái),但數(shù)據(jù)中臺(tái)是什么?我該建數(shù)倉(cāng)、大數(shù)據(jù)平臺(tái)還是數(shù)據(jù)中臺(tái)?相信看完這篇,你會(huì)有個(gè)清醒的認(rèn)識(shí)!
圖片來(lái)自 Pexels
現(xiàn)在各種新名詞層出不窮:
- 頂層的有數(shù)字城市、智慧地球、智慧城市、城市大腦;
- 企業(yè)層面的有數(shù)字化轉(zhuǎn)型、互聯(lián)網(wǎng)經(jīng)濟(jì),數(shù)字經(jīng)濟(jì)、數(shù)字平臺(tái);
- 平臺(tái)層面的有物聯(lián)網(wǎng),云計(jì)算,大數(shù)據(jù),5G,人工智能,機(jī)器智能,深度學(xué)習(xí),知識(shí)圖譜;
- 技術(shù)層面的有數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)、業(yè)務(wù)中臺(tái)、技術(shù)中臺(tái)等等。
總之是你方唱罷他登場(chǎng),各種概念滿(mǎn)天飛!在比拼新經(jīng)濟(jì)的過(guò)程中,其實(shí)比拼的是流量也就是用戶(hù),但流量不等于用戶(hù),用戶(hù)也不完全等同于流量;有了流量和用戶(hù),就等于比拼了對(duì)用戶(hù)的話(huà)語(yǔ)權(quán)。
各種互聯(lián)網(wǎng)概念也是如此,單純從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)或是大數(shù)據(jù)平臺(tái)而言,金融或通信運(yùn)營(yíng)商在數(shù)據(jù)治理、數(shù)據(jù)管理、企業(yè)模型、應(yīng)用效能、高可靠性上做的絕對(duì)不比 BAT 差的。
但這些行業(yè)有著國(guó)企的內(nèi)斂、同時(shí)承擔(dān)了太多的安全、隱私、穩(wěn)定要求,空有用戶(hù)和數(shù)據(jù),卻很難對(duì)外發(fā)揮應(yīng)有的作用,導(dǎo)致在整個(gè)信息技術(shù)行業(yè)內(nèi)的話(huà)語(yǔ)權(quán)不高。
互聯(lián)網(wǎng)公司在對(duì)數(shù)據(jù)使用的靈活性、技術(shù)的前瞻性、經(jīng)濟(jì)效益的引導(dǎo)性、適度容錯(cuò)方面做的遠(yuǎn)遠(yuǎn)超出其他行業(yè),所以行業(yè)之間的相互吸收和借鑒也是值得探討的。
新名詞的推出,要被大眾所能接受,在背后是要有話(huà)語(yǔ)權(quán)支撐的,而目的當(dāng)然只有利益了,也不排除個(gè)別技術(shù)人員自己美好的想法和初衷。
數(shù)據(jù)中臺(tái)的初衷
回到正文,不管怎么說(shuō),數(shù)據(jù)中臺(tái)這個(gè)概念已逐步火了起來(lái),但數(shù)據(jù)中臺(tái)是什么?我總結(jié)了如下五點(diǎn):
①數(shù)據(jù)中臺(tái)是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務(wù),提供給前臺(tái)以業(yè)務(wù)價(jià)值的邏輯概念。
②數(shù)據(jù)中臺(tái)是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來(lái)”的機(jī)制,一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過(guò)有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機(jī)制。
③數(shù)據(jù)中臺(tái)連接數(shù)據(jù)前臺(tái)和后臺(tái),突破數(shù)據(jù)局限,為企業(yè)提供更靈活、高效、低成本的數(shù)據(jù)分析挖掘服務(wù),避免企業(yè)為滿(mǎn)足具體某部門(mén)某種數(shù)據(jù)分析需求而投放大量高成本、重復(fù)性的數(shù)據(jù)開(kāi)發(fā)成本。
④數(shù)據(jù)中臺(tái)是指通過(guò)數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺(tái)把數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲(chǔ),形成大數(shù)據(jù)資產(chǎn)層,進(jìn)而為客戶(hù)提供高效服務(wù)。
⑤數(shù)據(jù)中臺(tái),包括平臺(tái)、工具、數(shù)據(jù)、組織、流程、規(guī)范等一切與企業(yè)數(shù)據(jù)資產(chǎn)如何用起來(lái)所相關(guān)的。
以上概念是從互聯(lián)網(wǎng)上搜索并拷貝出來(lái)的,總的來(lái)說(shuō)中臺(tái)也好,數(shù)據(jù)中臺(tái)也好,還缺乏一個(gè)標(biāo)準(zhǔn)的定義,僅從字面上理解,數(shù)據(jù)中臺(tái)是解決如何用好數(shù)據(jù)的問(wèn)題。
既然是概念,數(shù)據(jù)中臺(tái)也被賦予了很多擴(kuò)大的外延,也上升到了數(shù)據(jù)的采集、計(jì)算、存儲(chǔ)、加工和數(shù)據(jù)治理等方面,這就和傳統(tǒng)的大數(shù)據(jù)平臺(tái)在功能和作用上產(chǎn)生了很大的重疊。
而大數(shù)據(jù)平臺(tái)又是從數(shù)據(jù)倉(cāng)庫(kù)發(fā)展起來(lái)的。那到底這三者的關(guān)系是怎么樣的呢?
本人從事斷斷續(xù)續(xù)從事數(shù)據(jù)倉(cāng)庫(kù)行業(yè)約有五六年經(jīng)驗(yàn),完整的負(fù)責(zé)大數(shù)據(jù)平臺(tái)的整體設(shè)計(jì)架構(gòu)和項(xiàng)目實(shí)施也有四五年經(jīng)驗(yàn),見(jiàn)證了從傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)型到大數(shù)據(jù)平臺(tái)的全歷程。
包括第一個(gè) MPP 數(shù)據(jù)集市、第一個(gè) Hadoop 集群項(xiàng)目、第一個(gè)流式數(shù)據(jù)處理項(xiàng)目,第一個(gè)完整的大數(shù)據(jù)平臺(tái)的融合和構(gòu)建,混搭式大數(shù)據(jù)平臺(tái)的融合構(gòu)建,大數(shù)據(jù)平臺(tái)的遷移等等。
我所經(jīng)歷的大數(shù)據(jù)平臺(tái)從規(guī)模說(shuō)大不大說(shuō)小不小,每天處理數(shù)據(jù)量將近 20T(實(shí)時(shí)處理月 10T 左右),總集群約 300 臺(tái)(其中 Hadoop 節(jié)點(diǎn)約 200 臺(tái)),總?cè)萘考s 8P,實(shí)際使用容量約 5P。
包括了從數(shù)據(jù)倉(cāng)庫(kù)到大數(shù)據(jù)平臺(tái)數(shù)據(jù)模型的重構(gòu),數(shù)據(jù)模型的拓展;也包括了大數(shù)據(jù)平臺(tái)提供各種對(duì)內(nèi)應(yīng)用的規(guī)劃,和向外提供大數(shù)據(jù)應(yīng)用。
因此對(duì)數(shù)據(jù)倉(cāng)庫(kù)和大數(shù)據(jù)平臺(tái)的優(yōu)缺點(diǎn)、各自存在的問(wèn)題、疑惑、發(fā)展方向,也算有一定的認(rèn)知,包括對(duì)新生的數(shù)據(jù)中臺(tái)的發(fā)展方向,結(jié)合自己過(guò)往的經(jīng)驗(yàn),談?wù)勛约旱囊恍┫敕ā?/p>
按照傳統(tǒng)的定義,數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
從數(shù)據(jù)角度,數(shù)據(jù)倉(cāng)庫(kù)更適合傳統(tǒng)的數(shù)據(jù)庫(kù),離線(xiàn)采集,數(shù)據(jù)一般為結(jié)構(gòu)化的,每天處理數(shù)據(jù)量不易超過(guò) TB 集,數(shù)據(jù)倉(cāng)庫(kù)一般在數(shù)十 T 到幾百 T 以?xún)?nèi)。
數(shù)據(jù)倉(cāng)庫(kù)一般為滿(mǎn)足內(nèi)生的應(yīng)用,滿(mǎn)足內(nèi)部決策支持分析需求,當(dāng)然隨著數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)采集的要求越來(lái)越高,數(shù)據(jù)倉(cāng)庫(kù)本身也在不斷的改進(jìn)。
從單機(jī)的 ETL 到集群的 ETL,從傳統(tǒng)的小機(jī)+DB,向 PC 服務(wù)器+分布式 DB 拓展。
數(shù)據(jù)治理也逐漸增強(qiáng),從元數(shù)據(jù)管理到數(shù)據(jù)質(zhì)量管理,再到數(shù)據(jù)運(yùn)維管控和數(shù)據(jù)安全管控。
但其實(shí)數(shù)據(jù)倉(cāng)庫(kù)給企業(yè)留下的最大財(cái)富是企業(yè)數(shù)據(jù)模型,這些模型隨著前端業(yè)務(wù)系統(tǒng)的發(fā)展變化,不斷變革,不斷追加,不斷豐富和完善。
即使系統(tǒng)不再了,也可以在短期內(nèi)快速重建起來(lái),這也是大數(shù)據(jù)平臺(tái)能夠快速建設(shè)起來(lái)的一個(gè)重要原因。
大數(shù)據(jù)平臺(tái)則是指以處理海量數(shù)據(jù)存儲(chǔ)、計(jì)算及流數(shù)據(jù)實(shí)時(shí)計(jì)算等場(chǎng)景為主的一套基礎(chǔ)設(shè)施,包括了統(tǒng)一的數(shù)據(jù)采集中心、數(shù)據(jù)計(jì)算和存儲(chǔ)中心、數(shù)據(jù)治理中心、運(yùn)維管控中心、開(kāi)放共享中心和應(yīng)用中心。
大數(shù)據(jù)平臺(tái)之所以能夠建設(shè)起來(lái),不外乎內(nèi)因和外因:
- 外因是棱鏡門(mén)事件帶來(lái)的去 IOE 要求、外部硬件的變革和分布式開(kāi)源技術(shù)的涌現(xiàn)。
- 內(nèi)因是非結(jié)構(gòu)化、實(shí)時(shí)數(shù)據(jù)和海量數(shù)據(jù)的計(jì)算和存儲(chǔ)壓力,企業(yè)也寄希望從大數(shù)據(jù)平臺(tái)除了滿(mǎn)足對(duì)內(nèi)需求,也能夠?qū)崿F(xiàn)一定的對(duì)外收益。
大數(shù)據(jù)平臺(tái)的建設(shè)出發(fā)點(diǎn)是節(jié)約投資降低成本,但實(shí)際上無(wú)論從硬件投資還是從軟件開(kāi)發(fā)上都遠(yuǎn)遠(yuǎn)超過(guò)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)。
大量的硬件和各種開(kāi)源技術(shù)的組合,增加了研發(fā)的難度、調(diào)測(cè)部署的周期、運(yùn)維的復(fù)雜度,人力上的投入已是最初的幾倍。
還有很多技術(shù)上的困難也非一朝一夕能夠突破,但無(wú)論如何大數(shù)據(jù)平臺(tái)還是建設(shè)起來(lái)了,人員能力也在不斷成長(zhǎng)。
大數(shù)據(jù)平臺(tái)解決了海量數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的計(jì)算和存儲(chǔ),也基于原來(lái)的企業(yè)數(shù)據(jù)模型實(shí)現(xiàn)了重構(gòu),但也面臨著一系列的問(wèn)題。
首先是數(shù)據(jù)的應(yīng)用問(wèn)題,無(wú)論是數(shù)據(jù)倉(cāng)庫(kù)還是大數(shù)據(jù)平臺(tái),里面包含了接口層數(shù)據(jù)、存儲(chǔ)層數(shù)據(jù)、輕度匯總層、重度匯總層、模型層數(shù)據(jù)、報(bào)表層數(shù)據(jù)等等。
各種各樣的表有成千上萬(wàn),這些表有的是中間處理過(guò)程,有些是一次性的報(bào)表,不同表之間的數(shù)據(jù)一致性和口徑也會(huì)不同,而且不同的表不同的字段對(duì)數(shù)據(jù)安全要求級(jí)別也不同。
此外還要考慮多租戶(hù)的資源安全管理,如何讓內(nèi)部開(kāi)發(fā)者快速獲取所需的數(shù)據(jù)資產(chǎn)目錄,如何閱讀相關(guān)數(shù)據(jù)的來(lái)龍去脈,如何快速的實(shí)現(xiàn)開(kāi)發(fā),這些在大數(shù)據(jù)平臺(tái)建設(shè)初期沒(méi)有考慮周全。
另外一個(gè)問(wèn)題是對(duì)外應(yīng)用,隨著大數(shù)據(jù)平臺(tái)的應(yīng)用建設(shè),每一個(gè)對(duì)外應(yīng)用都采用單一的數(shù)據(jù)庫(kù)加單一應(yīng)用建設(shè)模式,獨(dú)立考慮網(wǎng)絡(luò)安全、數(shù)據(jù)安全、共享安全,逐漸又走向了煙囪似的開(kāi)發(fā)道路。
數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)了企業(yè)數(shù)據(jù)模型的構(gòu)建,大數(shù)據(jù)平臺(tái)解決了海量、實(shí)時(shí)數(shù)據(jù)的計(jì)算和存儲(chǔ)問(wèn)題,數(shù)據(jù)中臺(tái)要解決什么呢?
數(shù)據(jù)如何安全的、快速的、最小權(quán)限的、且能夠溯源的被探測(cè)和快速應(yīng)用的問(wèn)題。
數(shù)據(jù)中臺(tái)不應(yīng)該被過(guò)度的承載平臺(tái)的計(jì)算、存儲(chǔ)、加工任務(wù),而是應(yīng)該放在解決企業(yè)邏輯模型的搭建和存儲(chǔ)、數(shù)據(jù)標(biāo)準(zhǔn)的建立、數(shù)據(jù)目錄的梳理、數(shù)據(jù)安全的界定、數(shù)據(jù)資產(chǎn)的開(kāi)放,知識(shí)圖譜的構(gòu)建。
通過(guò)一系列工具、組織、流程、規(guī)范,實(shí)現(xiàn)數(shù)據(jù)前臺(tái)和后臺(tái)的連接,突破數(shù)據(jù)局限,為企業(yè)提供更靈活、高效、低成本的數(shù)據(jù)分析挖掘服務(wù),避免企業(yè)為滿(mǎn)足具體某部門(mén)某種數(shù)據(jù)分析需求而投放大量高成本、重復(fù)性的數(shù)據(jù)開(kāi)發(fā)成本。
厚平臺(tái),大中臺(tái),小前臺(tái);沒(méi)有基礎(chǔ)厚實(shí)笨重的大數(shù)據(jù)平臺(tái),是不可能構(gòu)建數(shù)據(jù)能力強(qiáng)大、功能強(qiáng)大的數(shù)據(jù)中臺(tái)的;沒(méi)有大數(shù)據(jù)中臺(tái),要迅速搭建小快靈的小前臺(tái)也只是理想化的。
我想這才是數(shù)據(jù)中臺(tái)的初衷。
該建數(shù)倉(cāng)、大數(shù)據(jù)平臺(tái)還是數(shù)據(jù)中臺(tái)?
下文是對(duì)數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)的一些總結(jié)性的架構(gòu)材料,也是對(duì)自己這些年來(lái)的一些匯總和思考,看懂了前面的文字,后面的各種架構(gòu)圖也就無(wú)需贅述了。
數(shù)據(jù)倉(cāng)庫(kù)硬件架構(gòu)圖
數(shù)據(jù)倉(cāng)庫(kù)功能架構(gòu)圖
數(shù)據(jù)倉(cāng)庫(kù)技術(shù)架構(gòu)
第一個(gè) Hadoop 平臺(tái)硬件架構(gòu)
主要是為了解決海量離線(xiàn)數(shù)據(jù)的計(jì)算和存儲(chǔ),在 Hadoop 集群中實(shí)現(xiàn)明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)存儲(chǔ),在 MySQL 中實(shí)現(xiàn)報(bào)表數(shù)據(jù)存儲(chǔ)。
第一個(gè)流式處理平臺(tái)硬件架構(gòu)
主要是為了解決海量實(shí)時(shí)數(shù)據(jù)的流式采集和計(jì)算,在 Hadoop 集群中實(shí)現(xiàn)明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)存儲(chǔ),在 MySQL 中實(shí)現(xiàn)報(bào)表數(shù)據(jù)存儲(chǔ);并通過(guò)實(shí)時(shí)事件處理集群實(shí)現(xiàn)流式事件的匹配。
對(duì)于大數(shù)據(jù)平臺(tái)各種軟硬件各種組件的規(guī)劃,如下圖:
大數(shù)據(jù)平臺(tái)系統(tǒng)規(guī)劃
大數(shù)據(jù)平臺(tái)系統(tǒng)定位
大數(shù)據(jù)平臺(tái)邏輯部署架構(gòu)
大數(shù)據(jù)平臺(tái)功能視圖
大數(shù)據(jù)平臺(tái)數(shù)據(jù)流向
大數(shù)據(jù)平臺(tái)對(duì)內(nèi)硬件架構(gòu)
大數(shù)據(jù)平臺(tái)整體硬件架構(gòu)
數(shù)據(jù)中臺(tái)整體架構(gòu)
作者:王保強(qiáng)
編輯:陶家龍
出處:轉(zhuǎn)載自微信公眾號(hào)追夢(mèng) IT 人(ID:baoqiangwang2020)