數(shù)據(jù)中臺建設(shè)之路
原創(chuàng)作者 | 涂承燁
1、什么是數(shù)據(jù)中臺
隨著企業(yè)數(shù)字化轉(zhuǎn)型的加速,數(shù)據(jù)中臺的概念逐已為大家所熟知,政企對數(shù)據(jù)中臺的建設(shè)需求逐漸加大。
數(shù)據(jù)中臺是對既有/新建信息化系統(tǒng)業(yè)務(wù)與數(shù)據(jù)的沉淀,是實現(xiàn)數(shù)據(jù)賦能新業(yè)務(wù)、新應(yīng)用的中間、支撐性平臺。
數(shù)據(jù)中臺是在政企數(shù)字化轉(zhuǎn)型過程中,對各業(yè)務(wù)單元業(yè)務(wù)與數(shù)據(jù)的沉淀,構(gòu)建包括數(shù)據(jù)技術(shù)、數(shù)據(jù)治理、數(shù)據(jù)運營等數(shù)據(jù)建設(shè)、管理、使用體系,實現(xiàn)數(shù)據(jù)賦能。數(shù)據(jù)中臺,是新型信息化應(yīng)用框架體系中的核心。
然而,對于很多人來說,數(shù)據(jù)中臺仍然是一個模糊的概念。
Gartner:數(shù)據(jù)中臺的建設(shè)方向應(yīng)該處于企業(yè)數(shù)字化平臺的核心,即Gartner定義的數(shù)據(jù)和分析平臺,幫助企業(yè)的數(shù)字化平臺(客戶體驗平臺,生態(tài)系統(tǒng)平臺,物聯(lián)網(wǎng)平臺和內(nèi)部信息系統(tǒng))的業(yè)務(wù)用戶做出更好的決策,并在各個數(shù)字化平臺的合作孵化下形成可復(fù)用的數(shù)據(jù)分析能力。數(shù)據(jù)分析能力應(yīng)該在業(yè)務(wù)端無處不在且高度自助,最終助力數(shù)字化平臺實現(xiàn)Gartner定義的封裝的業(yè)務(wù)能力 (Packaged Business Capability)。
Alibaba:通過OneModel、OneID、OneService,實現(xiàn)數(shù)據(jù)的統(tǒng)一,即OneData。其中OneModel統(tǒng)一數(shù)據(jù)構(gòu)建及管理,完全消除數(shù)據(jù)二意性,實現(xiàn)分鐘級代碼自生成;OneID是將核心商業(yè)要素資產(chǎn)化,實現(xiàn)數(shù)據(jù)的全域連接、標(biāo)簽萃取、立體像;OneService則統(tǒng)一數(shù)據(jù)服務(wù),以主題式服務(wù)輸出,簡化了數(shù)據(jù)查詢。
星環(huán)科技:數(shù)據(jù)中臺讓企業(yè)高效數(shù)據(jù)驅(qū)動,適配企業(yè)主營、創(chuàng)新、孵化業(yè)務(wù)快速變化,支撐企業(yè)數(shù)字化轉(zhuǎn)型。通過統(tǒng)一底層架構(gòu),統(tǒng)一數(shù)據(jù)治理,統(tǒng)一數(shù)據(jù)服務(wù),以及個性化數(shù)據(jù)應(yīng)用,最終實現(xiàn)整個企業(yè)數(shù)據(jù)資產(chǎn)化、資產(chǎn)價值化、價值個性化。
因此,不同的廠商,甚至同廠商不同的團(tuán)隊/人對于數(shù)據(jù)中臺的定義/主推方案都難以統(tǒng)一。中臺的本質(zhì):大數(shù)據(jù)?數(shù)倉?數(shù)據(jù)湖?數(shù)據(jù)治理?數(shù)據(jù)服務(wù)?云平臺?......
2、數(shù)字化轉(zhuǎn)型時代下的數(shù)字化管理需求
《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》要求以數(shù)據(jù)為關(guān)鍵要素,以數(shù)字技術(shù)與實體經(jīng)濟(jì)深度融合為主線,加強(qiáng)數(shù)字基礎(chǔ)設(shè)施建設(shè),完善數(shù)字經(jīng)濟(jì)治理體系,協(xié)同推進(jìn)數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化,賦能傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,培育新產(chǎn)業(yè)新業(yè)態(tài)新模式,不斷做強(qiáng)做優(yōu)做大我國數(shù)字經(jīng)濟(jì),為構(gòu)建數(shù)字中國提供有力支撐。
而企業(yè)的數(shù)字化轉(zhuǎn)型需要一個“數(shù)字大腦”的提升,包括存算能力、治理能力、服務(wù)能力、個性應(yīng)用。
這意味著:
- 需要統(tǒng)一的數(shù)據(jù)底座
開源大數(shù)據(jù)混合架構(gòu)在處理解決不同類型的業(yè)務(wù)時,需要將數(shù)據(jù)存放入不同的數(shù)據(jù)庫中,大量數(shù)據(jù)冗余。煙囪式的開發(fā)方式導(dǎo)致了需要通過不同的查詢方式獲取到對應(yīng)的數(shù)據(jù)后再進(jìn)行處理,開發(fā)復(fù)雜并且處理效率低下。
- 需要統(tǒng)一的數(shù)據(jù)治理
數(shù)據(jù)治理有4個問題需要解決:有什么數(shù)據(jù),數(shù)據(jù)在哪里,數(shù)據(jù)從哪來,數(shù)據(jù)誰在用。缺乏統(tǒng)一的數(shù)據(jù)治理會導(dǎo)致數(shù)據(jù)質(zhì)量低,不具備可用性、一致性、完整性、合規(guī)性和安全性。
- 需要統(tǒng)一的數(shù)據(jù)服務(wù)
每當(dāng)有一個新的業(yè)務(wù)需求或者數(shù)據(jù)使用需求時,開發(fā)人員都需要從底層基礎(chǔ)數(shù)據(jù)開始加工,逐層開發(fā),直到最后完成數(shù)據(jù)服務(wù),整個開發(fā)周期長,并且煙囪式的開發(fā)方式導(dǎo)致了數(shù)據(jù)服務(wù)無法直接復(fù)用。
- 需要敏捷靈活的個性應(yīng)用建設(shè)能力
新的業(yè)務(wù)系統(tǒng)建設(shè)需要有獨立的環(huán)境并且獲取需要的數(shù)據(jù)來進(jìn)行測試與上線,整個環(huán)境準(zhǔn)備、數(shù)據(jù)準(zhǔn)備、應(yīng)用開發(fā)的建設(shè)流程繁復(fù),負(fù)責(zé)統(tǒng)建的科技部門通常成為資源瓶頸,缺乏統(tǒng)一的應(yīng)用管理導(dǎo)致應(yīng)用不具備可復(fù)用性。
3、數(shù)據(jù)中臺轉(zhuǎn)型之痛
但是,數(shù)據(jù)中臺如果未經(jīng)過系統(tǒng)規(guī)劃,以業(yè)務(wù)為導(dǎo)向,不同業(yè)務(wù)選型不同的技術(shù)組件和工具,會導(dǎo)致數(shù)據(jù)中臺建設(shè)混亂。大部分業(yè)務(wù)只使用了貼源層,在貼源層上煙囪式建設(shè),造成數(shù)據(jù)煙囪、工具煙囪、服務(wù)煙囪,從而導(dǎo)致開發(fā)團(tuán)隊疲于應(yīng)付各種技術(shù)組件的運維,和具體業(yè)務(wù)的數(shù)據(jù)模型請求,沒有精力做更有價值的工作,如技術(shù)提升、共性數(shù)據(jù)模型抽象、數(shù)據(jù)服務(wù)梳理、應(yīng)用開發(fā)等。
4、數(shù)據(jù)中臺的演進(jìn)
因此,數(shù)據(jù)中臺的建設(shè)一般會歷經(jīng)3個版本的演進(jìn)之路,從而實現(xiàn)“釋放數(shù)據(jù)生產(chǎn)力,改善數(shù)據(jù)生產(chǎn)關(guān)系”的目標(biāo)。
數(shù)據(jù)中臺1.0:混合底層架構(gòu) + 統(tǒng)一工具層
這是大多數(shù)企業(yè),特別是中小型企業(yè)下意識、喜歡采用的方式。但這個方式帶來的建設(shè)成效一般,正如徐志勝所說“年輕人總要走一些彎路,才能到達(dá)彼岸!”。
數(shù)據(jù)中臺2.0:統(tǒng)一底層架構(gòu),全域數(shù)據(jù)集成,統(tǒng)一數(shù)據(jù)底座
在貫穿整個企業(yè)的價值鏈活動中,統(tǒng)一底層架構(gòu)提升存算效能,統(tǒng)一數(shù)據(jù)治理構(gòu)建數(shù)據(jù)資產(chǎn),統(tǒng)一數(shù)據(jù)服務(wù)激活數(shù)據(jù)價值,最終讓企業(yè)高效數(shù)據(jù)驅(qū)動,支撐企業(yè)數(shù)字化轉(zhuǎn)型。
數(shù)據(jù)中臺3.0:敏捷應(yīng)用開發(fā)模式,貫穿價值鏈路,高效數(shù)據(jù)驅(qū)動
基于2.0已經(jīng)存在的數(shù)據(jù)底座,建設(shè)統(tǒng)一的數(shù)據(jù)治理構(gòu)建數(shù)據(jù)資產(chǎn),統(tǒng)一數(shù)據(jù)服務(wù)激活數(shù)據(jù)價值,最終讓企業(yè)高效數(shù)據(jù)驅(qū)動,適配企業(yè)個性化主營、創(chuàng)新、孵化業(yè)務(wù)等數(shù)據(jù)應(yīng)用的快速變化,支撐企業(yè)數(shù)字化轉(zhuǎn)型。
5、數(shù)據(jù)中臺的建設(shè)思路
5.1建設(shè)目標(biāo)
那么,數(shù)據(jù)中臺應(yīng)該以什么個思路推進(jìn)建設(shè)呢?
建設(shè)“統(tǒng)一接入、統(tǒng)一存儲、統(tǒng)一治理、統(tǒng)一開發(fā)、統(tǒng)一服務(wù)”的大數(shù)據(jù)中臺,以實現(xiàn)多源數(shù)據(jù)的統(tǒng)一歸集,業(yè)務(wù)數(shù)據(jù)的統(tǒng)一治理,內(nèi)部和生態(tài)應(yīng)用的統(tǒng)一支撐,同時降低使用門檻,具有服務(wù)自助、數(shù)據(jù)自治、平臺自理的能力,實現(xiàn)三個一(一個智能化的分析運營生態(tài)、一套常態(tài)化的精益治理體系、一個集約化的數(shù)據(jù)平臺底座)為建設(shè)目標(biāo)。
數(shù)據(jù)中臺應(yīng)集成企業(yè)數(shù)據(jù)治理和管理、數(shù)據(jù)資產(chǎn)開發(fā)和運營并串聯(lián)和驅(qū)動數(shù)據(jù)共享與服務(wù)、數(shù)據(jù)開發(fā)與運維的理念和最佳實踐方法,整體功能框架應(yīng)與企業(yè)數(shù)據(jù)治理體系框架一致,建成后能夠?qū)φ麄€數(shù)字化管理工作起到良好的技術(shù)支撐作用。
5.2建設(shè)內(nèi)容
在數(shù)據(jù)中臺建設(shè)內(nèi)容上,一般包括如下幾部分:
大數(shù)據(jù)基礎(chǔ)平臺,為整個大數(shù)據(jù)中臺提供分析計算和存儲的引擎和工具,是大數(shù)據(jù)中臺的底層功能支撐。提供分布式數(shù)據(jù)倉庫、分布式NoSQL數(shù)據(jù)庫、實時計算、數(shù)據(jù)檢索、數(shù)據(jù)挖掘等組件。
數(shù)據(jù)開發(fā)治理工具(平臺),提供數(shù)據(jù)接入、數(shù)據(jù)開發(fā)、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)、數(shù)據(jù)管理等組件為大數(shù)據(jù)中臺的開發(fā)進(jìn)行支撐。從而,從數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)存儲、數(shù)據(jù)治理到數(shù)據(jù)共享與服務(wù),為大數(shù)據(jù)中臺建立起整個數(shù)據(jù)開發(fā)共享體系。
5.2.1大數(shù)據(jù)基礎(chǔ)平臺
基于多模型統(tǒng)一技術(shù)架構(gòu),提供統(tǒng)一的接口層、統(tǒng)一的計算引擎層、統(tǒng)一的分布式存儲管理層和統(tǒng)一的資源調(diào)度層,在保障不同數(shù)據(jù)模型高性能、高可靠、高可用的同時,實現(xiàn)了資源配置更靈活、操作運維更簡潔易用的目標(biāo)。
大數(shù)據(jù)基礎(chǔ)平臺能夠為整個數(shù)據(jù)中臺提供分析計算和存儲的引擎和工具,是大數(shù)據(jù)中臺的底層功能支撐。它需要為數(shù)據(jù)倉庫的構(gòu)建提供高性能、高穩(wěn)定、高可用的數(shù)據(jù)庫軟件,并通過提供離線處理、流處理、全文檢索、數(shù)據(jù)挖掘等組件。
根據(jù)平臺底層存儲設(shè)計和平臺業(yè)務(wù)特性分析,建議采用Hadoop生態(tài)體系進(jìn)行大數(shù)據(jù)基礎(chǔ)平臺的方案設(shè)計。所建設(shè)的大數(shù)據(jù)基礎(chǔ)平臺需能夠以產(chǎn)品組件、引擎或工具的形式滿足包括但不限于以下海量數(shù)據(jù)的大規(guī)模處理與分析場景:離線批處理、實時流處理分析、數(shù)據(jù)并發(fā)查詢、全文檢索、數(shù)據(jù)挖掘、BI分析、交互式分析等;所建設(shè)的大數(shù)據(jù)基礎(chǔ)平臺需既能夠處理結(jié)構(gòu)化的數(shù)據(jù),也能夠處理非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),滿足配置、日志、網(wǎng)頁、音視頻、IoT、網(wǎng)絡(luò)爬蟲等多源異構(gòu)數(shù)據(jù)的加載和存儲;平臺需提供完整的多租戶功能,對于計算資源與存儲資源以及數(shù)據(jù)訪問資源進(jìn)行統(tǒng)一控制管理,對于計算資源進(jìn)行高效的調(diào)度管理與使用控制,對于存儲資源進(jìn)行配額管理,對于數(shù)據(jù)訪問進(jìn)行嚴(yán)格的權(quán)限管理;平臺需提供統(tǒng)一的可視化運維監(jiān)控界面,對安裝、配置、監(jiān)控、告警方面進(jìn)行運維管理。
5.2.2數(shù)據(jù)開發(fā)治理工具
數(shù)據(jù)開發(fā)治理平臺技術(shù)架構(gòu)是以Docker+Kubernetes為基礎(chǔ),并且采用微服務(wù)開發(fā)框架,實現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)開發(fā)、任務(wù)調(diào)度、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)、數(shù)據(jù)商城等可視化操作工具。
5.2.3建設(shè)步驟
以星環(huán)的數(shù)據(jù)中臺產(chǎn)品為例,可采用如下建設(shè)步驟:
1.中臺規(guī)劃
建設(shè)統(tǒng)一的數(shù)據(jù)底座(統(tǒng)一資源管理、統(tǒng)一存儲管理、統(tǒng)一計算引擎、統(tǒng)一查詢語言),構(gòu)建數(shù)據(jù)集市、數(shù)據(jù)倉庫、數(shù)據(jù)湖;建設(shè)統(tǒng)一的數(shù)據(jù)治理,構(gòu)建數(shù)據(jù)資產(chǎn);建設(shè)統(tǒng)一的數(shù)據(jù)服務(wù),激活數(shù)據(jù)價值,最終讓企業(yè)高效數(shù)據(jù)驅(qū)動,適配企業(yè)個性化主營、創(chuàng)新、孵化業(yè)務(wù)等數(shù)據(jù)應(yīng)用的快速變化,支撐企業(yè)數(shù)字化轉(zhuǎn)型。
2.平臺部署
通過云原生操作系統(tǒng)及數(shù)據(jù)管理平臺,統(tǒng)一納管異構(gòu)處理器(X86、ARM)、GPU和異構(gòu)的操作系統(tǒng)(UOS、中標(biāo)麒麟、銀河麒麟),支持信創(chuàng)、國產(chǎn)化的要求。
通過屏蔽底層技術(shù)架構(gòu),提供統(tǒng)一的資源層給云產(chǎn)品,只暴露資源的CPU架構(gòu),為數(shù)據(jù)中臺的系統(tǒng)提供良好的部署環(huán)境。
3.數(shù)據(jù)接入與運營
通過企業(yè)級的數(shù)據(jù)開發(fā)與管控能力和多模態(tài)的大數(shù)據(jù)處理能力,提升企業(yè)構(gòu)建數(shù)據(jù)湖、數(shù)據(jù)中臺、數(shù)據(jù)倉庫等系統(tǒng)的效率,更高效的實現(xiàn)數(shù)據(jù)的資產(chǎn)化和數(shù)據(jù)業(yè)務(wù)化。
4.應(yīng)用支持
由業(yè)務(wù)用戶需求出發(fā)賦能業(yè)務(wù)用戶,自主敏捷建設(shè)個性應(yīng)用。
5.運維管理
通過設(shè)計流程,規(guī)范資產(chǎn)申請流程、數(shù)據(jù)入湖流程、數(shù)據(jù)入倉流程,提供監(jiān)控告警、數(shù)據(jù)安全防護(hù)功能,實現(xiàn)對平臺的全方位運維。
6、結(jié)尾
風(fēng)正潮平,自當(dāng)揚帆破浪;任重道遠(yuǎn),更須奮鞭策馬。
隨著數(shù)字化轉(zhuǎn)型的深入推進(jìn),數(shù)據(jù)中臺作為企業(yè)數(shù)據(jù)管理的重要基礎(chǔ)設(shè)施,其未來發(fā)展前景廣闊。
數(shù)據(jù)中臺的未來發(fā)展將更加注重實時化、智能化、云原生化、泛在化和安全合規(guī)等方面。企業(yè)需要緊跟技術(shù)發(fā)展趨勢,不斷升級和完善數(shù)據(jù)中臺的建設(shè)和應(yīng)用,以更好地支撐企業(yè)的數(shù)字化轉(zhuǎn)型和發(fā)展。
作者介紹
涂承燁,51CTO社區(qū)編輯,省政府采購專家、省綜合性評標(biāo)專家、公 E 采招標(biāo)采購專家,獲得信息系統(tǒng)項目管理師、信息系統(tǒng)監(jiān)理師、PMP,CSPM-2等認(rèn)證,擁有15年以上的開發(fā)、項目管理、咨詢設(shè)計等經(jīng)驗。對項目管理、前后端開發(fā)、微服務(wù)、架構(gòu)設(shè)計、物聯(lián)網(wǎng)、大數(shù)據(jù)、咨詢設(shè)計等較為關(guān)注。