從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進化史
作為一名后端開發(fā)工程師,每天都離不開與數(shù)據(jù)打交道,有幸見證了數(shù)據(jù)技術(shù)從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪這一系列技術(shù)的演化過程。
在當今數(shù)據(jù)經(jīng)濟時代,數(shù)據(jù)已經(jīng)成為了我們必不可少的一部分,成為了關(guān)鍵的生產(chǎn)要素乃至是最有戰(zhàn)略意義的資產(chǎn)。
在這幾年的職業(yè)生涯當中,我親身經(jīng)歷了,企業(yè)對數(shù)據(jù)的使用方式從早期的Excel表格,到后來企業(yè)級的數(shù)據(jù)庫產(chǎn)品,再到云計算時代下的數(shù)據(jù)倉庫,到六七年前開始建設(shè)大一統(tǒng)的數(shù)據(jù)中臺,直至當今數(shù)智化和AI時代下衍生出來的數(shù)據(jù)飛輪,這是一場沒有終點的進化。
下面展示了整體演化的過程:
從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進化史_數(shù)據(jù)倉庫
圖中展示了初始數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪的整個層次演化。
一、數(shù)據(jù)庫時期
在最早期的互聯(lián)網(wǎng)時代下,數(shù)據(jù)庫主要的作用就是做數(shù)據(jù)的持久化存儲和簡單的數(shù)據(jù)查詢,項目前期的業(yè)務(wù)數(shù)據(jù)量不大,簡單的GB級別的數(shù)據(jù),后端數(shù)據(jù)庫只需要做數(shù)據(jù)查詢與展示就足夠了,沒有什么高并發(fā),批處理的情況下,做數(shù)據(jù)分析只需要用Excel就可以滿足需求。到后來數(shù)據(jù)量從GB發(fā)展到TB,數(shù)據(jù)庫進行大數(shù)據(jù)查詢的壓力提高,只能進行改造升級,這就有了后面數(shù)據(jù)倉庫的由來。
二、數(shù)據(jù)倉庫時期
隨著業(yè)務(wù)與數(shù)據(jù)量的增長,企業(yè)的組織架構(gòu)逐漸龐大,當時企業(yè)處理數(shù)據(jù)還是依靠傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,傳統(tǒng)企業(yè)級數(shù)據(jù)庫在處理事務(wù)上還是很出色,但是在復(fù)雜查詢或者數(shù)據(jù)分析的方面就感覺到了力不從心,因此為了解決這個問題,IBM等公司就提出了數(shù)據(jù)倉庫的概念。
我們可以根據(jù)下面這張圖看出,數(shù)據(jù)倉庫從底至上由四個層次組成:
從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進化史_數(shù)據(jù)_02
最底層就是最原始的數(shù)據(jù)層,通常是用來存放企業(yè)實時的業(yè)務(wù)數(shù)據(jù),這一層為數(shù)據(jù)倉庫提供了原始數(shù)據(jù),是整個數(shù)據(jù)倉庫的直接輸入源,沒有了這層的支持,數(shù)據(jù)倉庫也就失去了數(shù)據(jù)支持。第二層是一整個數(shù)據(jù)倉庫的核心,將第一層的數(shù)據(jù)進行抽取,轉(zhuǎn)換,加載,以確保數(shù)據(jù)的一致性與準確性,還能將數(shù)據(jù)進行聚合和匯總,以支持復(fù)雜的分析和報告,在這層處理的數(shù)據(jù)可以支持企業(yè)級的分析和決策,例如趨勢分析,預(yù)測分析等。第三層是數(shù)據(jù)集市的一個子集,它這里的數(shù)據(jù)通常是從數(shù)據(jù)倉庫中提取并進一步加工,以滿足特定的業(yè)務(wù)領(lǐng)域的分析需求,有可能包含數(shù)據(jù)的進一步聚合,匯總或特定格式的轉(zhuǎn)換,通常用于企業(yè)特定業(yè)務(wù)領(lǐng)域的深入分析,可以讓特定部門快速訪問到數(shù)據(jù),而不需要處理整個企業(yè)的數(shù)據(jù)。最頂層是用戶與數(shù)據(jù)倉庫的交互頁面,它包括報表工具,數(shù)據(jù)分析工具,數(shù)據(jù)可視化工具,它不直接處理數(shù)據(jù),而是基于數(shù)據(jù)倉庫或者數(shù)據(jù)集市進行數(shù)據(jù)的獲取,使得用戶可以根據(jù)自己的需求獲取數(shù)據(jù),即使是非技術(shù)用戶也能夠進行復(fù)雜的數(shù)據(jù)分析和報告生成。
三、數(shù)據(jù)中臺時期
由于數(shù)據(jù)量的指數(shù)級增長,為了能更好的賦能業(yè)務(wù),企業(yè)啟動中臺戰(zhàn)略,打通各個業(yè)務(wù)線的數(shù)據(jù),整合匯集數(shù)據(jù),在底層通過技術(shù)手段解決數(shù)據(jù)統(tǒng)一存儲和統(tǒng)一計算問題。
數(shù)據(jù)中臺的四個核心能力:
下面是數(shù)據(jù)中臺的整體架構(gòu)圖:
首先整體架構(gòu)圖的底層是由企業(yè)通過網(wǎng)絡(luò)進行資源整合,獲取到的數(shù)據(jù)構(gòu)建起整個數(shù)據(jù)中臺的基底,包含內(nèi)部數(shù)據(jù)與外部數(shù)據(jù),數(shù)據(jù)層使用Oracle,MySQL,用于存儲內(nèi)部結(jié)構(gòu)化數(shù)據(jù),通過Hadoop進行大量非結(jié)構(gòu)化數(shù)據(jù)的存儲,這就是一整個數(shù)據(jù)源層。通過使用Kafka進行實時的數(shù)據(jù)流處理,用Flink處理實時數(shù)據(jù)。使用spark進行數(shù)據(jù)的匯聚。通過這些中間件,對數(shù)據(jù)進行了接入,傳輸,和初步的處理,確保數(shù)據(jù)可以正確高效穩(wěn)定的流入數(shù)據(jù)中臺。再往下就是數(shù)據(jù)體系層,它涉及到數(shù)據(jù)的匯聚,存儲,處理和轉(zhuǎn)換,是整個數(shù)據(jù)中后的核心部分,這部分結(jié)合了數(shù)據(jù)倉庫進行數(shù)據(jù)的存儲和管理分析數(shù)據(jù)。數(shù)據(jù)中臺部分,是整個架構(gòu)的核心,整個提供了數(shù)據(jù)存儲,處理和支持上層應(yīng)用的數(shù)據(jù)需求。數(shù)據(jù)運營體系則負責整體數(shù)據(jù)的監(jiān)控,維護優(yōu)化,確保整體中臺系統(tǒng)的穩(wěn)定運行和數(shù)據(jù)的質(zhì)量。數(shù)據(jù)資產(chǎn)管理是負責數(shù)據(jù)的分類,標簽,元數(shù)據(jù)管理等,提高數(shù)據(jù)的可發(fā)現(xiàn)性與可管理性,服務(wù)體系是為數(shù)據(jù)服務(wù)提供了API接口,數(shù)據(jù)服務(wù)門戶等,使得上層應(yīng)用可以方便的進行調(diào)用,最后就是上層應(yīng)用,直接面向業(yè)務(wù)用戶,為用戶提供數(shù)據(jù)分析和決策支持,包括決策支持,運營大屏,業(yè)務(wù)中臺,創(chuàng)新應(yīng)用等。整個數(shù)據(jù)中臺架構(gòu)從數(shù)據(jù)源的采集,處理,存儲到上層應(yīng)用的過程,是一個持續(xù)演化的過程,需要企業(yè)不斷的進行優(yōu)化與升級,用來適應(yīng)不斷變化的場景與技術(shù)。
從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進化史_數(shù)據(jù)庫_03
四、數(shù)據(jù)飛輪時期
近幾年,在數(shù)智化時代的到來,我們面臨著數(shù)據(jù)收集整合與治理的嚴峻挑戰(zhàn),因此出現(xiàn)了數(shù)據(jù)飛輪這個技術(shù)。數(shù)據(jù)飛輪與數(shù)據(jù)中臺相輔相成,數(shù)據(jù)中臺是數(shù)據(jù)應(yīng)用的基礎(chǔ)而數(shù)據(jù)飛輪是數(shù)據(jù)應(yīng)用的升級版,在數(shù)據(jù)中臺中引入數(shù)據(jù)飛輪,可以對數(shù)據(jù)價值的深度挖掘,更核心的一點在于與業(yè)務(wù)相融合,驅(qū)動業(yè)務(wù)發(fā)展,是動態(tài)的。
從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進化史_數(shù)據(jù)倉庫_04
從上面這張圖就可以清晰的認識到數(shù)據(jù)飛輪包含的幾個關(guān)鍵環(huán)節(jié):
? 資產(chǎn)豐富化(Data Abundance):需要意識到自身所擁有數(shù)據(jù)的潛在價值,并通過各種手段進行收集、存儲和管理,形成龐大的數(shù)據(jù)資產(chǎn)庫。
? 質(zhì)量標準化(Data Standardization):擁有了大量的數(shù)據(jù)之后,接下來就是對它們進行清洗、整理、合并等工作,以確保數(shù)據(jù)的準確性和一致性。
? 研發(fā)流程化(R&D Streamlining):利用經(jīng)過處理的數(shù)據(jù),開展深入的數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)隱藏在其中的規(guī)律和模式。提高研發(fā)效率和產(chǎn)品質(zhì)量。
? 數(shù)據(jù)應(yīng)用化(Data Application):將分析得出的結(jié)果轉(zhuǎn)化為具體的業(yè)務(wù)決策和行動指南,更好地理解市場需求、優(yōu)化供應(yīng)鏈管理、改進客戶服務(wù)等各個方面。
? 行動敏捷化(Agile Action):憑借對數(shù)據(jù)的深刻洞察,夠迅速響應(yīng)市場變化和競爭挑戰(zhàn),調(diào)整戰(zhàn)略方向,搶占先機。
? 價值最大化(Value Maximization):通過持續(xù)的迭代和優(yōu)化,不斷提升數(shù)據(jù)的價值貢獻度,實現(xiàn)從數(shù)據(jù)到知識的轉(zhuǎn)化。
? 決策智能化(Intelligent Decision-Making):隨著技術(shù)的進步和經(jīng)驗的積累,可以將更多的決策權(quán)交給機器學(xué)習(xí)算法,讓AI代替人工完成一些重復(fù)性高、邏輯性強的工作,從而進一步提高決策的科學(xué)性和準確性。
五、數(shù)據(jù)技術(shù)的未來展望
從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,數(shù)據(jù)技術(shù)發(fā)展反應(yīng)了企業(yè)對數(shù)據(jù)應(yīng)用形式的持續(xù)變化。隨著數(shù)智化的時代到來,云計算,大數(shù)據(jù),AI技術(shù)的相融合,數(shù)據(jù)技術(shù)的發(fā)展,為企業(yè)推動數(shù)智化轉(zhuǎn)型奠定了夯實的基礎(chǔ)。
我相信,未來隨著數(shù)據(jù)技術(shù)的不斷發(fā)展,數(shù)據(jù)飛輪的未來將是一個動態(tài)的、高度集成和智能化的系統(tǒng),它將成為企業(yè)持續(xù)創(chuàng)新和保持競爭力的關(guān)鍵驅(qū)動力。隨著技術(shù)的不斷進步,數(shù)據(jù)飛輪將不斷演化,以適應(yīng)日益復(fù)雜的數(shù)據(jù)環(huán)境和業(yè)務(wù)需求。