自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史

數(shù)字化轉(zhuǎn)型
我也是經(jīng)歷了數(shù)據(jù)技術(shù)的進(jìn)化,從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到如今的數(shù)據(jù)飛輪,每個階段都代表了數(shù)據(jù)處理和分析的不同理念和技術(shù)發(fā)展。

1.自我介紹

我是 Java 開發(fā)工程師,最初的項目是數(shù)據(jù)治理相關(guān)的內(nèi)容,主要使用的是 ETL 工具 KETTLE 現(xiàn)在這個工具已經(jīng)改名為 Pentaho,具體的工作內(nèi)容如下:

  • 數(shù)據(jù)的抽取(從不同的數(shù)據(jù)庫、ftp)獲取數(shù)據(jù)
  • 轉(zhuǎn)換(數(shù)據(jù)合并、統(tǒng)計)
  • 生成寬表(用于支撐 BI 部門的數(shù)據(jù)展示)

這份工作跟數(shù)據(jù)打交道比較多,當(dāng)時也是大數(shù)據(jù)潮流來襲的時候,正好也遇到了疫情,在家辦公期間學(xué)習(xí)了基于 Hadoop 的大數(shù)據(jù)相關(guān)的組件:

從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)_02從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)_02

  • 大數(shù)據(jù)基座 Hadoop
  • 數(shù)據(jù)抽取工具 sqoop、flume
  • 數(shù)據(jù)存儲和分析 Hive、HBase
  • 調(diào)度工具 Azkaban(個人也集合 kettle 實現(xiàn)了 ktr 和 kjb 的調(diào)用)

隨著大數(shù)據(jù)知識的加深,我開始做大數(shù)據(jù)相關(guān)的系統(tǒng),當(dāng)時使用的大數(shù)據(jù)平臺主要是基于分布式數(shù)據(jù)庫 Greenplum 的,并非 Hadoop,但是實現(xiàn)思路是相似的,就是使用多個節(jié)點(diǎn)將數(shù)據(jù)和算力分?jǐn)傞_來,最終再聚合到一起。

從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)_03從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到數(shù)據(jù)飛輪,我了解的數(shù)據(jù)技術(shù)進(jìn)化史_數(shù)據(jù)_03

以上是我數(shù)據(jù)相關(guān)的工作經(jīng)歷,這些年的“數(shù)據(jù)飛輪”概念也給了我不少啟發(fā)。

2.我了解的數(shù)據(jù)技術(shù)進(jìn)化史

我也是經(jīng)歷了數(shù)據(jù)技術(shù)的進(jìn)化,從數(shù)據(jù)倉庫到數(shù)據(jù)中臺再到如今的數(shù)據(jù)飛輪,每個階段都代表了數(shù)據(jù)處理和分析的不同理念和技術(shù)發(fā)展。

  1. 數(shù)據(jù)倉庫(Data Warehousing):這個階段主要集中在整合來自不同源的數(shù)據(jù),并將其存儲在一個集中式的倉庫中。數(shù)據(jù)倉庫主要用于支持商業(yè)智能(BI)和決策支持系統(tǒng)(DSS)。數(shù)據(jù)倉庫通常采用星型模式(Star Schema)或雪花模式(Snowflake Schema)來組織數(shù)據(jù),以優(yōu)化查詢性能。
  2. 數(shù)據(jù)集市(Data Marts):隨著數(shù)據(jù)倉庫的發(fā)展,數(shù)據(jù)集市應(yīng)運(yùn)而生。數(shù)據(jù)集市是面向特定業(yè)務(wù)領(lǐng)域的小型數(shù)據(jù)倉庫,專注于滿足特定部門或團(tuán)隊的分析需求。數(shù)據(jù)集市可以更快地實施,并針對特定用戶群體進(jìn)行優(yōu)化。
  3. 數(shù)據(jù)集成(Data Integration):隨著企業(yè)擁有越來越多的數(shù)據(jù)源,數(shù)據(jù)集成成為一個重要的挑戰(zhàn)。數(shù)據(jù)集成技術(shù)如提取、轉(zhuǎn)換、加載(ETL)工具和中間件幫助企業(yè)將數(shù)據(jù)從源系統(tǒng)傳輸?shù)綌?shù)據(jù)倉庫或數(shù)據(jù)集市。
  4. 數(shù)據(jù)質(zhì)量管理(Data Quality Management):數(shù)據(jù)質(zhì)量管理涉及確保數(shù)據(jù)的一致性、準(zhǔn)確性和完整性。這包括數(shù)據(jù)清洗、數(shù)據(jù)校驗和數(shù)據(jù)標(biāo)準(zhǔn)化等過程。
  5. 商業(yè)智能(Business Intelligence):BI工具使業(yè)務(wù)用戶能夠通過報表、儀表板和數(shù)據(jù)可視化來分析和理解數(shù)據(jù)。這些工具通常與數(shù)據(jù)倉庫或數(shù)據(jù)集市緊密集成。

這五個階段個人感覺是可以劃分到一起的,實際上我的數(shù)據(jù)治理工作也是這個階段,只不過數(shù)據(jù)規(guī)模較小。這部分主要是偏數(shù)據(jù)的,不包含復(fù)雜的數(shù)據(jù)分析。

  1. 數(shù)據(jù)中臺(Data Middle Office):數(shù)據(jù)中臺是一個相對較新的概念,它位于數(shù)據(jù)倉庫和前臺應(yīng)用之間。數(shù)據(jù)中臺的主要目標(biāo)是提供一個統(tǒng)一的數(shù)據(jù)服務(wù)層,以支持前臺應(yīng)用的快速開發(fā)和創(chuàng)新。數(shù)據(jù)中臺通常包括數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)API等功能。我在工作中的 ODS + DATA 服務(wù)就形成了數(shù)據(jù)中臺。
  2. 數(shù)據(jù)湖(Data Lake):數(shù)據(jù)湖是一種存儲架構(gòu),它可以存儲大量原始數(shù)據(jù)的原始格式。與數(shù)據(jù)倉庫不同,數(shù)據(jù)湖不需要預(yù)先定義數(shù)據(jù)模式,這使得它能夠靈活地處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

這兩個階段可以劃分到一起,實際上是數(shù)據(jù)量的增加,數(shù)據(jù)類型的豐富,數(shù)據(jù)中臺增加了數(shù)據(jù)查詢和分析的接口,可以不關(guān)心數(shù)據(jù)的來源。

數(shù)據(jù)飛輪(Data Flywheel):數(shù)據(jù)飛輪是一種數(shù)據(jù)驅(qū)動的增長策略,它強(qiáng)調(diào)數(shù)據(jù)、洞察和行動之間的閉環(huán)。數(shù)據(jù)飛輪的核心思想是利用數(shù)據(jù)來產(chǎn)生洞察,然后根據(jù)這些洞察采取行動,從而產(chǎn)生更多的數(shù)據(jù),形成一個正向循環(huán)。

數(shù)據(jù)飛輪對我來說是比較新的概念,所謂數(shù)據(jù)飛輪,指的是數(shù)據(jù)資產(chǎn)與業(yè)務(wù)之間形成的正向循環(huán),即數(shù)據(jù)被應(yīng)用于業(yè)務(wù),進(jìn)而產(chǎn)生新的數(shù)據(jù)再反饋回系統(tǒng),進(jìn)一步豐富和優(yōu)化數(shù)據(jù)資產(chǎn),從而形成一個持續(xù)增強(qiáng)的循環(huán)。從運(yùn)行機(jī)制來看,它強(qiáng)調(diào)的是一種動態(tài)的數(shù)據(jù)應(yīng)用過程。整體概念并不繁復(fù),但或許可以為企業(yè)轉(zhuǎn)型過程中如何優(yōu)化數(shù)據(jù)驅(qū)動提供新的思路。

雖然終極目的都是為了讓數(shù)據(jù)更好地為業(yè)務(wù)服務(wù),但數(shù)據(jù)飛輪與數(shù)據(jù)中臺有鮮明的差異性。數(shù)據(jù)飛輪更側(cè)重于業(yè)務(wù)流程或價值關(guān)系,而中臺更偏向于技術(shù)工具層面。某種程度上,數(shù)據(jù)飛輪可以由中臺或其他技術(shù)手段實現(xiàn)。

具體來說,數(shù)據(jù)中臺的重點(diǎn)在于數(shù)據(jù)的集中管理和高效利用,它是一個技術(shù)實現(xiàn)。實現(xiàn)手段是提供一個統(tǒng)一的數(shù)據(jù)服務(wù)接口,支持企業(yè)的數(shù)據(jù)需求;數(shù)據(jù)飛輪的重點(diǎn)則在于數(shù)據(jù)如何推動業(yè)務(wù)增長和創(chuàng)新,它是一個業(yè)務(wù)和戰(zhàn)略層面的概念,更多地強(qiáng)調(diào)數(shù)據(jù)與業(yè)務(wù)之間的動態(tài)循環(huán)和相互作用。個人工作上感覺數(shù)據(jù)我們的數(shù)據(jù)中臺也具有一定的數(shù)據(jù)飛輪屬性。

  • 大數(shù)據(jù)和實時分析(Big Data and Real-time Analytics):隨著數(shù)據(jù)量的增長和分析需求的實時性,大數(shù)據(jù)技術(shù)和實時分析變得至關(guān)重要。這包括分布式計算框架(如Hadoop和Spark)、流處理引擎(如Kafka和Flink)以及實時BI工具。
  • 人工智能和機(jī)器學(xué)習(xí)(AI and Machine Learning):AI和機(jī)器學(xué)習(xí)技術(shù)正在改變數(shù)據(jù)分析的面貌。這些技術(shù)可以自動發(fā)現(xiàn)數(shù)據(jù)中的模式和關(guān)聯(lián),并進(jìn)行預(yù)測和推薦。

最后的這兩個階段也許是當(dāng)前最為火爆的,數(shù)據(jù)融合分析和大模型。

3.一點(diǎn)總結(jié)

我個人是從數(shù)據(jù)處理到數(shù)據(jù)中臺到大數(shù)據(jù)分析都經(jīng)歷過的,數(shù)據(jù)飛輪對我來說是較新的概念,在如今大模型遍地的當(dāng)下,數(shù)據(jù)飛輪的概念還是比較有意義的,數(shù)據(jù)資產(chǎn)要充分利用到企業(yè)的日常決策中,這些決策產(chǎn)生的數(shù)據(jù)再融入到數(shù)據(jù)資產(chǎn)里,產(chǎn)生一個良性的循環(huán),讓數(shù)據(jù)的價值不斷增加。

責(zé)任編輯:龐桂玉 來源: 51CTO博客
相關(guān)推薦

2024-09-23 11:10:46

2024-09-28 10:47:54

2024-09-19 15:24:40

數(shù)據(jù)倉庫飛輪數(shù)據(jù)

2024-09-24 10:11:26

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-23 17:11:50

2024-09-23 11:18:42

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-20 13:16:28

2024-09-20 15:17:02

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-28 10:41:12

2024-09-23 17:20:14

2024-09-25 15:38:30

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-20 14:20:45

2024-09-20 13:11:06

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-21 11:08:12

2024-09-21 10:07:36

2024-09-21 10:32:23

2024-09-23 19:32:25

2024-09-23 10:56:07

2024-09-23 11:30:57

數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)飛輪

2024-09-21 08:59:52

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號