數(shù)據(jù)網(wǎng)格有望升級整個IT系統(tǒng)
譯文譯者 | 布加迪
策劃 | 云昭
數(shù)據(jù)網(wǎng)格正迅速成為數(shù)據(jù)領(lǐng)域的一種重要架構(gòu)模式。我們IT人士有這樣一種習(xí)慣:創(chuàng)造流行語,然后緊跟潮流。然而,數(shù)據(jù)網(wǎng)格并不是僅僅是流行詞,原因是它有望徹底改變我們處理和查看數(shù)據(jù)的方式。這將對數(shù)據(jù)是關(guān)鍵要素的所有領(lǐng)域都會有影響。
當(dāng)前數(shù)據(jù)級別的報告單
在我們將數(shù)據(jù)提升到下一個級別之前,簡要介紹一下當(dāng)前數(shù)據(jù)級別的進(jìn)度或報告單。下圖顯示了數(shù)據(jù)在如今的 IT系統(tǒng)中通常是如何處理的。
圖1. 來自諸系統(tǒng)的數(shù)據(jù)流入DWH或數(shù)據(jù)湖
如上所示,來自諸多事務(wù)/運(yùn)營和外部系統(tǒng)的數(shù)據(jù)將通過ETL作業(yè)網(wǎng)絡(luò)流入數(shù)據(jù)倉庫。在最終消費(fèi)者可以聚集/匯總和使用這些數(shù)據(jù)之前,將完成許多活動,比如清理和轉(zhuǎn)換等。
幾十年來,這種方法一直屢試不爽。但在當(dāng)今數(shù)據(jù)無處不在的世界,這種方法卻遇到了瓶頸。現(xiàn)代數(shù)據(jù)湖方面也是如此。事實(shí)上,在大多數(shù)情況下,數(shù)據(jù)湖的情況更糟。
大數(shù)據(jù)/物聯(lián)網(wǎng)和數(shù)據(jù)流出現(xiàn)后,大多數(shù)組織不知道如何處理數(shù)據(jù)。雖然它們知道數(shù)據(jù)是新的石油,但不知道如何提煉和使用這種油。它們甚至對想要使用這些數(shù)據(jù)來處理的分析用例沒有太多想法。也許數(shù)據(jù)湖這個流行語使它們隨波逐流。由于別人都在搞數(shù)據(jù)湖,所以越來越多的人開始仿而效之。
前面說過,數(shù)據(jù)湖方面的情況更糟。主要原因是,就數(shù)據(jù)倉庫而言,大多數(shù)組織仍采用某種治理和策略。但是就數(shù)據(jù)湖而言,在大多數(shù)情況下,所有類型的數(shù)據(jù)(結(jié)構(gòu)化/日志/流數(shù)據(jù)等)都只是被轉(zhuǎn)儲到某種廉價存儲系統(tǒng)中,其想法是將來會有相應(yīng)的用例,能夠得益于正在開挖的這個新油田。但愿望并不總是成真。
報告單中一些有待改進(jìn)的方面
?隨著數(shù)據(jù)集中起來,加上數(shù)據(jù)無處不在,數(shù)據(jù)的數(shù)量和速度變得如此龐大,因此集中式系統(tǒng)無力處理。
?數(shù)據(jù)工程師/數(shù)據(jù)倉庫團(tuán)隊(duì)對運(yùn)營數(shù)據(jù)、領(lǐng)域和復(fù)雜性了解不多。
?如何在這種系統(tǒng)中處理變更方面沒有太多的靈活性可言。
應(yīng)用程序?qū)尤绾翁嵘较乱粋€級別?
在過去幾年,領(lǐng)域驅(qū)動設(shè)計(jì)和微服務(wù)確實(shí)改變了應(yīng)用程序?qū)拥奶幚矸绞健R粋€龐大的單體應(yīng)用系統(tǒng)被轉(zhuǎn)換成特定領(lǐng)域的功能或微服務(wù)。這讓領(lǐng)域團(tuán)隊(duì)得以專注于各自針對特定領(lǐng)域的功能。他們對各自領(lǐng)域了如指掌,更不用說我們在這類環(huán)境中看到的敏捷性了(當(dāng)然,還有出色的工具和流程,比如CI/CD、DevOps和容器等)。
圖2
使用領(lǐng)域驅(qū)動設(shè)計(jì)將單體應(yīng)用程序轉(zhuǎn)換成微服務(wù)
如果只看上面兩張圖,會發(fā)現(xiàn)我們在應(yīng)用程序?qū)雍蛿?shù)據(jù)層采取了完全相反的方法。在應(yīng)用程序?qū)?,我們只是將單體應(yīng)用程序分解成多個較小的單元,而在數(shù)據(jù)庫層,我們將來自各個領(lǐng)域的數(shù)據(jù)放入到一個龐大的單體單元中。
這時候數(shù)據(jù)網(wǎng)格有了用武之地。不妨快速了解一下這個數(shù)據(jù)網(wǎng)格到底是什么。
數(shù)據(jù)網(wǎng)格架構(gòu)將定義、創(chuàng)建、管理和共享數(shù)據(jù)產(chǎn)品的自主權(quán)賦予業(yè)務(wù)領(lǐng)域。所以基本上,每個業(yè)務(wù)領(lǐng)域都將擁有自己的數(shù)據(jù)。它們可以使用API等手段與消費(fèi)者共享,但它們管理數(shù)據(jù)的整個生命周期。
1)由于沒有一個龐大的集中式單體應(yīng)用程序,單個數(shù)據(jù)產(chǎn)品可以更好地擴(kuò)展(分布式擴(kuò)展)。
2)每個領(lǐng)域團(tuán)隊(duì)擁有并管理其數(shù)據(jù)和產(chǎn)品(聯(lián)合數(shù)據(jù)治理)。
3)每個產(chǎn)品團(tuán)隊(duì)比任何集中式團(tuán)隊(duì)更了解其數(shù)據(jù)和領(lǐng)域。
4)更好的敏捷性。
一點(diǎn)建議
如開篇所述,不要輕信流行語。數(shù)據(jù)網(wǎng)格到底是流行語還是非常適合?只有評估后才能做出決定。我發(fā)現(xiàn)許多人做錯了SOA,做錯了P2P,甚至做錯了REST和微服務(wù),當(dāng)然還做錯了數(shù)據(jù)湖。明智的決定的前提,是要看看它是否適合自己。
原文標(biāo)題:Data Mesh — Graduating Your Data to Next Level,作者:Rohit Dhall
鏈接:??https://dzone.com/articles/datamesh-graduating-your-data-to-next-level??