自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文讀懂 Data Mesh

原創(chuàng) 精選
開發(fā) 架構(gòu)
面對數(shù)據(jù)產(chǎn)生場景的變化、數(shù)據(jù)源的增長和擴(kuò)散、數(shù)據(jù)用例和用戶的多樣性以及對變化的反應(yīng)速度,當(dāng)前的數(shù)據(jù)平臺或數(shù)據(jù)中臺面臨著較大的挑戰(zhàn),而Data Mesh 或許是解決這些問題的一種嘗試。

將一個系統(tǒng)置于恒定的約束之下可能會導(dǎo)致脆弱性的進(jìn)化。-- C.S. Holling, ecologist

成為一個數(shù)據(jù)驅(qū)動的組織是許多公司的戰(zhàn)略目標(biāo)之一,因為數(shù)據(jù)驅(qū)動的好處顯而易見: 基于數(shù)據(jù)和個性化提供最好的客戶體驗; 通過數(shù)據(jù)驅(qū)動的優(yōu)化降低運營成本和時間; 給予員工具有趨勢分析和商業(yè)智能的力量。然而,盡管在構(gòu)建數(shù)據(jù)平臺方面付出了越來越多的努力和投資,仍然會發(fā)現(xiàn)結(jié)果并不理想。

當(dāng)前的技術(shù)進(jìn)步解決了數(shù)據(jù)處理計算的規(guī)模問題,但還有問題懸而未決: 數(shù)據(jù)產(chǎn)生場景的變化、數(shù)據(jù)來源的擴(kuò)散、數(shù)據(jù)用例和用戶的多樣性以及對變化的反應(yīng)速度。Data Mesh或許可以解決這些問題。

1. 數(shù)據(jù)是什么?

數(shù)據(jù)到底是什么意思?又是一個“每個人心中都有一個哈姆雷特”的問題。數(shù)據(jù)通常被分為操作數(shù)據(jù)和分析數(shù)據(jù)。從數(shù)據(jù)庫的視角來看,即我們常說的OLTP和OLAP。一般地,操作數(shù)據(jù)位于服務(wù)提供業(yè)務(wù)功能的數(shù)據(jù)庫中,具有事務(wù)性質(zhì),保持當(dāng)前狀態(tài)并服務(wù)于運行業(yè)務(wù)的應(yīng)用程序的需求。分析數(shù)據(jù)是隨著時間的推移對業(yè)務(wù)事實的時間和聚合視圖,通過建模以提供回顧性或未來的洞察力,訓(xùn)練機(jī)器學(xué)習(xí)模型或為分析報告提供信息。

當(dāng)前的技術(shù)、架構(gòu)和組織的狀態(tài)導(dǎo)致了這兩個數(shù)據(jù)領(lǐng)域的分歧,存在兩個層次,集成而又分離。這種分歧往往會導(dǎo)致架構(gòu)的脆弱性。也導(dǎo)致了ETL 和不斷增長的迷宮般數(shù)據(jù)管道的復(fù)雜性。對于許多試圖連接這兩個領(lǐng)域的人來說,數(shù)據(jù)從操作數(shù)據(jù)領(lǐng)域流動到分析數(shù)據(jù)領(lǐng)域,然后再返回操作數(shù)據(jù)領(lǐng)域。

分析數(shù)據(jù)領(lǐng)域主要有兩個體系結(jié)構(gòu)和技術(shù)棧: 數(shù)據(jù)湖和數(shù)據(jù)倉庫,而數(shù)據(jù)湖支持?jǐn)?shù)據(jù)科學(xué)的訪問模式,數(shù)據(jù)倉庫支持分析和商業(yè)智能報告訪問模式。而實踐中常常出現(xiàn),數(shù)據(jù)倉庫試圖搭載數(shù)據(jù)科學(xué)的工作流,數(shù)據(jù)湖又試圖服務(wù)于數(shù)據(jù)分析師和商業(yè)智能。

2. 數(shù)據(jù)領(lǐng)域面臨的挑戰(zhàn)

首先,數(shù)據(jù)平臺的發(fā)展大約經(jīng)歷了三個階段:

  • 專有的企業(yè)數(shù)據(jù)倉庫和商業(yè)智能平臺。這是一個價格昂貴的解決方案,給公司留下了大量的技術(shù)債務(wù); 成千上萬的無法維護(hù)的 ETL 、表格和報告中的技術(shù)債務(wù),同時只有少數(shù)專業(yè)人員能夠理解,導(dǎo)致對業(yè)務(wù)的積極影響沒有得到充分實現(xiàn)。
  • 以數(shù)據(jù)湖為靈丹妙藥的大數(shù)據(jù)生態(tài)系統(tǒng)。復(fù)雜的大數(shù)據(jù)生態(tài)系統(tǒng)和由高度專業(yè)化的數(shù)據(jù)工程師組成的數(shù)據(jù)團(tuán)隊長期運行批處理作業(yè),創(chuàng)造了數(shù)據(jù)湖怪物,充其量只能讓一小部分研發(fā)分析成為可能,承諾過多而實現(xiàn)不足。
  • 目前的數(shù)據(jù)平臺與前兩個階段或多或少有些相似,具有現(xiàn)代化的轉(zhuǎn)變: (a)使用諸如 Kappa 這樣的架構(gòu)實現(xiàn)實時數(shù)據(jù)可用性的流,(b)將數(shù)據(jù)轉(zhuǎn)換的批處理和流處理這樣的框架統(tǒng)一起來,以及(c)完全接受基于云的存儲、數(shù)據(jù)管道執(zhí)行引擎和機(jī)器學(xué)習(xí)平臺的管理服務(wù)。

顯然,第三代數(shù)據(jù)平臺正在彌補前幾代的一些差距,如實時數(shù)據(jù)分析,以及降低管理大數(shù)據(jù)基礎(chǔ)設(shè)施的成本,但是,仍然存在著諸多的挑戰(zhàn)。

2.1 中心化架構(gòu)的挑戰(zhàn)

數(shù)據(jù)平臺從企業(yè)的各個角落攝取數(shù)據(jù),包括運行業(yè)務(wù)的操作和事務(wù)系統(tǒng),或者增加企業(yè)知識的外部數(shù)據(jù)提供者。例如,在流媒體業(yè)務(wù)中,數(shù)據(jù)平臺負(fù)責(zé)獲取大量數(shù)據(jù): “媒體播放器表現(xiàn)”、“用戶如何與播放器互動”、“播放的歌曲”,以及業(yè)務(wù)上的“標(biāo)簽”、與藝術(shù)家之間的“交易”,以及外部市場研究數(shù)據(jù),如“人口統(tǒng)計”信息。清理、豐富源數(shù)據(jù)并將其轉(zhuǎn)換為可信賴的數(shù)據(jù),以滿足不同使用者的需求。這將嘗試將用戶的操作流程和行為重構(gòu)為聚合視圖。

數(shù)據(jù)平臺為具有不同需求的各種消費者提供數(shù)據(jù)集服務(wù)。這包括從分析性消費到探索數(shù)據(jù),從基于機(jī)器學(xué)習(xí)的決策制定,到總結(jié)業(yè)務(wù)表現(xiàn)的商業(yè)智能報告。單一數(shù)據(jù)平臺承載并擁有邏輯上屬于不同領(lǐng)域的數(shù)據(jù),例如“播放事件”、“銷售指標(biāo)”、“藝術(shù)家”、“專輯”、“標(biāo)簽”、“音頻”、“播客”、“音樂事件”等來自大量不同領(lǐng)域的數(shù)據(jù)。

盡管我們已經(jīng)成功地將領(lǐng)域驅(qū)動設(shè)計和有界上下文應(yīng)用到軟件系統(tǒng)中,但是在很大程度上忽略了數(shù)據(jù)平臺中的領(lǐng)域概念,從面向領(lǐng)域的數(shù)據(jù)所有權(quán)轉(zhuǎn)移到集中領(lǐng)域不可知的數(shù)據(jù)所有權(quán)。這種中心化架構(gòu)可以適用于擁有較少不同消費案例且較簡單領(lǐng)域的組織,但是對于擁有豐富領(lǐng)域、大量來源和不同消費者集合的企業(yè)來說,難以滿足需求,原因如下:

無處不在的數(shù)據(jù)和數(shù)據(jù)擴(kuò)散: 隨著越來越多的數(shù)據(jù)變得無處不在,在一個平臺的控制下消費所有數(shù)據(jù)并在一個地方協(xié)調(diào)它的能力會降低。

組織的創(chuàng)新和消費者的激增: 組織對快速實驗的需求引入了大量的用例來消費來自平臺的數(shù)據(jù)。這意味著數(shù)據(jù)聚合、預(yù)測和切片上的轉(zhuǎn)換越來越多,這些轉(zhuǎn)換用來滿足創(chuàng)新的測試和學(xué)習(xí)周期。滿足使用者需求的長響應(yīng)時間歷來是組織摩擦點,目前仍然如此。

2.2 流水線耦合的挑戰(zhàn)

通常,數(shù)據(jù)平臺會被分解為數(shù)據(jù)處理階段的流水線。一條流水線,在高層次上實現(xiàn)了數(shù)據(jù)處理技術(shù)實現(xiàn)中的功能內(nèi)聚,即攝取、準(zhǔn)備、聚合、服務(wù)等。這種方式提供了一定程度的規(guī)?;珜F(tuán)隊分配到流水線的不同階段,有一個固有的限制,會導(dǎo)致交付變慢。流水線的各個階段之間具有高耦合性,以交付獨立的功能。

許多數(shù)據(jù)平臺提供了通用的和基于配置的數(shù)據(jù)攝取服務(wù),可以處理諸如輕松添加新的數(shù)據(jù)源或修改現(xiàn)有的數(shù)據(jù)源以最小化引入的擴(kuò)展開銷。但是,這并不會消除使用者引入新數(shù)據(jù)集導(dǎo)致端到端依賴關(guān)系的管理。雖然在表面上,流水線架構(gòu)看起來好像已經(jīng)達(dá)到了一個架構(gòu)的規(guī)?;剑珜嶋H上,整個流水線平臺必須改變以迎合新功能的最小單元: 解鎖一個新的數(shù)據(jù)集,并使其可用于新的或現(xiàn)有的消費者。這限制了對新消費者或新數(shù)據(jù)源實現(xiàn)高速規(guī)?;哪芰?。

2.3 數(shù)據(jù)所有權(quán)的挑戰(zhàn)

數(shù)據(jù)所有權(quán)與如何組織構(gòu)建并擁有數(shù)據(jù)平臺的團(tuán)隊有關(guān)。所謂的數(shù)據(jù)團(tuán)隊是由專業(yè)化的數(shù)據(jù)工程師和數(shù)據(jù)產(chǎn)品經(jīng)理組成,通常是孤立于業(yè)務(wù)組織的獨立單位,盡管會缺乏業(yè)務(wù)和領(lǐng)域知識,但在使用大數(shù)據(jù)工具方面有技術(shù)專長。數(shù)據(jù)團(tuán)隊需要消費來自其他團(tuán)隊的數(shù)據(jù),而那那些團(tuán)隊可能沒有提供有意義的、真實的和正確數(shù)據(jù)的動機(jī)。數(shù)據(jù)團(tuán)隊對數(shù)據(jù)源的領(lǐng)域知道的有限,并可能缺乏專業(yè)的領(lǐng)域知識,卻需要為各種各樣的需求提供數(shù)據(jù),無論是操作性數(shù)據(jù)還是分析性神經(jīng),而不需要清楚地了解數(shù)據(jù)的應(yīng)用。

數(shù)據(jù)平臺團(tuán)隊處于中間位置,只能全力以赴為所有來源和消費提供合適的數(shù)據(jù)。但實際上,資源的限制和不均衡,往往導(dǎo)致研發(fā)團(tuán)隊和業(yè)務(wù)經(jīng)理會另起爐灶,造成與數(shù)據(jù)團(tuán)隊的緊張關(guān)系進(jìn)一步加劇。這樣的組織結(jié)構(gòu)缺乏擴(kuò)展性,也沒有提供創(chuàng)建一個數(shù)據(jù)驅(qū)動組織所承諾的價值。

3 面對挑戰(zhàn)的數(shù)據(jù)平臺

鑒于此,數(shù)據(jù)平臺范式的轉(zhuǎn)變是必要的。數(shù)據(jù)平臺或許應(yīng)該是分布式領(lǐng)域驅(qū)動架構(gòu)、自服務(wù)平臺設(shè)計和產(chǎn)品思維與數(shù)據(jù)的融合。去中心化的數(shù)據(jù)平臺,需要顛倒我們對數(shù)據(jù)的看法,即它的本地性和所有權(quán)。領(lǐng)域需要以一種易于使用的方式托管和服務(wù)它們的領(lǐng)域數(shù)據(jù)集,而不是將數(shù)據(jù)從各自領(lǐng)域流向集中的數(shù)據(jù)湖。

3.1 數(shù)據(jù)與領(lǐng)域驅(qū)動架構(gòu)的融合

領(lǐng)域驅(qū)動設(shè)計深刻影響了系統(tǒng)架構(gòu)的思維方式,進(jìn)而影響了組織建模。它通過將系統(tǒng)分解為圍繞業(yè)務(wù)域的分布式服務(wù),從而成為微服務(wù)架構(gòu)的誘因之一。它從根本上改變了團(tuán)隊的形式,使得團(tuán)隊可以獨立自主地?fù)碛蓄I(lǐng)域能力。

奇怪的是,在涉及到數(shù)據(jù)時,業(yè)務(wù)領(lǐng)域的概念被忽略了。DDD 在數(shù)據(jù)平臺中最接近的應(yīng)用是讓數(shù)據(jù)源的系統(tǒng)發(fā)出它們的業(yè)務(wù)領(lǐng)域事件 ,并讓數(shù)據(jù)平臺消化它們。但之后,領(lǐng)域的概念和不同團(tuán)隊對領(lǐng)域數(shù)據(jù)的所有權(quán)就丟失了。這需要我們的思維從傳統(tǒng)的ETL和事件流轉(zhuǎn)變?yōu)榭缢蓄I(lǐng)域的推拉模型。在面向領(lǐng)域的數(shù)據(jù)平臺中,一個領(lǐng)域而不是流水線階段。

有些領(lǐng)域自然地與數(shù)據(jù)源保持一致。領(lǐng)域的源數(shù)據(jù)集表示了業(yè)務(wù)的事實和現(xiàn)實,業(yè)務(wù)事實最好以業(yè)務(wù)領(lǐng)域事件的形式表示,可以作為時間戳事件的分布式日志進(jìn)行存儲和服務(wù),以供任何授權(quán)使用者訪問。領(lǐng)域捕獲的數(shù)據(jù)非常接近數(shù)據(jù)起源的業(yè)務(wù)系統(tǒng)。領(lǐng)域和數(shù)據(jù)源系統(tǒng)之間往往沒有一對一的映射,通常有許多系統(tǒng)可以提供屬于某個領(lǐng)域的部分?jǐn)?shù)據(jù)。因此,存在許多數(shù)據(jù)源對齊的數(shù)據(jù)集,最終需要聚合到一個內(nèi)聚的領(lǐng)域數(shù)據(jù)集中。源域數(shù)據(jù)集是最基礎(chǔ)的數(shù)據(jù)集,更改的頻率較低,因為業(yè)務(wù)事實不會經(jīng)常更改。這些領(lǐng)域數(shù)據(jù)集預(yù)計將被永久捕獲和提供,以便隨著組織發(fā)展其數(shù)據(jù)驅(qū)動和智能服務(wù),它們總是可以回到業(yè)務(wù)事實,并創(chuàng)建新的聚合或預(yù)測。

有些領(lǐng)域與消費密切相關(guān),消費者領(lǐng)域數(shù)據(jù)集可以滿足一組緊密相關(guān)的用例。雖然數(shù)據(jù)集所有權(quán)從中心化平臺委托給各個領(lǐng)域域,但仍然需要清理、準(zhǔn)備、聚合和服務(wù)數(shù)據(jù),流水線的使用也是如此。

3.2 數(shù)據(jù)與產(chǎn)品思維的融合

將數(shù)據(jù)所有權(quán)和流水線分配到業(yè)務(wù)領(lǐng)域,人們會更關(guān)切對分布式數(shù)據(jù)集的可訪問性、可用性和協(xié)調(diào)性,這就是產(chǎn)品思維和學(xué)習(xí)方法派上用場的地方。把數(shù)據(jù)資產(chǎn)作為產(chǎn)品,把組織的其他數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)和數(shù)據(jù)工程師作為客戶。

任何技術(shù)產(chǎn)品的一個重要品質(zhì)是取悅消費者,為消費者提供最佳的用戶體驗,領(lǐng)域數(shù)據(jù)產(chǎn)品需要具備以下基本要素:

可發(fā)現(xiàn):一個常見的實現(xiàn)是擁有所有可用數(shù)據(jù)產(chǎn)品的注冊表、數(shù)據(jù)目錄及其元信息,例如它們的所有者、來源、譜系、樣本數(shù)據(jù)集等。

可尋址:一旦發(fā)現(xiàn)一個數(shù)據(jù)產(chǎn)品,它應(yīng)該有一個唯一的地址,以API方式訪問它。根據(jù)底層存儲和格式,可能對其數(shù)據(jù)采用不同的命名約定。

可信賴:數(shù)據(jù)產(chǎn)品的所有者圍繞數(shù)據(jù)的真實性提供一個可接受的SLA,以及如何近似地反映已經(jīng)發(fā)生的事件的真實性,或者所產(chǎn)生洞察力的高可能性。提供數(shù)據(jù)來源和沿襲作為與每個數(shù)據(jù)產(chǎn)品相關(guān)聯(lián)的元數(shù)據(jù),有助于使用者進(jìn)一步確信數(shù)據(jù)產(chǎn)品及其是否適合他們的特定需求。

自描述:高質(zhì)量的產(chǎn)品可以被獨立地發(fā)現(xiàn)、理解和消費,數(shù)據(jù)模式是提供自助服務(wù)數(shù)據(jù)資產(chǎn)的起點。

互操作:跨領(lǐng)域數(shù)據(jù)有效關(guān)聯(lián)的關(guān)鍵是遵循某些標(biāo)準(zhǔn)和協(xié)調(diào)規(guī)則。這樣的標(biāo)準(zhǔn)化屬于全局治理,以支持多領(lǐng)域數(shù)據(jù)集之間的互操作性。這種標(biāo)準(zhǔn)化工作的常見問題是字段類型格式化、識別跨領(lǐng)域的多義詞、數(shù)據(jù)集的地址約定、常見元數(shù)據(jù)字段、事件格式等。

安全性:對于每個領(lǐng)域的數(shù)據(jù)產(chǎn)品,訪問控制都是以更細(xì)的粒度應(yīng)用的。訪問控制策略可以集中定義,但在訪問每個單獨的數(shù)據(jù)集產(chǎn)品時應(yīng)用。SSO和RBAC是實現(xiàn)產(chǎn)品數(shù)據(jù)集訪問控制的一種簡便方法。

3.3 數(shù)據(jù)與自助服務(wù)的融合

將領(lǐng)域不可知的基礎(chǔ)設(shè)施功能收集和提取到數(shù)據(jù)基礎(chǔ)設(shè)施平臺中,解決了重復(fù)設(shè)置數(shù)據(jù)流水線引擎、存儲和流式計算的需要。數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊可以提供必要的技術(shù),而各個領(lǐng)域需要這些技術(shù)來捕獲、處理、存儲和服務(wù)它們的數(shù)據(jù)產(chǎn)品。將數(shù)據(jù)基礎(chǔ)設(shè)施構(gòu)建為平臺的關(guān)鍵在于: 

不包括任何特定于領(lǐng)域的概念或業(yè)務(wù)邏輯,保持其與領(lǐng)域無關(guān);

確保平臺隱藏了所有潛在的復(fù)雜性,并以自助服務(wù)的方式提供數(shù)據(jù)基礎(chǔ)設(shè)施組件。

自助式數(shù)據(jù)基礎(chǔ)設(shè)施可以降低“創(chuàng)建新數(shù)據(jù)產(chǎn)品的準(zhǔn)備時間”,例如,通過配置和腳本自動化完成數(shù)據(jù)攝入,數(shù)據(jù)產(chǎn)品創(chuàng)建腳本及生成框架,自動將數(shù)據(jù)產(chǎn)品注冊到目錄中,等等。云作為底層,可以降低提供對數(shù)據(jù)基礎(chǔ)設(shè)施按需訪問的操作成本和工作量。

這樣的新型數(shù)據(jù)平臺, 被業(yè)界命名為“Data Mesh”。Data Mesh 平臺是一個分布式數(shù)據(jù)架構(gòu),通過共享和協(xié)調(diào)的自助服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施來實現(xiàn)互操作性,進(jìn)而實現(xiàn)集中治理和標(biāo)準(zhǔn)化。

4. 什么是Data Mesh?

Data Mesh是現(xiàn)代數(shù)據(jù)管理的一種戰(zhàn)略方法,也是加強(qiáng)組織數(shù)字化轉(zhuǎn)型的一種方法,它集中于提供有價值且安全的數(shù)據(jù)產(chǎn)品。Data Mesh是超越利用數(shù)據(jù)倉庫和數(shù)據(jù)湖的數(shù)據(jù)管理方法,強(qiáng)調(diào)組織靈活性,通過授權(quán)數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)消費者的訪問來管理數(shù)據(jù),數(shù)據(jù)所有權(quán)分配給特定于領(lǐng)域的團(tuán)隊,這些團(tuán)隊將數(shù)據(jù)作為產(chǎn)品提供、擁有和管理。

4.1 Data Mesh 與 數(shù)據(jù)湖

數(shù)據(jù)湖是一種技術(shù)方法,其主要目標(biāo)是作為一個單一的存儲,以盡可能簡單的方式將數(shù)據(jù)轉(zhuǎn)移到中央團(tuán)隊負(fù)責(zé)管理的地方。雖然數(shù)據(jù)湖可以提供顯著的業(yè)務(wù)價值,但它們也存在許多問題。主要的問題是,一旦數(shù)據(jù)被移動到湖中,它就失去了上下文,例如,可能有許多文件包含客戶的定義,一個來自物流系統(tǒng),一個來自支付,一個來自營銷,哪一個適合使用呢?此外,數(shù)據(jù)湖中的數(shù)據(jù)沒有經(jīng)過預(yù)處理,因此不可避免地會出現(xiàn)數(shù)據(jù)問題。然后,數(shù)據(jù)使用者通常必須與數(shù)據(jù)湖團(tuán)隊聯(lián)系,以理解和解決數(shù)據(jù)問題,這將成為使用數(shù)據(jù)回答初始業(yè)務(wù)問題的瓶頸。

相比之下,Data Mesh不僅僅是技術(shù),它結(jié)合了技術(shù)和組織,包括數(shù)據(jù)所有權(quán)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)自治。因此,數(shù)據(jù)消費者對數(shù)據(jù)質(zhì)量和數(shù)據(jù)所有權(quán)有著清晰的認(rèn)識,數(shù)據(jù)問題可以更有效地發(fā)現(xiàn)和解決,最終可以使用和信任數(shù)據(jù)。

數(shù)據(jù)湖不再是Data Mesh的中心,而是將數(shù)據(jù)湖的一些原則應(yīng)用于面向數(shù)據(jù)源的領(lǐng)域數(shù)據(jù)產(chǎn)品。然而,無論是用于數(shù)據(jù)產(chǎn)品的內(nèi)部實現(xiàn),還是作為共享數(shù)據(jù)基礎(chǔ)設(shè)施的一部分,人們?nèi)匀焕^續(xù)使用數(shù)據(jù)湖工具。Data Mesh是把領(lǐng)域數(shù)據(jù)產(chǎn)品作為第一類關(guān)注點,把數(shù)據(jù)湖工具和管道作為第二類關(guān)注點。同樣的原則也適用于用于業(yè)務(wù)報表和可視化的數(shù)據(jù)倉庫。它只是Data Mesh上的一個節(jié)點,可能位于面向消費者的網(wǎng)絡(luò)邊緣。也就是說, 將大數(shù)據(jù)整體分解成一個協(xié)調(diào)、協(xié)作和分布式的數(shù)據(jù)網(wǎng)格生態(tài)系統(tǒng)。

4.2 Data Mesh 與 Data Fabric

Data Fabric 側(cè)重于各種技術(shù)能力的集成,這些技術(shù)能力相互協(xié)作為最終用戶生成一個接口。許多Data Fabric 的支持者通過像機(jī)器學(xué)習(xí)這樣的技術(shù)來實現(xiàn)自動化,使得終端用戶能夠以更簡單的方式訪問數(shù)據(jù)。對于簡單的數(shù)據(jù)使用來說,這是很有價值的,但是對于更復(fù)雜的情況,或者需要將業(yè)務(wù)知識集成到數(shù)據(jù)中的情況,那么 Data Fabric 的局限性就會變得明顯。

可以說,Data Fabric 可以用作 Data Mesh 自助服務(wù)平臺的一部分,在這個平臺中,Data Fabric 將數(shù)據(jù)公開給領(lǐng)域,這些領(lǐng)域可以將其業(yè)務(wù)知識嵌入到最終的數(shù)據(jù)產(chǎn)品中。

Data Mesh的目標(biāo)是為從分析數(shù)據(jù)和歷史事實中獲得價值創(chuàng)造一個基礎(chǔ),這些數(shù)據(jù)和歷史事實在規(guī)模上適應(yīng)于數(shù)據(jù)場景的不斷變化、數(shù)據(jù)來源和消費者的擴(kuò)大化、用例需要的轉(zhuǎn)換和處理的多樣性以及對變化的反應(yīng)速度。

5 Data Mesh 的 四個核心原則

Data Mesh 的四項核心原則作為一個整體是必要且充分的,使規(guī)模具有彈性,同時解決不兼容數(shù)據(jù)的孤立問題或運營成本增加的問題。

5.1 領(lǐng)域驅(qū)動的數(shù)據(jù)所有權(quán)和數(shù)據(jù)架構(gòu)

要理解什么是領(lǐng)域域驅(qū)動數(shù)據(jù),必須知道領(lǐng)域是什么。在Data Mesh 中,領(lǐng)域是負(fù)責(zé)數(shù)據(jù)管理的相關(guān)數(shù)據(jù)和創(chuàng)建的業(yè)務(wù)功能,負(fù)責(zé)聚合、轉(zhuǎn)換和向最終用戶提供數(shù)據(jù)。最終,該領(lǐng)域?qū)⑵鋽?shù)據(jù)作為數(shù)據(jù)產(chǎn)品公開,其整個生命周期由該領(lǐng)域自身所有。

也就是說,Data Mesh 的核心是建立去中心化并把責(zé)任分配給最接近數(shù)據(jù)的人,以支持持續(xù)的變化和可擴(kuò)展性。那么,如何分解和去中心化數(shù)據(jù)生態(tài)系統(tǒng)的組成部分及其所有權(quán)呢?包括分析數(shù)據(jù)、元數(shù)據(jù)和為其服務(wù)所需的計算。

為了促進(jìn)這種分解,需要一個按領(lǐng)域排列分析數(shù)據(jù)的架構(gòu)。在此架構(gòu)中,領(lǐng)域與組織其余部分的接口不僅包括操作能力,還包括對該領(lǐng)域所服務(wù)的分析數(shù)據(jù)的訪問。這意味著必須消除耦合,以使領(lǐng)域服務(wù)于它們的分析數(shù)據(jù),并使計算數(shù)據(jù)的代碼獨立于其他領(lǐng)域。為了擴(kuò)展,必須支持領(lǐng)域團(tuán)隊在其操作或分析數(shù)據(jù)系統(tǒng)的發(fā)布和部署方面的自主性。當(dāng)然,每個領(lǐng)域可以依賴于其他領(lǐng)域的操作和分析數(shù)據(jù)端點。

5.2 數(shù)據(jù)即為產(chǎn)品

發(fā)現(xiàn)、理解、信任并最終使用高質(zhì)量數(shù)據(jù)是個重要的問題,隨著提供數(shù)據(jù)領(lǐng)域的團(tuán)隊數(shù)量增加,這個問題只會隨著Data Mesh而惡化,這就是領(lǐng)域自治的結(jié)果。數(shù)據(jù)即產(chǎn)品原則是為了解決數(shù)據(jù)質(zhì)量和數(shù)據(jù)豎井問題而設(shè)計的,例如 Gartner 所說的暗數(shù)據(jù)——信息資產(chǎn)組織在日常業(yè)務(wù)活動中收集、處理和存儲,但通常不能用于其他目的。領(lǐng)域提供的分析數(shù)據(jù)必須被視為一種產(chǎn)品,數(shù)據(jù)的消費者應(yīng)該被視為客戶。

領(lǐng)域數(shù)據(jù)產(chǎn)品所有者必須深入了解誰是數(shù)據(jù)用戶,他們?nèi)绾问褂脭?shù)據(jù),以及對使用數(shù)據(jù)感到舒適的方法是什么。這種對數(shù)據(jù)用戶的深入了解導(dǎo)致了滿足需求的數(shù)據(jù)產(chǎn)品接口設(shè)計,所有數(shù)據(jù)產(chǎn)品都可以開發(fā)支持標(biāo)準(zhǔn)化接口。數(shù)據(jù)用戶和產(chǎn)品所有者之間的對話是建立數(shù)據(jù)產(chǎn)品接口的必要部分。每個領(lǐng)域?qū)〝?shù)據(jù)產(chǎn)品開發(fā)人員的角色,負(fù)責(zé)構(gòu)建、維護(hù)和服務(wù)領(lǐng)域的數(shù)據(jù)產(chǎn)品,數(shù)據(jù)產(chǎn)品的開發(fā)人員將與該領(lǐng)域的其他開發(fā)人員一起工作。每個領(lǐng)域團(tuán)隊可以提供一個或多個數(shù)據(jù)產(chǎn)品,還可以組建新的團(tuán)隊來服務(wù)那些自然不適合現(xiàn)有領(lǐng)域的數(shù)據(jù)產(chǎn)品。本質(zhì)上,數(shù)據(jù)質(zhì)量的問責(zé)制向上游轉(zhuǎn)移,盡可能接近數(shù)據(jù)源。

數(shù)據(jù)產(chǎn)品是網(wǎng)格上的節(jié)點,它封裝了功能所需的三個結(jié)構(gòu)組件,作為產(chǎn)品提供對領(lǐng)域分析數(shù)據(jù)的訪問。

代碼: 它包括(a)負(fù)責(zé)消費、轉(zhuǎn)換和服務(wù)上游數(shù)據(jù)的數(shù)據(jù)流水線的代碼 (b)提供數(shù)據(jù)訪問、語義和語法模式、可觀測性指標(biāo)和其他元數(shù)據(jù)的 API 代碼; (c)執(zhí)行功能特性的代碼,如訪問控制政策、合規(guī)性、出處等。

數(shù)據(jù)和元數(shù)據(jù): 根據(jù)領(lǐng)域數(shù)據(jù)的性質(zhì)及其消費模型,數(shù)據(jù)可以作為事件、批處理文件、關(guān)系表、圖表等,同時保持相同的語義。為了使數(shù)據(jù)可用,有一組相關(guān)的元數(shù)據(jù),包括數(shù)據(jù)計算文檔、語義和語法聲明、質(zhì)量指標(biāo)等; 數(shù)據(jù)固有的元數(shù)據(jù),例如其語義定義,元數(shù)據(jù)用于實現(xiàn)預(yù)期行為的特征,例如訪問控制策略。

基礎(chǔ)設(shè)施: 基礎(chǔ)設(shè)施組件支持構(gòu)建、部署和運行數(shù)據(jù)產(chǎn)品的代碼,以及存儲和訪問大數(shù)據(jù)及元數(shù)據(jù)。

總的來說,數(shù)據(jù)產(chǎn)品由領(lǐng)域生產(chǎn),由下游領(lǐng)域或用戶使用,以創(chuàng)造業(yè)務(wù)價值。數(shù)據(jù)產(chǎn)品不同于傳統(tǒng)的數(shù)據(jù)集市,因為它們是獨立的,本身負(fù)責(zé)與確保數(shù)據(jù)保持最新有關(guān)的安全、來源和基礎(chǔ)設(shè)施等方面的問題。數(shù)據(jù)產(chǎn)品支持明確的所有權(quán)和責(zé)任,可以由其他數(shù)據(jù)產(chǎn)品或最終消費者直接使用,以支持商業(yè)智能和機(jī)器學(xué)習(xí)活動。

5.3 自助式的數(shù)據(jù)平臺

領(lǐng)域團(tuán)隊能夠自主地?fù)碛袛?shù)據(jù)產(chǎn)品的唯一方法是訪問基礎(chǔ)設(shè)施的高級抽象,從而消除提供和管理數(shù)據(jù)產(chǎn)品生命周期的復(fù)雜性。這就需要一個新的原則,自服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施作為一個平臺,支持領(lǐng)域自治。

自助式數(shù)據(jù)基礎(chǔ)設(shè)施由許多功能組成,領(lǐng)域的成員可以輕松地使用這些功能來創(chuàng)建和管理其數(shù)據(jù)產(chǎn)品。自助式平臺功能按照模型中的調(diào)用分為多個類別或平面,每個平面服務(wù)于不同的用戶配置文件。一個平面類似于網(wǎng)絡(luò)中的控制層和數(shù)據(jù)層。自助式數(shù)據(jù)平臺由一個基礎(chǔ)設(shè)施工程小組提供支持,該小組的主要任務(wù)是對所使用的各種技術(shù)進(jìn)行管理和操作。這是一種關(guān)注點分離,領(lǐng)域團(tuán)隊關(guān)注數(shù)據(jù),自助式數(shù)據(jù)平臺團(tuán)隊關(guān)注技術(shù)。自助服務(wù)數(shù)據(jù)平臺的度量標(biāo)準(zhǔn)是領(lǐng)域的自主性。

也就是說,可以將數(shù)據(jù)平臺視為已經(jīng)存在的用于運行和監(jiān)視服務(wù)的交付平臺擴(kuò)展。然而,當(dāng)前用于操作數(shù)據(jù)產(chǎn)品的底層技術(shù)堆棧與數(shù)據(jù)服務(wù)的交付平臺非常不同,也是大數(shù)據(jù)技術(shù)棧與業(yè)務(wù)系統(tǒng)平臺的分歧。例如,業(yè)務(wù)領(lǐng)域域團(tuán)隊可能服務(wù)部署為 Docker 容器,交付平臺使用 K8s, 然而,數(shù)據(jù)產(chǎn)品可能將其流水線代碼作為一個 Hadoop集群上的作業(yè)運行。這是兩套完全不同的基礎(chǔ)設(shè)施,而DataMesh 需要這種級別上的互操作性和互連性,在合理的地方趨于一致。

5.4 聯(lián)邦體系的治理

傳統(tǒng)的數(shù)據(jù)治理往往被看作是數(shù)據(jù)創(chuàng)造價值的阻礙因素。DataMesh 通過將治理關(guān)注點嵌入到領(lǐng)域的工作流中,數(shù)據(jù)治理有許多方面,使用度量和報告必須成為這個定義的一部分。數(shù)據(jù)的使用量以及如何使用這些數(shù)據(jù)是理解數(shù)據(jù)產(chǎn)品的價值從而獲得成功的關(guān)鍵點。

Data Mesh的實現(xiàn)需要一個治理模型,該模型包括領(lǐng)域自治、標(biāo)準(zhǔn)化的互操作性、動態(tài)拓?fù)浣Y(jié)構(gòu),最重要的是平臺自動執(zhí)行決策,可以稱之為聯(lián)邦計算的治理。一個由領(lǐng)域數(shù)據(jù)產(chǎn)品所有者和數(shù)據(jù)平臺產(chǎn)品所有者聯(lián)盟領(lǐng)導(dǎo)的決策模型,擁有數(shù)據(jù)所有權(quán)和領(lǐng)域本地決策權(quán),同時創(chuàng)建并遵守一套全局規(guī)則,即一套適用于所有數(shù)據(jù)產(chǎn)品及其接口的規(guī)則,以確保生態(tài)系統(tǒng)的健康和互操作性。這個團(tuán)隊有一個艱巨的任務(wù): 維持集權(quán)和地方分治之間的平衡,哪些決策需要本地化到每個領(lǐng)域,哪些決策需要全局化到所有領(lǐng)域。最終,全局決策只有一個目的,即通過發(fā)現(xiàn)和組合數(shù)據(jù)產(chǎn)品,創(chuàng)建互操作性和復(fù)合網(wǎng)絡(luò)效應(yīng)。

數(shù)據(jù)倉庫和數(shù)據(jù)湖的數(shù)據(jù)治理

Data Mesh 的數(shù)據(jù)治理

中心化團(tuán)隊 

負(fù)責(zé)定義如何建立構(gòu)成質(zhì)量的模型

負(fù)責(zé)數(shù)據(jù)安全 

負(fù)責(zé)定義數(shù)據(jù)安全的各個方面,例如平臺內(nèi)置和自動監(jiān)控的數(shù)據(jù)敏感性級別

負(fù)責(zé)遵守規(guī)章制度 

負(fù)責(zé)定義平臺內(nèi)置和自動監(jiān)控的法規(guī)要求

數(shù)據(jù)的集中保管 

按領(lǐng)域聯(lián)合保管數(shù)據(jù)

負(fù)責(zé)整體規(guī)范的數(shù)據(jù)建模

負(fù)責(zé)建模跨越多個領(lǐng)域邊界的數(shù)據(jù)元素

團(tuán)隊獨立于業(yè)務(wù)領(lǐng)域 

團(tuán)隊由各領(lǐng)域代表組成

針對定義良好的靜態(tài)數(shù)據(jù)結(jié)構(gòu) 

旨在實現(xiàn)有效的網(wǎng)格操作,包括不斷變化和動態(tài)的網(wǎng)格拓?fù)浣Y(jié)構(gòu)

整體式湖泊/倉庫的中心化技術(shù) 

每個領(lǐng)域使用的自服務(wù)平臺技術(shù)

根據(jù)受治理數(shù)據(jù)(表)的數(shù)量或容量來度量成功 

基于網(wǎng)絡(luò)效應(yīng)(表示網(wǎng)格上數(shù)據(jù)消耗的連接)來度量成功

人工干預(yù)的手工過程 

由平臺實現(xiàn)的自動化流程

防止錯誤 

通過平臺的自動化處理檢測錯誤并恢復(fù)

一個支持性的組織結(jié)構(gòu)、激勵模式和架構(gòu)是聯(lián)邦治理模式發(fā)揮作用的必要條件: 在尊重地方領(lǐng)域自主性的同時,達(dá)成全局互操作性的決策和標(biāo)準(zhǔn),并有效地執(zhí)行整體策略。在所有領(lǐng)域及其數(shù)據(jù)產(chǎn)品的平臺實施和執(zhí)行的全局標(biāo)準(zhǔn)化內(nèi)容與留給領(lǐng)域決定的內(nèi)容之間取得平衡或許是一門藝術(shù)。

6. Data Mesh的實現(xiàn)

Data Mesh的實現(xiàn)為那些希望在不確定的經(jīng)濟(jì)環(huán)境中蓬勃發(fā)展的組織提供了靈活性,所有組織都需要能夠以低成本、高回報的方式來應(yīng)對環(huán)境的變化。引入新的數(shù)據(jù)源、需要遵守不斷變化的法規(guī)要求或滿足新的分析要求,這些都是促使組織數(shù)據(jù)管理活動發(fā)生變化的驅(qū)動因素。當(dāng)前的數(shù)據(jù)管理方法通?;趶?fù)雜的、高度集成的 ETL,這些 ETL 位于業(yè)務(wù)系統(tǒng)和分析系統(tǒng)之間,需要努力及時變化以支持業(yè)務(wù)需求。Data Mesh為數(shù)據(jù)管理提供了一個更具彈性的方法,以有效地應(yīng)對這些變化。

Data Mesh是一種涉及人、過程和技術(shù)的社會化技術(shù)方法,需要在人、過程和技術(shù)的所有三個維度上對組織進(jìn)行變革,可能會將70% 的精力花在人員和流程上,30% 的精力花在技術(shù)上。人員從中心化的數(shù)據(jù)團(tuán)隊分散到各個領(lǐng)域,現(xiàn)有的工作人員對于采用Data Mesh的成功至關(guān)重要,他們擁有的知識和技能會做出貢獻(xiàn)。因此,管理層級和獎勵機(jī)制也發(fā)生了變化。為了促進(jìn)可持續(xù)和敏捷的數(shù)據(jù)架構(gòu),需要在組織內(nèi)部進(jìn)行流程更改。考慮數(shù)據(jù)治理,將需要圍繞數(shù)據(jù)策略定義、實現(xiàn)和執(zhí)行的新流程,這將影響訪問和管理數(shù)據(jù)的流程,以及將該數(shù)據(jù)作為業(yè)務(wù)流程的一部分進(jìn)行利用。

技術(shù)能力是實現(xiàn)和運營Data Mesh的關(guān)鍵,可能需要新技術(shù)的原因如下:

  • 減少跨技術(shù)開發(fā)的摩擦,這些新技術(shù)的互操作性可能是至關(guān)重要的。
  • 使領(lǐng)域能夠自給自足,并將重點放在第一類關(guān)注點上,即數(shù)據(jù)而不是技術(shù)。
  • 允許在線購買新的數(shù)據(jù)平臺,并且可以無縫地公開這些平臺所暴露的數(shù)據(jù)
  • 支持跨Data Mesh的治理報告,例如數(shù)據(jù)產(chǎn)品使用情況、遵守標(biāo)準(zhǔn)情況和數(shù)據(jù)產(chǎn)品反饋。

在構(gòu)建Data Mesh生態(tài)系統(tǒng)的時候,一個關(guān)鍵的 Data Mesh 實現(xiàn)原則是通過利用現(xiàn)有的投資來連接數(shù)據(jù)源: 數(shù)據(jù)湖或數(shù)據(jù)倉庫; 云或內(nèi)部設(shè)施等。在生成跨所有不同數(shù)據(jù)集的連接之后,下一個目標(biāo)是為業(yè)務(wù)和分析團(tuán)隊創(chuàng)建一個用于查找數(shù)據(jù)的接口,稱之為邏輯域。需要的所有數(shù)據(jù)都駐留在各自的領(lǐng)域中,領(lǐng)域團(tuán)隊有權(quán)自主工作。通過自助服務(wù)的概念,數(shù)據(jù)使用者可以獨立完成更多的工作。下一步是如何將數(shù)據(jù)集轉(zhuǎn)換為數(shù)據(jù)產(chǎn)品。然后,使用數(shù)據(jù)產(chǎn)品創(chuàng)建一個庫或數(shù)據(jù)產(chǎn)品目錄。創(chuàng)建數(shù)據(jù)產(chǎn)品是一項強(qiáng)大的功能,使數(shù)據(jù)消費者能夠非??焖俚貜陌l(fā)現(xiàn)過渡到構(gòu)想以及洞察。

事實上,Data Mesh 可能并不適合于每個組織,可能主要針對那些在運營和環(huán)境中遇到不確定性和變化的大型組織。如果組織在數(shù)據(jù)方面的需求很小,而且這些數(shù)據(jù)需求不會隨著時間的推移而改變,那么Data Mesh可能是一個不必要的開銷。

7 小結(jié)

面對數(shù)據(jù)產(chǎn)生場景的變化、數(shù)據(jù)源的增長和擴(kuò)散、數(shù)據(jù)用例和用戶的多樣性以及對變化的反應(yīng)速度,當(dāng)前的數(shù)據(jù)平臺或數(shù)據(jù)中臺面臨著較大的挑戰(zhàn),而Data Mesh 或許是解決這些問題的一種嘗試。

為了面對這些挑戰(zhàn),以實現(xiàn)規(guī)?;某兄Z,同時提供使數(shù)據(jù)質(zhì)量和完整性保證,任何Data Mesh的實現(xiàn)都體現(xiàn)了四個基本原則:

  • 面向領(lǐng)域的分散數(shù)據(jù)所有權(quán)和體系結(jié)構(gòu)
  • 數(shù)據(jù)作為產(chǎn)品
  • 自助數(shù)據(jù)基礎(chǔ)設(shè)施作為平臺
  • 聯(lián)邦計算治理

一句話,Data Mesh是現(xiàn)代數(shù)據(jù)管理的一種戰(zhàn)略方法,也是加強(qiáng)組織數(shù)字化轉(zhuǎn)型的一種方法,它集中于提供有價值且安全的數(shù)據(jù)產(chǎn)品。

責(zé)任編輯:武曉燕 來源: 喔家ArchiSelf
相關(guān)推薦

2022-10-28 13:38:40

ServiceLinkerd服務(wù)網(wǎng)格

2025-03-28 11:47:38

2023-12-22 19:59:15

2021-08-04 16:06:45

DataOps智領(lǐng)云

2018-09-28 14:06:25

前端緩存后端

2022-09-22 09:00:46

CSS單位

2025-04-03 10:56:47

2022-07-05 06:30:54

云網(wǎng)絡(luò)網(wǎng)絡(luò)云原生

2023-05-20 17:58:31

低代碼軟件

2023-11-27 17:35:48

ComponentWeb外層

2022-10-20 08:01:23

2021-12-29 18:00:19

無損網(wǎng)絡(luò)網(wǎng)絡(luò)通信網(wǎng)絡(luò)

2022-07-26 00:00:03

語言模型人工智能

2022-12-01 17:23:45

2021-02-05 05:26:33

字節(jié)ASCII控制

2017-05-15 11:10:10

大數(shù)據(jù)聚類算法

2020-12-30 09:05:24

架構(gòu)微內(nèi)核系統(tǒng)

2017-05-04 20:29:12

HTTP服務(wù)器TCP

2018-10-30 11:10:05

Flink數(shù)據(jù)集計算

2021-05-18 09:48:58

前端開發(fā)架構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號