時代“大殺器”-數(shù)據(jù)編織
數(shù)據(jù)編織(data fabric)實現(xiàn)了統(tǒng)一的數(shù)據(jù)管理架構(gòu),使企業(yè)能夠從可擴展和融合的數(shù)據(jù)能力中獲益。數(shù)據(jù)編織被定義為一種新興的方法,能夠基于網(wǎng)絡(luò)架構(gòu)而不是點對點的連接來處理數(shù)據(jù)。這實現(xiàn)了從數(shù)據(jù)源層面到分析、分析結(jié)果生成、協(xié)調(diào)和應(yīng)用的一體化數(shù)據(jù)層(結(jié)構(gòu))。本文詳細闡述了數(shù)據(jù)編織、其關(guān)鍵組件和最佳實踐三方面內(nèi)容。
什么是數(shù)據(jù)編織
數(shù)據(jù)編織是一種新興的方法,能夠基于網(wǎng)絡(luò)架構(gòu)而不是點對點的連接來處理數(shù)據(jù)。這實現(xiàn)了從數(shù)據(jù)源層面到分析、分析結(jié)果生成、協(xié)調(diào)和應(yīng)用的一體化數(shù)據(jù)層(結(jié)構(gòu))。該方法在底層數(shù)據(jù)組件上設(shè)置抽象層,使業(yè)務(wù)用戶可以獲得信息和分析結(jié)果,而無需進行重復(fù)或強制性的數(shù)據(jù)科學(xué)工作。
隨著企業(yè)數(shù)據(jù)需求的發(fā)展,公司正在努力解決企業(yè)數(shù)據(jù)復(fù)雜性、異質(zhì)性以及其分散在企業(yè)環(huán)境中的多個應(yīng)用程序和運行環(huán)境中的事實。根據(jù)Statista的數(shù)據(jù),到2024年,全球數(shù)據(jù)生成和消費量將超過149兆字節(jié),其中非結(jié)構(gòu)化數(shù)據(jù)將占80%左右。
數(shù)據(jù)編織被看作是解決企業(yè)數(shù)據(jù)需求發(fā)展難題的答案。其改進了數(shù)據(jù)倉庫(data warehouse)和數(shù)據(jù)湖(data lake)的舊概念,引入一種架構(gòu),使整個企業(yè)能夠統(tǒng)一利用數(shù)據(jù)。因此,Gartner將數(shù)據(jù)編織列為2019年十大最具影響力的數(shù)據(jù)和分析技術(shù)之一,并表示,到2022年,企業(yè)將被迫重新設(shè)計其基礎(chǔ)設(shè)施,以支持定制的數(shù)據(jù)編織設(shè)計。
下面我們來探討數(shù)據(jù)編織的主要功能和企業(yè)應(yīng)用,以了解數(shù)據(jù)編織是如何工作的。
數(shù)據(jù)編織的主要功能:
(1)數(shù)據(jù)編織支持非結(jié)構(gòu)化數(shù)據(jù),包括物聯(lián)網(wǎng)。
企業(yè)正在迅速擴大其設(shè)備的聯(lián)網(wǎng)范圍,已經(jīng)不限于內(nèi)部服務(wù)器和固定工作站。從自帶設(shè)備(BYOD)和WFH到現(xiàn)場傳統(tǒng)的手持設(shè)備和物聯(lián)網(wǎng)(IoT),聯(lián)網(wǎng)設(shè)備的范圍正在擴大。數(shù)據(jù)編織與所有這些終端連接,處理通過傳感器收集的非結(jié)構(gòu)化數(shù)據(jù),并以最小的后端復(fù)雜度提供數(shù)據(jù)分析的結(jié)果。
(2)數(shù)據(jù)編織能大規(guī)模地處理信息。
企業(yè)數(shù)據(jù)量在不斷增長,能夠有效調(diào)動其數(shù)據(jù)的組織將獲得競爭優(yōu)勢。數(shù)據(jù)驅(qū)動的數(shù)據(jù)分析結(jié)果和決策可以推動新的商業(yè)機會,改善客戶體驗,并實現(xiàn)更有效的工作方式。數(shù)據(jù)編織使自動提取和利用原本閑置的數(shù)據(jù)成為可能。
(3)數(shù)據(jù)編織能與混合托管環(huán)境兼容。
數(shù)據(jù)編織的關(guān)鍵特征之一是它與環(huán)境、平臺和工具無關(guān)。它可以實現(xiàn)與技術(shù)棧中幾乎每個組件的雙向集成,以創(chuàng)建一個交織的或類似結(jié)構(gòu)的架構(gòu)。這非常適用于多云或混合云企業(yè),在這些企業(yè)中,數(shù)據(jù)計劃需要在所有云中統(tǒng)一、一致地運行。該解決方案從分布在不同環(huán)境中的多個來源獲取數(shù)據(jù),以創(chuàng)建一個綜合的 "結(jié)構(gòu) "來生成數(shù)據(jù)分析結(jié)果。
(4)數(shù)據(jù)編織加速生成數(shù)據(jù)分析結(jié)果。
這些解決方案可以輕松地處理最復(fù)雜的數(shù)據(jù)集,縮短數(shù)據(jù)分析的時間。由于其架構(gòu),有預(yù)建的分析模型和認知算法,以規(guī)模化和高速度處理數(shù)據(jù)。例如,美國國家航空航天局與名為Stardog的數(shù)據(jù)編織供應(yīng)商合作,將獲得數(shù)據(jù)分析結(jié)果的時間減少90%。
(5)與傳統(tǒng)倉儲模式相比,數(shù)據(jù)編織需要的IT干預(yù)更少。
數(shù)據(jù)編織的一個重要特征是,它依賴于一套預(yù)先建立和預(yù)先配置的組件,將原始數(shù)據(jù)轉(zhuǎn)換為經(jīng)過處理和可操作的信息。這些系統(tǒng)通常托管在云端,由經(jīng)驗豐富的服務(wù)提供商管理。這意味著,在實施和維護數(shù)據(jù)生產(chǎn)計劃時,不需要IT部門的參與。
(6)技術(shù)用戶和非技術(shù)用戶都使用數(shù)據(jù)編織。
數(shù)據(jù)編織的架構(gòu)使其可適應(yīng)各種用戶界面??梢詷?gòu)建清晰明了的項目列表,使業(yè)務(wù)主管可以快速理解和利用這些信息。數(shù)據(jù)編織還帶有復(fù)雜的工具,可以讓數(shù)據(jù)科學(xué)家進行深入的數(shù)據(jù)探索。
實施數(shù)據(jù)編織的主要目的是為了加強數(shù)據(jù)治理和數(shù)據(jù)安全。我們還可以將解決方案與新的數(shù)據(jù)源、分析模型、用戶界面和自動化腳本集成,以改善數(shù)據(jù)的使用。數(shù)據(jù)編織技術(shù)的最新進展意味著我們甚至可以使用圖形模型處理元數(shù)據(jù),使其不僅應(yīng)用于被動資產(chǎn),還能與業(yè)務(wù)用戶相關(guān)。它的架構(gòu)允許企業(yè)通過擴展增加新的功能、添加安全覆蓋層和執(zhí)行其他關(guān)鍵功能,而不必縮減核心數(shù)據(jù)庫。
數(shù)據(jù)編織的關(guān)鍵架構(gòu)組件
數(shù)據(jù)編織是一個打包的解決方案,利用七個關(guān)鍵組件從數(shù)據(jù)中提取分析數(shù)據(jù),并為整個企業(yè)通過統(tǒng)一的服務(wù)。這些關(guān)鍵的架構(gòu)組件包括:
數(shù)據(jù)編織的關(guān)鍵架構(gòu)組件
(1)提取數(shù)據(jù)源:數(shù)據(jù)源是系統(tǒng)產(chǎn)生的信息,將被數(shù)據(jù)編織處理、存儲和利用。這些來源可能存在于企業(yè)內(nèi)部,如企業(yè)資源規(guī)劃(ERP)軟件、客戶關(guān)系管理(CRM)軟件或人力資源信息系統(tǒng)(HRIS)。我們可以連接到非結(jié)構(gòu)化的數(shù)據(jù)源,如支持PDF和屏幕截圖的文件提交系統(tǒng),以及物聯(lián)網(wǎng)傳感器。數(shù)據(jù)編織還可以從提供公開數(shù)據(jù)的外部系統(tǒng)中獲取數(shù)據(jù),如社交媒體。最后,企業(yè)可以購買第三方數(shù)據(jù)存儲庫來完善內(nèi)部已有的信息
(2)分析和知識圖譜的處理:數(shù)據(jù)編織獲取的許多數(shù)據(jù)是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,包括來源不同的元數(shù)據(jù)。分析和知識圖系統(tǒng)將所有的數(shù)據(jù)類型轉(zhuǎn)換成一致的格式,這樣在處理時就可以沒有任何瓶頸。具體來說,用戶需要能夠查看和理解企業(yè)中各種數(shù)據(jù)源之間的關(guān)系。這就是為什么處理分析是數(shù)據(jù)編織的關(guān)鍵架構(gòu)組件,然后我們才能繼續(xù)得到數(shù)據(jù)分析結(jié)果。
(3)獲得數(shù)據(jù)分析結(jié)果的先進算法:對于這個組件,我們可以利用AI/ML算法進行連續(xù)數(shù)據(jù)監(jiān)控和實時分析結(jié)果生成。AI/ML的使用大大縮短了處理時間,并幫助我們更快地得到數(shù)據(jù)分析結(jié)果。數(shù)據(jù)必須與操作用例(如勞動力優(yōu)化或特定位置的業(yè)務(wù)決策)保持一致,以呈現(xiàn)最相關(guān)的分析結(jié)果。此外,出于安全性和合規(guī)性的考慮,所有活動都必須進行記錄。
(4)使用與交付接口連接的API和SDKs:這可能是數(shù)據(jù)編織中最重要的組成部分,使其有別于傳統(tǒng)的數(shù)據(jù)湖或倉庫。數(shù)據(jù)編織在其架構(gòu)主干中內(nèi)置了集成接口,可以與任何前端用戶的用戶界面連接,在最需要的地方提供數(shù)據(jù)分析。為此,它使用應(yīng)用程序編程接口(API)和軟件開發(fā)工具包(SDK),以及預(yù)構(gòu)建的連接器。理想情況下,它應(yīng)該有兩個集成模塊——一個是IT專業(yè)人員可以用來設(shè)置復(fù)雜集成的DIY功能,另一個是業(yè)務(wù)用戶通過自助式商業(yè)智能(BI)工具直接從數(shù)據(jù)編織中獲得的數(shù)據(jù)分析能力。
(5)數(shù)據(jù)消費層:數(shù)據(jù)消費層是指在前端實現(xiàn)數(shù)據(jù)消費的面向用戶的界面。有幾種方法可以調(diào)整這一層,以獲得數(shù)據(jù)編織投資的最大回報。例如,商業(yè)應(yīng)用內(nèi)部的嵌入式分析可以幫助用戶在其工作流程的背景下獲取信息。虛擬助手和聊天機器人可以幫助進行自然的數(shù)據(jù)探索。而且,實時事件列表可以讓運營經(jīng)理實時了解企業(yè)的關(guān)鍵事件。數(shù)據(jù)編織的優(yōu)勢在于,它可以輕松地支持所有這些需求。
(6)數(shù)據(jù)傳輸層:傳輸層的功能是幫助數(shù)據(jù)在結(jié)構(gòu)中移動。一個強大的數(shù)據(jù)傳輸層不僅能夠在系統(tǒng)之間不受干擾地移動數(shù)據(jù),而且還能夠通過端到端加密實現(xiàn)嚴格的安全性。這一層還可以用來保存重復(fù)刪除的數(shù)據(jù),這樣在移動過程中就不會產(chǎn)生新的副本。它還應(yīng)該保障由數(shù)據(jù)編織的不同組件強制執(zhí)行的壓縮效率,這樣數(shù)據(jù)更新就不會在運動中發(fā)生,從而導(dǎo)致意外的效率低下或安全風(fēng)險。
(7)托管環(huán)境:雖然這個組件在技術(shù)上是數(shù)據(jù)編織架構(gòu)的外部,但它影響了其核心組件。我們可以選擇在內(nèi)部或在云上托管數(shù)據(jù)編織。在后者的情況下,它可能會從基于云的數(shù)據(jù)管理工具(如Snowflake和容器)中獲益。無論是企業(yè)內(nèi)部的Oracle,企業(yè)內(nèi)部的SAP,還是其他什么,企業(yè)內(nèi)部的數(shù)據(jù)編織應(yīng)該與非云IT工具整合。只要與適當(dāng)?shù)墓?yīng)商合作,數(shù)據(jù)編織也很適合多云和混合云環(huán)境。
雖然我們生活在一個數(shù)據(jù)驅(qū)動的時代,但花在維持常規(guī)任務(wù)上的時間過多,而花在增加價值上的時間卻不夠。Gartner在2020年進行了一項名為《數(shù)據(jù)管理掙扎于平衡創(chuàng)新和控制》(Data Management struggle to Balance Innovation and Control)的調(diào)查,發(fā)現(xiàn)數(shù)據(jù)團隊只有22%的時間用于創(chuàng)新。其余的精力都花在維護生產(chǎn)計劃、培訓(xùn)用戶和其他非增值任務(wù)上。數(shù)據(jù)編織利用上述七個組成部分來調(diào)整這種平衡,并通過消除數(shù)據(jù)管理中的后端瓶頸,釋放頂尖人才。
企業(yè)實施和管理數(shù)據(jù)編織的8大最佳實踐
全球數(shù)據(jù)編織市場從2020年的11億美元,到2026年將增長超過3倍,達到37億美元(根據(jù)全球行業(yè)分析師),表明這一領(lǐng)域的強勁需求。如果想要實現(xiàn)一個數(shù)據(jù)編織架構(gòu)來優(yōu)化企業(yè)數(shù)據(jù)的利用方式,下面提供一些最佳實踐:
數(shù)據(jù)編織管理最佳實踐
(1)采用DataOps流程模型。
(2)主動避免構(gòu)建另一個數(shù)據(jù)湖。
(3)了解規(guī)則和監(jiān)管要求。
(4)部署基于圖形的分析方法來發(fā)現(xiàn)相關(guān)性。
(5)為大眾開發(fā)者構(gòu)建一個數(shù)據(jù)市場。
(6)利用開源技術(shù)。
(7)支持本地代碼生成。
(8)使數(shù)據(jù)編織適應(yīng)邊緣計算。
結(jié) 語
隨著數(shù)據(jù)利用率的提高,“數(shù)據(jù)孤島”必須逐漸被打破,為互聯(lián)企業(yè)讓路。數(shù)據(jù)編織的實現(xiàn)是這一過程中的一個重大飛躍——事實上,這是自20世紀70年代關(guān)系數(shù)據(jù)庫發(fā)明以來最具革命性的突破之一。這是因為數(shù)據(jù)編織不僅僅是一項技術(shù)或產(chǎn)品。它指的是架構(gòu)設(shè)計、結(jié)構(gòu)化流程和思維模式轉(zhuǎn)變,其中數(shù)據(jù)和業(yè)務(wù)操作緊密交織在一起。以下是企業(yè)必須記住的三個要點:
(1)數(shù)據(jù)編織可以顯著減少花費在常規(guī)的、非增值的數(shù)據(jù)管理任務(wù)上的時間——但它可能需要相當(dāng)大的初始投資。
(2)一個數(shù)據(jù)編織有七個關(guān)鍵的架構(gòu)組件,API和SDK層最需要注意的是避免被限制在數(shù)據(jù)湖的范圍內(nèi)。
(3)根據(jù)定義,數(shù)據(jù)編織是無限可擴展的,這意味著隨著企業(yè)的增長,需要更新和升級體系結(jié)構(gòu)。
數(shù)據(jù)編織是使每個流程、應(yīng)用程序和業(yè)務(wù)決策都以數(shù)據(jù)驅(qū)動的重要因素。選擇合適的供應(yīng)商,以確保企業(yè)未來的成功之路。
參考文獻
[1]https://www.toolbox.com/tech/big-data/articles/what-is-data-fabric/
[2]https://www.toolbox.com/tech/big-data/articles/what-is-data-governance-definition-importance-and-best-practices/
[3]https://www.toolbox.com/tech/big-data/articles/what-is-enterprise-data-management-edm-definition-importance-and-best-practices/
[4]https://www.toolbox.com/tech/big-data/articles/best-data-governance-tools/