自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

橫空出世的 Data Fabric,是下一個(gè)風(fēng)口嗎?

原創(chuàng) 精選
數(shù)據(jù)庫(kù) 其他數(shù)據(jù)庫(kù)
Fabric這個(gè)詞的本意是“織物、布、構(gòu)造“。可以想象,數(shù)據(jù)將在縱橫交錯(cuò)的、像織物那樣的云網(wǎng)絡(luò)中自由流動(dòng),沒(méi)有任何限制。不管是哪種計(jì)算模式,還是什么的網(wǎng)絡(luò),針對(duì)批數(shù)據(jù)、流數(shù)據(jù)都可以自由交換、共享和處理,那就是數(shù)據(jù)經(jīng)緯-Data Fabric帶來(lái)的新體驗(yàn)。目前對(duì)Data Fabric,還沒(méi)有特別統(tǒng)一的認(rèn)識(shí),各家對(duì)其有著自己的解讀。

Data Fabric,又名數(shù)據(jù)經(jīng)緯,是近期橫空出世的一個(gè)概念。之前對(duì)其了解甚少,近期做了個(gè)小調(diào)研,對(duì)這一概念內(nèi)涵與外延、產(chǎn)品及定位、業(yè)務(wù)與前景、未來(lái)及趨勢(shì)等做了簡(jiǎn)單整理總結(jié),分享給大家。

1、什么是Data Fabric

前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 類(lèi)別。從2019 年 Data Fabric 開(kāi)始入選 Gartner 各年度的技術(shù)趨勢(shì)。

圖片

Gartner發(fā)布的《2021年十大數(shù)據(jù)和分析技術(shù)趨勢(shì)》中,加速變革被列在了首位(Accelerating Change),其中Data Fabric作為數(shù)據(jù)基礎(chǔ)能力被再次強(qiáng)調(diào)。

圖片

2022 年 Gartner 公布的頂級(jí)戰(zhàn)略技術(shù)趨勢(shì)中,Date Fabric 入選工程信任主題的關(guān)鍵技術(shù)趨勢(shì)。

基本概念

我們?nèi)绾卫斫狻癉ata Fabric”?Fabric這個(gè)詞的本意是“織物、布、構(gòu)造“??梢韵胂?,數(shù)據(jù)將在縱橫交錯(cuò)的、像織物那樣的云網(wǎng)絡(luò)中自由流動(dòng),沒(méi)有任何限制。不管是哪種計(jì)算模式,還是什么的網(wǎng)絡(luò),針對(duì)批數(shù)據(jù)、流數(shù)據(jù)都可以自由交換、共享和處理,那就是數(shù)據(jù)經(jīng)緯-Data Fabric帶來(lái)的新體驗(yàn)。目前對(duì)Data Fabric,還沒(méi)有特別統(tǒng)一的認(rèn)識(shí),各家對(duì)其有著自己的解讀。

  • Forrester 認(rèn)為 Data Fabric“是以一種智能和安全的并且是自服務(wù)的方式,動(dòng)態(tài)地協(xié)調(diào)分布式的數(shù)據(jù)源,跨數(shù)據(jù)平臺(tái)地提供集成和可信賴的數(shù)據(jù),支持廣泛的不同應(yīng)用的分析和使用場(chǎng)景?!逼鋵W⒂趯?duì)數(shù)據(jù)集成、轉(zhuǎn)換、準(zhǔn)備、策展、安全、治理和編排的自動(dòng)化,從而實(shí)現(xiàn)了快速的數(shù)據(jù)分析和洞察,幫助業(yè)務(wù)獲得成功。
  • Gartner 將 Data Fabric 定義為一種新興的數(shù)據(jù)管理設(shè)計(jì)理念,可實(shí)現(xiàn)跨異構(gòu)數(shù)據(jù)源的增強(qiáng)數(shù)據(jù)集成和共享,通過(guò)對(duì)現(xiàn)有的、可發(fā)現(xiàn)和可推斷的元數(shù)據(jù)資產(chǎn)進(jìn)行持續(xù)分析,來(lái)支持?jǐn)?shù)據(jù)系統(tǒng)跨平臺(tái)的設(shè)計(jì)、部署和使用,從而實(shí)現(xiàn)靈活的數(shù)據(jù)交付。Gartner 強(qiáng)調(diào),通過(guò) Data Fabric,散落各處的數(shù)據(jù)孤島都能被統(tǒng)一發(fā)現(xiàn)和使用,并基于主動(dòng)元數(shù)據(jù)進(jìn)行建設(shè)和持續(xù)分析,認(rèn)為數(shù)據(jù)編織的真正價(jià)值在于它能夠通過(guò)內(nèi)置的分析技術(shù)動(dòng)態(tài)改進(jìn)數(shù)據(jù)的使用,同時(shí)通過(guò)將自動(dòng)化能力添加到整體數(shù)據(jù)管理中,使數(shù)據(jù)管理工作量減少 70% 并加快價(jià)值實(shí)現(xiàn)速度。

 發(fā)展背景

一項(xiàng)新技術(shù)的出現(xiàn),必然有其背景及規(guī)律,Data Fabric的出現(xiàn)也是為解決當(dāng)前數(shù)據(jù)場(chǎng)景的問(wèn)題。簡(jiǎn)單梳理下,可羅列為幾個(gè)痛點(diǎn)(下列數(shù)據(jù)來(lái)自Gartner的調(diào)查報(bào)告):

  • 激增的暗數(shù)據(jù)&數(shù)據(jù)孤島

隨著企業(yè)數(shù)據(jù)量激增和數(shù)據(jù)需求日趨復(fù)雜,越來(lái)越多數(shù)據(jù)技術(shù) (如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、NoSQL 數(shù)據(jù)庫(kù)、OLAP 數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)源等) 被引入,企業(yè)數(shù)據(jù)在物理上支離破碎,尤其是采用混合云&多云架構(gòu)后更是加劇了這一問(wèn)題。只有 45% 的結(jié)構(gòu)化數(shù)據(jù)應(yīng)用于業(yè)務(wù),只有不到 1% 的非結(jié)構(gòu)化數(shù)據(jù)被分析或使用,多達(dá) 68% 的數(shù)據(jù)沒(méi)有被分析,多達(dá) 82% 的企業(yè)受到數(shù)據(jù)孤島的阻礙。

  • 低效的數(shù)據(jù)交付方式

激增的企業(yè)數(shù)據(jù)、爆炸的業(yè)務(wù)需求、復(fù)雜的數(shù)據(jù)工程,讓業(yè)務(wù)自助找數(shù)、用數(shù)變得日趨困難:分析師 80% 的時(shí)間用于發(fā)現(xiàn)和準(zhǔn)備數(shù)據(jù),知識(shí)型員工將 50% 的時(shí)間浪費(fèi)在尋找數(shù)據(jù)、發(fā)現(xiàn)和糾正錯(cuò)誤以及確認(rèn)不信任的數(shù)據(jù)來(lái)源上、數(shù)據(jù)科學(xué)家花 60% 的時(shí)間清理和組織數(shù)據(jù)。

  • 日益嚴(yán)峻的數(shù)據(jù)質(zhì)量問(wèn)題

企業(yè)中 55% 的數(shù)據(jù)無(wú)法用于決策,47% 新創(chuàng)建的數(shù)據(jù)記錄至少有一個(gè)嚴(yán)重錯(cuò)誤,數(shù)據(jù)質(zhì)量差導(dǎo)致了巨額的財(cái)務(wù)損失;為解決不同數(shù)據(jù)計(jì)算和存儲(chǔ)需求,企業(yè)開(kāi)始采用越來(lái)越多的數(shù)據(jù)技術(shù) (如數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、NoSQL 數(shù)據(jù)庫(kù)、OLAP 數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)源等) ,讓實(shí)現(xiàn)“單一事實(shí)來(lái)源的數(shù)據(jù)”變得十分困難。

  • 不斷擴(kuò)大的安全合規(guī)風(fēng)險(xiǎn)

超過(guò) 70% 的用戶可以訪問(wèn)他們不應(yīng)該訪問(wèn)的數(shù)據(jù)。而隨著網(wǎng)安法、數(shù)安法、個(gè)保法、GDPR、CCPA 等數(shù)據(jù)安全和隱私保護(hù)法律的出臺(tái)和外部安全威脅越來(lái)越大,企業(yè)必須在合規(guī)和治理方面表現(xiàn)出更高的標(biāo)準(zhǔn),更難的是,企業(yè)還需同時(shí)兼顧業(yè)務(wù)的用數(shù)效率。

Gartner稱:“在過(guò)去的十年里,數(shù)據(jù)和應(yīng)用孤島的數(shù)量激增,而數(shù)據(jù)和分析(D&A)團(tuán)隊(duì)的技能型人才數(shù)量卻保持不變,甚至下降。作為一種跨平臺(tái)和業(yè)務(wù)用戶的靈活、彈性數(shù)據(jù)整合方式,Data Fabric能夠簡(jiǎn)化企業(yè)機(jī)構(gòu)的數(shù)據(jù)整合基礎(chǔ)設(shè)施并創(chuàng)建一個(gè)可擴(kuò)展架構(gòu),減少大多數(shù)數(shù)據(jù)和分析團(tuán)隊(duì)因整合難度上升而出現(xiàn)的技術(shù)債務(wù)。其真正價(jià)值在于:通過(guò)內(nèi)置的分析技術(shù)動(dòng)態(tài)改進(jìn)數(shù)據(jù)的使用,使數(shù)據(jù)管理工作量減少70%并加快價(jià)值實(shí)現(xiàn)時(shí)間。Gartner最新預(yù)測(cè)顯示,至2024年,Data Fabric可減少50%人力數(shù)據(jù)管理成本,與此同時(shí),數(shù)據(jù)使用效率會(huì)因Data Fabric的部署使用伴隨著數(shù)據(jù)類(lèi)型日益多樣化、數(shù)據(jù)孤島不斷林立、數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜,企業(yè)在分布式數(shù)據(jù)環(huán)境中高效管理和利用多維數(shù)據(jù)成為亟待解決的難題。與此同時(shí),企業(yè)上云成為一大趨勢(shì),混合數(shù)據(jù)環(huán)境下企業(yè)該如何跨平臺(tái)、跨環(huán)境,以實(shí)時(shí)的速度收集、訪問(wèn)、管理、共享數(shù)據(jù),從不斷變化、高度關(guān)聯(lián)、卻又四處分散的數(shù)據(jù)中獲得可執(zhí)行洞見(jiàn),實(shí)現(xiàn)智能化決策?面對(duì)上述數(shù)據(jù)管理難題,Data Fabric提出了一套治理“良方”。Data Fabric是一種新興的數(shù)據(jù)集成和管理理念,意在獨(dú)立于部署平臺(tái)、數(shù)據(jù)流程、地理位置和架構(gòu)方法,在不移動(dòng)數(shù)據(jù)位置的前提下,為企業(yè)內(nèi)的所有數(shù)據(jù)提供單一訪問(wèn)點(diǎn),保證數(shù)據(jù)使用端在正確的時(shí)間、正確的地點(diǎn)以實(shí)時(shí)的速度拿到正確的數(shù)據(jù)。

架構(gòu)定位

Data Fabric這一概念,尤其鮮明的架構(gòu)特點(diǎn),這也是有別于其他技術(shù)的重要區(qū)別。其實(shí)質(zhì)上是一種數(shù)據(jù)管理架構(gòu)思想,其主要目標(biāo)是打破企業(yè)內(nèi)部的數(shù)據(jù)孤島、最大化釋放數(shù)據(jù)價(jià)值。其核心理念是通過(guò)優(yōu)化跨源異構(gòu)數(shù)據(jù)的發(fā)現(xiàn)與訪問(wèn),將可信數(shù)據(jù)從所有數(shù)據(jù)源中以靈活且業(yè)務(wù)可理解的方式交付給所有相關(guān)數(shù)據(jù)消費(fèi)者,讓數(shù)據(jù)消費(fèi)者自助服務(wù)和高效協(xié)作,實(shí)現(xiàn)極致敏捷的數(shù)據(jù)交付,同時(shí)通過(guò)主動(dòng)、智能、持續(xù)的數(shù)據(jù)治理讓數(shù)據(jù)架構(gòu)持續(xù)健康,從而提供比傳統(tǒng)數(shù)據(jù)管理更多的價(jià)值。其具備以下特點(diǎn):

  • 連接數(shù)據(jù),而非集中數(shù)據(jù)

Data Fabric 的一個(gè)關(guān)鍵原則是數(shù)據(jù)集成方法的靈活性,以支持分布式生態(tài)系統(tǒng)中的數(shù)據(jù)管理。也就是說(shuō),根據(jù)場(chǎng)景的性質(zhì)及其需求,系統(tǒng)能為用戶自動(dòng)匹配最佳集成策略和數(shù)據(jù)技術(shù),而無(wú)需用戶人工搭建數(shù)據(jù)管道、選型計(jì)算存儲(chǔ)方案。這樣做一方面讓用戶可以專注于業(yè)務(wù)實(shí)現(xiàn)而無(wú)需關(guān)心技術(shù)細(xì)節(jié),另一方面也免去了數(shù)據(jù)搬運(yùn)帶來(lái)的漫長(zhǎng)等待,并節(jié)省了大量任務(wù)運(yùn)維投入和重復(fù)存儲(chǔ)成本,極大加速了數(shù)據(jù)價(jià)值實(shí)現(xiàn)。

  • 自助服務(wù),而非專家服務(wù)

數(shù)據(jù)需求指數(shù)級(jí)增長(zhǎng),而企業(yè)數(shù)據(jù)工程團(tuán)隊(duì)增長(zhǎng)卻非常緩慢,甚至有所縮減,在集中式的數(shù)據(jù)供給模式下,數(shù)據(jù)工程團(tuán)隊(duì)成為影響數(shù)據(jù)化運(yùn)營(yíng)效率的最大瓶頸,唯有讓分析師和業(yè)務(wù)人員自服務(wù)才有可能將生產(chǎn)力解放出來(lái),以滿足業(yè)務(wù)旺盛的數(shù)據(jù)化運(yùn)營(yíng)需求。Data Fabric 的最佳解決方案是實(shí)現(xiàn)數(shù)據(jù)民主化,允許業(yè)務(wù)用戶輕松發(fā)現(xiàn)并使用數(shù)據(jù)資產(chǎn),從而實(shí)現(xiàn)敏捷的數(shù)據(jù)交付。

  • 主動(dòng)智能,而非被動(dòng)人工

傳統(tǒng)數(shù)據(jù)治理往往在問(wèn)題發(fā)生后才開(kāi)始啟動(dòng),且需要從上到下推動(dòng)并通過(guò)運(yùn)動(dòng)式人工治理,這種方式難以持續(xù)且越來(lái)越無(wú)法應(yīng)對(duì)快速膨脹、錯(cuò)綜復(fù)雜的數(shù)據(jù)依賴網(wǎng)絡(luò)。而 Data Fabric 則強(qiáng)調(diào)數(shù)據(jù)治理應(yīng)更主動(dòng)和智能,即基于主動(dòng)元數(shù)據(jù)構(gòu)建智能治理能力,融入到數(shù)據(jù)全生命周期的每個(gè)環(huán)節(jié)里去,實(shí)現(xiàn)主動(dòng)、智能的數(shù)據(jù)治理。Gartner 將 Data Fabric 比喻成數(shù)據(jù)管理的'自動(dòng)駕駛":駕駛員由于某些原因注意力不集中,有點(diǎn)兒走神,汽車(chē)則主動(dòng)、及時(shí)地切換至半自動(dòng)駕駛模式,進(jìn)行必要的路線修正。即Data Fabric 以最佳的方式將數(shù)據(jù)源頭傳送到目的地,并不斷的監(jiān)控?cái)?shù)據(jù) pipeline,提出建議,最終在速度更快、成本更低的情況下采用替代方案,就如自動(dòng)駕駛汽車(chē)一樣。

  • 萬(wàn)物鏈接,而非簡(jiǎn)單替代

Fabric是一種架構(gòu)方法,該方法在各個(gè)節(jié)點(diǎn)之間提供完整的點(diǎn)對(duì)點(diǎn)連接,這些節(jié)點(diǎn)可以是數(shù)據(jù)源、存儲(chǔ)、內(nèi)部/外部應(yīng)用程序、用戶等任何訪問(wèn)數(shù)據(jù)或與數(shù)據(jù)相關(guān)的信息。Data Fabric將現(xiàn)有的數(shù)據(jù)管理系統(tǒng)和應(yīng)用程序編織在一起,提供可重用的服務(wù),涵蓋數(shù)據(jù)集成、訪問(wèn)、轉(zhuǎn)換、建模、可視化、治理和交付。為了在所有這些不同的服務(wù)之間提供連接,Data Fabric包括了連接到數(shù)據(jù)生態(tài)系統(tǒng)工具的連接器。

Data Fabric 的“真正價(jià)值在于它能夠通過(guò)其內(nèi)置分析能力來(lái)動(dòng)態(tài)改善數(shù)據(jù)的使用,從而加快實(shí)現(xiàn)數(shù)據(jù)價(jià)值的速度”,其支持全面的集成數(shù)據(jù)管理功能,包括發(fā)現(xiàn)、治理、管理和編排,并使用 AI 能力進(jìn)行語(yǔ)義探索、分析和推薦,從而從被動(dòng)的數(shù)據(jù)策略轉(zhuǎn)變?yōu)橹鲃?dòng)響應(yīng)性的數(shù)據(jù)策略,實(shí)現(xiàn)更快速的適應(yīng)業(yè)務(wù)、更敏捷的數(shù)據(jù)洞察、更有效地消除孤島、更低的成本和風(fēng)險(xiǎn)、更高效的業(yè)務(wù)協(xié)作以及更安全的數(shù)據(jù)使用。

關(guān)聯(lián)對(duì)比

作為一種新生概念,有時(shí)會(huì)與其他概念和產(chǎn)品有所混淆,那么我們來(lái)看看Data Fabric與常用一些概念的區(qū)別。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鑒了微服務(wù)和 Service Mesh 的分布式架構(gòu)思想,是一種領(lǐng)域驅(qū)動(dòng)和自服務(wù)的數(shù)據(jù)架構(gòu)設(shè)計(jì)新模式,基于面向領(lǐng)域去中心化的數(shù)據(jù)所有權(quán)和架構(gòu)、數(shù)據(jù)作為產(chǎn)品、平臺(tái)化自助數(shù)據(jù)基礎(chǔ)設(shè)施以及聯(lián)邦計(jì)算治理等四個(gè)基本原則進(jìn)行建設(shè), 通過(guò)將系統(tǒng)劃分為由較小的跨職能團(tuán)隊(duì)管理的離散域來(lái)解決大型、復(fù)雜、單體數(shù)據(jù)架構(gòu)的問(wèn)題,如缺乏數(shù)據(jù)所有權(quán)、缺乏數(shù)據(jù)質(zhì)量管理、組織難以擴(kuò)展。其核心目標(biāo)是將數(shù)據(jù)視為一種產(chǎn)品,通過(guò)利用面向領(lǐng)域的自助設(shè)計(jì)來(lái)實(shí)現(xiàn)日益龐大、多樣化且無(wú)處不在的數(shù)據(jù)集的跨域訪問(wèn)需求,使數(shù)據(jù)消費(fèi)者能夠發(fā)現(xiàn)、理解、信任和使用數(shù)據(jù)/數(shù)據(jù)產(chǎn)品(分布在不同領(lǐng)域)來(lái)推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的決策和計(jì)劃。

圖片

  • API 的訪問(wèn)方式不同。Data Mesh是面向開(kāi)發(fā)同學(xué)、API驅(qū)動(dòng)的解決方案,需要為API編寫(xiě)實(shí)現(xiàn)代碼,而Data Fabric相反,其通過(guò)低代碼、無(wú)代碼的方式進(jìn)行設(shè)計(jì),API集成在架構(gòu)內(nèi)進(jìn)行實(shí)現(xiàn),而不是直接使用它。
  • 思想不同。雖然Data Fabric和Data Mesh 都提供了跨技術(shù)、跨平臺(tái)的使用數(shù)據(jù)的架構(gòu),但前者以技術(shù)為中心,是將多種技術(shù)進(jìn)行組合使用,由 AI/ML 驅(qū)動(dòng)的增強(qiáng)和自動(dòng)化、智能元數(shù)據(jù)基礎(chǔ)和強(qiáng)大的技術(shù)骨干(即云原生、基于微服務(wù)、API 驅(qū)動(dòng)、可互操作和彈性)支持,更多的是關(guān)于管理數(shù)據(jù)技術(shù)(集成架構(gòu)),而后者則側(cè)重于組織結(jié)構(gòu)和文化變革來(lái)實(shí)現(xiàn)敏捷性,可以在于技術(shù)無(wú)關(guān)的框架內(nèi)指導(dǎo)方案設(shè)計(jì),各數(shù)據(jù)領(lǐng)域團(tuán)隊(duì)可以在更理解其所管理的數(shù)據(jù)的基礎(chǔ)下實(shí)現(xiàn)相應(yīng)的數(shù)據(jù)產(chǎn)品的交付,更多的是管理人員和流程。
  • 數(shù)據(jù)產(chǎn)品的實(shí)現(xiàn)思路不同。Data Mesh 將數(shù)據(jù)的產(chǎn)品思維作為核心設(shè)計(jì)原則,其數(shù)據(jù)是分布式的,每類(lèi)數(shù)據(jù)都是一個(gè)獨(dú)立的域(即數(shù)據(jù)產(chǎn)品),存儲(chǔ)在對(duì)應(yīng)的組織中,而Data Fabric所有的數(shù)據(jù)都會(huì)集中在一個(gè)位置(物理集中或虛擬集中),對(duì)外提供能力。其實(shí),基于數(shù)據(jù)虛擬化集成技術(shù)的Data Fabric,其數(shù)據(jù)也是分布式的,通過(guò)虛擬邏輯數(shù)據(jù)模型對(duì)外統(tǒng)一提供數(shù)據(jù)使用。
  • 數(shù)據(jù)資產(chǎn)的自動(dòng)化方式不同。Data Fabric利用基于豐富的企業(yè)元數(shù)據(jù)基礎(chǔ)(例如知識(shí)圖)來(lái)發(fā)現(xiàn)、連接、識(shí)別、建議和向數(shù)據(jù)消費(fèi)者提供數(shù)據(jù)資產(chǎn)的自動(dòng)化,而Data Mesh則依賴于數(shù)據(jù)產(chǎn)品/域所有者來(lái)推動(dòng)數(shù)據(jù)需求。
  • 依賴關(guān)系不同。Data Fabric無(wú)需依賴Data Mesh的實(shí)踐即可實(shí)施,而Data Mesh則必須利用Data Fabric來(lái)支持?jǐn)?shù)據(jù)對(duì)象和產(chǎn)品的驗(yàn)證。
  • 自動(dòng)化程度不同。Data Fabric鼓勵(lì)增強(qiáng)數(shù)據(jù)管理和跨平臺(tái)編排,以最大限度地減少人工設(shè)計(jì)、部署和維護(hù)工作。Data Mesh則傾向于對(duì)現(xiàn)有系統(tǒng)的手動(dòng)設(shè)計(jì)和編排,由業(yè)務(wù)領(lǐng)域執(zhí)行持續(xù)維護(hù)。
  • 解決方案的成熟度不同。成熟度上看,Data Fabric目前被廣泛應(yīng)用于各種數(shù)據(jù)應(yīng)用場(chǎng)景,而Data Mesh仍然處在一個(gè)未開(kāi)發(fā)的階段。

實(shí)際上,不同的公司基于自身的數(shù)據(jù)特點(diǎn)(數(shù)據(jù)量、數(shù)據(jù)速度、數(shù)據(jù)類(lèi)型等)、安全策略、技術(shù)儲(chǔ)備、性能要求、資金成本等, 對(duì)于Data Fabric或Data Mesh會(huì)有不同的具體落地方案??傊珼ata Mesh更多地是關(guān)注于人和過(guò)程而不是技術(shù)架構(gòu),而Data Fabric是一種技術(shù)架構(gòu)方法,它以一種智能的方式來(lái)應(yīng)對(duì)數(shù)據(jù)和元數(shù)據(jù)的復(fù)雜性。

  • 數(shù)據(jù)虛擬化&數(shù)據(jù)集成

圖片

  • 數(shù)據(jù)虛擬化技術(shù),作為一種被市場(chǎng)充分驗(yàn)證的成熟技術(shù)出現(xiàn)在Gartner 發(fā)布的《2021 數(shù)據(jù)管理技術(shù)成熟度曲線報(bào)告》中,它是一種將可用數(shù)據(jù)轉(zhuǎn)換成分析和報(bào)告所需形式的可選擇技術(shù),其存在于數(shù)據(jù)使用者以及數(shù)據(jù)存儲(chǔ)之間,數(shù)據(jù)使用者通過(guò)數(shù)據(jù)虛擬層訪問(wèn)數(shù)據(jù),數(shù)據(jù)虛擬化層隱藏?cái)?shù)據(jù)存儲(chǔ)。數(shù)據(jù)虛擬化技術(shù)幫助數(shù)據(jù)工程師無(wú)需移動(dòng)、復(fù)制數(shù)據(jù)即可集成多個(gè)數(shù)據(jù)源,在內(nèi)存中進(jìn)行數(shù)據(jù)的組合、準(zhǔn)備和轉(zhuǎn)換,并以需要的格式呈現(xiàn)數(shù)據(jù)。數(shù)據(jù)虛擬化方法可以幫助企業(yè)從數(shù)據(jù)中獲得更多的見(jiàn)解以及更快的響應(yīng)不斷變化的商業(yè)分析需求,同時(shí),與數(shù)據(jù)復(fù)制、移動(dòng)相比,數(shù)據(jù)虛擬化可節(jié)省50-75%的成本。
  • 數(shù)據(jù)集成是融合異構(gòu)存儲(chǔ)集合的數(shù)據(jù)并構(gòu)造統(tǒng)一數(shù)據(jù)視圖的過(guò)程,包括了數(shù)據(jù)合并、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)清洗等。傳統(tǒng)的數(shù)據(jù)集成專注于復(fù)制、移動(dòng)數(shù)據(jù),如ETL加工、數(shù)據(jù)同步等。數(shù)據(jù)虛擬化則是一種經(jīng)濟(jì)高效的現(xiàn)代數(shù)據(jù)集成技術(shù),直接連接源數(shù)據(jù),不依賴復(fù)雜和繁瑣的ETL系統(tǒng),減少了多次復(fù)制、移動(dòng)和存儲(chǔ)數(shù)據(jù)的時(shí)間和成本,同時(shí)也減少了產(chǎn)生數(shù)據(jù)錯(cuò)誤的概率。另外,數(shù)據(jù)虛擬化不僅可以做數(shù)據(jù)層面的集成,也包括接口層面的集成。因此,數(shù)據(jù)虛擬化是一種更穩(wěn)定的技術(shù)和增長(zhǎng)最快的數(shù)據(jù)集成方式。

數(shù)據(jù)虛擬化與Data Fabric的關(guān)系上,數(shù)據(jù)虛擬化是Data Fabric架構(gòu)中的關(guān)鍵技術(shù)之一,可以在不移動(dòng)數(shù)據(jù)的情況下從源頭訪問(wèn)數(shù)據(jù),通過(guò)更快、更準(zhǔn)確的查詢幫助縮短實(shí)現(xiàn)業(yè)務(wù)價(jià)值的時(shí)間。Data Fabric 的數(shù)據(jù)虛擬化層提供了跨平臺(tái)敏捷集成、統(tǒng)一語(yǔ)義、低代碼創(chuàng)建數(shù)據(jù)API(支持SQL、REST、OData和GraphQL等技術(shù))、智能緩存加速等功能,在數(shù)據(jù)處理引擎和數(shù)據(jù)消費(fèi)者之間架起了橋梁。

  • 數(shù)據(jù)湖

圖片

Data Fabric不是數(shù)據(jù)湖或者數(shù)據(jù)倉(cāng)庫(kù)的替代方案,數(shù)據(jù)湖是其異構(gòu)數(shù)據(jù)源之一(數(shù)據(jù)源可以是數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖,也可以是業(yè)務(wù)數(shù)據(jù)庫(kù)等其他數(shù)據(jù)存儲(chǔ)),Data Fabric將應(yīng)用程序與數(shù)據(jù)湖(或者數(shù)據(jù)倉(cāng)庫(kù))進(jìn)行連接,通過(guò)統(tǒng)一的數(shù)據(jù)管理框架支持在分布式的環(huán)境中進(jìn)行數(shù)據(jù)消費(fèi)。Data Fabric 可以為數(shù)據(jù)湖或數(shù)據(jù)倉(cāng)庫(kù)提供可信的數(shù)據(jù),同時(shí),基于數(shù)據(jù)湖(或者數(shù)據(jù)倉(cāng)庫(kù))的Data Fabric 為業(yè)務(wù)提供更精準(zhǔn)的洞察能力。

  • 知識(shí)圖譜

圖片

知識(shí)圖譜是Data Fabric重要的組成部分。如果將Data Fabric翻譯成數(shù)據(jù)經(jīng)緯的話,那么知識(shí)圖譜則是經(jīng)紗和緯紗,其使得Data Fabric支持動(dòng)態(tài)集成以及數(shù)據(jù)應(yīng)用編排,而作為基石的數(shù)據(jù)目錄也是基于知識(shí)圖譜進(jìn)行實(shí)現(xiàn)的。知識(shí)圖譜使得Data Fabric在良性循環(huán)中進(jìn)行持續(xù)運(yùn)營(yíng)和發(fā)展,如靈活性(可以表達(dá)任何數(shù)據(jù)和元數(shù)據(jù))、可組合性(易于增量進(jìn)化)、連接性(連接所有數(shù)據(jù)和元數(shù)據(jù)“孤島”)、無(wú)縫數(shù)據(jù)治理、面向未來(lái)(基于標(biāo)準(zhǔn))、表現(xiàn)力(最全面的“開(kāi)箱即用” 模型)、可集成性(最完整、開(kāi)放和靈活的 APIs)、智能(集成推理和機(jī)器學(xué)習(xí))等。

  • 數(shù)據(jù)中臺(tái)

圖片

數(shù)據(jù)中臺(tái)方法的本質(zhì)思想是通過(guò)對(duì)數(shù)據(jù)進(jìn)行集中式建設(shè)、集中式管理和集中式服務(wù),以提供單一事實(shí)來(lái)源的數(shù)據(jù)(single source of truth)。這就決定了數(shù)據(jù)中臺(tái)只有在數(shù)據(jù)需求較為固定、用數(shù)人群比較集中、決策頻率相對(duì)較低的情況下是比較有效的。伴隨企業(yè)數(shù)據(jù)需求日趨復(fù)雜、用數(shù)人群占比越來(lái)越大,決策頻率越來(lái)越高,業(yè)務(wù)對(duì)用數(shù)的敏捷性和靈活性要求越來(lái)越高,數(shù)據(jù)中臺(tái)這種集中的數(shù)據(jù)管理方式無(wú)法實(shí)現(xiàn)數(shù)據(jù)的敏捷性和靈活性。Data Fabric旨在提供對(duì)創(chuàng)新深度、速度要求更高的創(chuàng)新型業(yè)務(wù)更為合適。

2、Data Fabric 價(jià)值及能力

產(chǎn)品價(jià)值

Data Fabric的真正價(jià)值在于它能夠通過(guò)其內(nèi)置分析能力來(lái)動(dòng)態(tài)改善數(shù)據(jù)的使用,從而加快實(shí)現(xiàn)數(shù)據(jù)價(jià)值的速度,其支持全面的集成數(shù)據(jù)管理功能,包括發(fā)現(xiàn)、治理、管理和編排,并使用AI能力進(jìn)行語(yǔ)義探索、分析和推薦,從而從被動(dòng)的數(shù)據(jù)策略轉(zhuǎn)變?yōu)橹鲃?dòng)響應(yīng)性的數(shù)據(jù)策略,產(chǎn)生:

  • 更快地適應(yīng)業(yè)務(wù)。Data Fabric通過(guò)強(qiáng)大的查詢、搜索以及學(xué)習(xí)能力可以回答意料之外的問(wèn)題以及適應(yīng)新的業(yè)務(wù)需求。其提供了一個(gè)動(dòng)態(tài)的、可查詢的數(shù)據(jù)能力,從多個(gè)數(shù)據(jù)來(lái)源進(jìn)行數(shù)據(jù)的收集和分析,且可以充分復(fù)用數(shù)據(jù)模型(之前需要依賴創(chuàng)建新的數(shù)據(jù)模型和數(shù)據(jù)轉(zhuǎn)移復(fù)制來(lái)支持新的業(yè)務(wù)需求),因此可以快速回答和解決新的問(wèn)題和訴求。
  • 更好的洞察力。Data Fabric表達(dá)數(shù)據(jù)的業(yè)務(wù)意義(而不僅僅是通過(guò)數(shù)據(jù)改變現(xiàn)狀),從而產(chǎn)生更好的業(yè)務(wù)洞察能力。其融合多種數(shù)據(jù)來(lái)源(如數(shù)據(jù)&元數(shù)據(jù)、司內(nèi)&司外、業(yè)務(wù)內(nèi)&業(yè)務(wù)外、云端&本地等),建設(shè)可擴(kuò)展的、知識(shí)圖譜驅(qū)動(dòng)的數(shù)據(jù)模型,使得每個(gè)數(shù)據(jù)資產(chǎn)的所有上下文都可以以可理解的形式進(jìn)行使用和呈現(xiàn),幫助決策者和算法做出更優(yōu)的決策(更容易地獲得高質(zhì)量的數(shù)據(jù),從而能更快和更精確地獲得業(yè)務(wù)數(shù)據(jù)洞察),同時(shí)降低數(shù)據(jù)被濫用或者誤解的可能性和風(fēng)險(xiǎn)。
  • 更有效地消除孤島。Data Fabric通過(guò)數(shù)據(jù)聯(lián)邦、數(shù)據(jù)虛擬化、語(yǔ)義豐富、基于AI的主動(dòng)元數(shù)據(jù)、知識(shí)圖譜以及圖存儲(chǔ)等數(shù)據(jù)技術(shù),進(jìn)行數(shù)據(jù)的連接、跨數(shù)據(jù)源的訪問(wèn)和數(shù)據(jù)交付,從而減少數(shù)據(jù)孤島,尤其是數(shù)據(jù)虛擬化技術(shù)在計(jì)算層而非存儲(chǔ)層進(jìn)行數(shù)據(jù)連接,“在數(shù)據(jù)處理引擎和數(shù)據(jù)消費(fèi)者之間架起了橋梁”,這種數(shù)據(jù)的連接方式還避免了不斷產(chǎn)生新的數(shù)據(jù)孤島。DAMA認(rèn)為,消除孤島和完全問(wèn)責(zé)應(yīng)該是任何數(shù)據(jù)項(xiàng)目的核心。
  • 更低的成本和實(shí)施風(fēng)險(xiǎn)。Data Fabric的實(shí)現(xiàn)思想是是對(duì)原有技術(shù)的重新組合(技術(shù)的本質(zhì)是利用現(xiàn)象,對(duì)現(xiàn)有技術(shù)進(jìn)行重新組合,并基于目的性的機(jī)會(huì)利基進(jìn)行不斷的自我進(jìn)化),而非全新的技術(shù),通過(guò)支持組裝式數(shù)據(jù)分析及其各種組件,對(duì)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析等現(xiàn)有的技術(shù)和能力進(jìn)重新的組合和使用,并引入了新的方法、工具和平臺(tái)。另外虛擬數(shù)據(jù)集成技術(shù)的應(yīng)用,減少了數(shù)據(jù)復(fù)制、轉(zhuǎn)移的次數(shù)和數(shù)量,降低了數(shù)據(jù)質(zhì)量的風(fēng)險(xiǎn)和運(yùn)維成本,也節(jié)省了計(jì)算和存儲(chǔ)的開(kāi)銷(xiāo)。
  • 更高效的業(yè)務(wù)協(xié)作。Data Fabric是為協(xié)作、利用和鏈接現(xiàn)有資產(chǎn)和推動(dòng)跨智能的數(shù)據(jù)管理項(xiàng)目而創(chuàng)建的。通過(guò)將現(xiàn)有的數(shù)據(jù)、數(shù)據(jù)能力、應(yīng)用程序進(jìn)行自動(dòng)化關(guān)聯(lián)、編排,并創(chuàng)建全域數(shù)據(jù)的單一視圖(catalog),從而支持跨業(yè)務(wù)數(shù)據(jù)的即時(shí)有效訪問(wèn),實(shí)現(xiàn)業(yè)務(wù)間有效協(xié)作, 創(chuàng)建和維護(hù)業(yè)務(wù)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
  • 更安全的業(yè)務(wù)。Data Fabric可以實(shí)現(xiàn)自動(dòng)治理、數(shù)據(jù)保護(hù)和安全保障。其為所有的數(shù)據(jù)計(jì)劃建立分布式的數(shù)據(jù)治理層,減少合規(guī)性和監(jiān)管風(fēng)險(xiǎn),以及在平臺(tái)安全能力下防止數(shù)據(jù)泄露,并通過(guò)AI能力提升自動(dòng)化水平(如根據(jù)監(jiān)管文檔中的語(yǔ)言和定義自動(dòng)提取數(shù)據(jù)治理規(guī)則、發(fā)現(xiàn)和治理個(gè)人身份信息PII和關(guān)鍵數(shù)據(jù)元素),使得業(yè)務(wù)可以在幾分鐘內(nèi)發(fā)現(xiàn)并應(yīng)用數(shù)據(jù)治理規(guī)則,避免產(chǎn)生不良社會(huì)影響或高昂的罰款,確保所有的數(shù)據(jù)都能以合規(guī)的方式進(jìn)行存儲(chǔ)和使用,而這在當(dāng)前社會(huì)背景下尤為重要。

能力要求

針對(duì)Data Fabric,需要具備什么能力,目前還沒(méi)有行業(yè)統(tǒng)一標(biāo)準(zhǔn)。我們可以通過(guò)Forrester和Gartner對(duì)能力有個(gè)大致的了解。

Forrester 定義的能力要求

圖片

  • 數(shù)據(jù)管理。數(shù)據(jù)管理是Data Fabric的關(guān)鍵能力,包括了數(shù)據(jù)安全、數(shù)據(jù)治理、元數(shù)據(jù)&數(shù)據(jù)目錄、數(shù)據(jù)搜索、數(shù)據(jù)質(zhì)量、數(shù)據(jù)血緣等,并與其他5種能力交織在一起,保障數(shù)據(jù)的可靠性、安全性、完整性、合規(guī)性、可集成等,確保數(shù)據(jù)的信任度、數(shù)據(jù)流編排以及跨平臺(tái)的數(shù)據(jù)轉(zhuǎn)換。同時(shí)數(shù)據(jù)管理集成了AI能力,自動(dòng)化實(shí)現(xiàn)基于語(yǔ)義和知識(shí)的分析,理解數(shù)據(jù)及其業(yè)務(wù)含義,構(gòu)建知識(shí)圖譜形式的數(shù)據(jù)目錄,從而使得數(shù)據(jù)目錄更加智能化和自動(dòng)化。
  • 數(shù)據(jù)攝取和流式傳輸。數(shù)據(jù)攝取是Data Fabric的數(shù)據(jù)基礎(chǔ),處理數(shù)據(jù)連接、攝取、流式傳輸?shù)?,將?shù)據(jù)加載到大數(shù)據(jù)存儲(chǔ)中。數(shù)據(jù)攝取需要能覆蓋所有潛在的數(shù)據(jù)類(lèi)型(結(jié)構(gòu)化、非結(jié)構(gòu)化等)和數(shù)據(jù)來(lái)源(設(shè)備、日志、數(shù)據(jù)庫(kù)、點(diǎn)擊、應(yīng)用程序等),并通過(guò)多種優(yōu)化方法縮短數(shù)據(jù)的加載時(shí)間(如單個(gè)、大批量、小批量等)。
  • 數(shù)據(jù)處理和持久化。該層利用數(shù)據(jù)湖、數(shù)據(jù)中心、數(shù)據(jù)倉(cāng)庫(kù)、NoSQL 和其他數(shù)據(jù)組件(如數(shù)據(jù)管道)來(lái)處理和保存數(shù)據(jù)以供使用。Data Fabric可以將處理下推到各種數(shù)據(jù)存儲(chǔ)上,例如數(shù)據(jù)湖、對(duì)象存儲(chǔ)、NoSQL 或數(shù)據(jù)倉(cāng)庫(kù),以便在與其他來(lái)源進(jìn)一步集成之前僅獲取部分的相關(guān)數(shù)據(jù),提升數(shù)據(jù)的查詢性能。
  • 數(shù)據(jù)編排。數(shù)據(jù)編排通過(guò)轉(zhuǎn)換、集成和清洗數(shù)據(jù),實(shí)時(shí)或即時(shí)的支持各種數(shù)據(jù)使用場(chǎng)景。其通過(guò)一些技術(shù)完成跨源數(shù)據(jù)的集成訪問(wèn),并通過(guò)統(tǒng)一的、標(biāo)準(zhǔn)化的API的方式將集成轉(zhuǎn)化后的數(shù)據(jù)對(duì)外提供。
  • 數(shù)據(jù)發(fā)現(xiàn)。數(shù)據(jù)發(fā)現(xiàn)能力直接解決或者弱化了數(shù)據(jù)孤島問(wèn)題,自動(dòng)發(fā)現(xiàn)跨場(chǎng)景的數(shù)據(jù),通過(guò)數(shù)據(jù)建模、數(shù)據(jù)準(zhǔn)備以及虛擬化等技術(shù)組件為數(shù)據(jù)使用者準(zhǔn)備好可用的數(shù)據(jù)資產(chǎn),并以圖的呈現(xiàn)方式進(jìn)行數(shù)據(jù)發(fā)現(xiàn)和使用。其中數(shù)據(jù)虛擬化技術(shù)比較關(guān)鍵,其用于創(chuàng)建可以實(shí)時(shí)訪問(wèn)的數(shù)據(jù)虛擬視圖,進(jìn)行跨島查詢[25]。
  • 數(shù)據(jù)訪問(wèn)。用戶通過(guò)自服務(wù)的方式進(jìn)行數(shù)據(jù)訪問(wèn)(如應(yīng)用程序、工具、儀表盤(pán)、解決方案等),并通過(guò)高性能緩存以及其他持久化存儲(chǔ)技術(shù)保障數(shù)據(jù)的訪問(wèn)性能。
  • Gartner 定義能力要求

圖片

  • 增強(qiáng)數(shù)據(jù)目錄。數(shù)據(jù)目錄是整個(gè)架構(gòu)的基礎(chǔ),其通過(guò)元數(shù)據(jù)對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行組織和管理。在數(shù)據(jù)目錄上,使用 AI/ML進(jìn)行自動(dòng)化收集和分析所有形式的元數(shù)據(jù)以及數(shù)據(jù)上下文,包括技術(shù)元數(shù)據(jù)(如數(shù)據(jù)類(lèi)型、數(shù)據(jù)模型等)、業(yè)務(wù)元數(shù)據(jù)(如業(yè)務(wù)標(biāo)記、業(yè)務(wù)策略、業(yè)務(wù)關(guān)系等)、操作元數(shù)據(jù)(如數(shù)據(jù)操作、數(shù)據(jù)血緣、數(shù)據(jù)性能等)、社會(huì)元數(shù)據(jù)(如實(shí)體關(guān)系、UGC、評(píng)價(jià)等)等等,為形成語(yǔ)義知識(shí)圖譜以及主動(dòng)元數(shù)據(jù)做數(shù)據(jù)內(nèi)容上的準(zhǔn)備。
  • 語(yǔ)義知識(shí)圖譜。創(chuàng)建和管理知識(shí)圖譜,并使用 AI/ML 算法進(jìn)行實(shí)體連接以及連接關(guān)系的量化,以識(shí)別或者添加豐富數(shù)據(jù)間的關(guān)系(包括多個(gè)數(shù)據(jù)孤島間的數(shù)據(jù)關(guān)系,數(shù)據(jù)上下文以及語(yǔ)義相關(guān)性)用于數(shù)據(jù)洞察分析,同時(shí)也可以實(shí)現(xiàn)自動(dòng)化的機(jī)器理解和數(shù)據(jù)推理。產(chǎn)生的語(yǔ)義化數(shù)據(jù)也可用于機(jī)器學(xué)習(xí)的模型訓(xùn)練上,提升預(yù)測(cè)的精準(zhǔn)度。
  • 主動(dòng)元數(shù)據(jù)。主動(dòng)元數(shù)據(jù)是相對(duì)于靜態(tài)的被動(dòng)元數(shù)據(jù)而言的。通過(guò)AI/ML輔助生成的主動(dòng)元數(shù)據(jù)是支持自動(dòng)化數(shù)據(jù)集成和數(shù)據(jù)交付的基礎(chǔ)能力,主動(dòng)元數(shù)據(jù)的形成依賴于發(fā)現(xiàn)并連接所有形式的元數(shù)據(jù),形成獨(dú)特并不斷變化的關(guān)系,并以圖這種易于理解的方式鏈接和呈現(xiàn)元數(shù)據(jù)間的關(guān)系。通過(guò)對(duì)元數(shù)據(jù)關(guān)系圖的持續(xù)訪問(wèn)和分析,不斷發(fā)現(xiàn)和形成關(guān)鍵指標(biāo)、統(tǒng)計(jì)數(shù)據(jù)等新的關(guān)系。如訪問(wèn)頻次、數(shù)據(jù)血緣、數(shù)據(jù)性能、數(shù)據(jù)質(zhì)量等。將元數(shù)據(jù)關(guān)系數(shù)據(jù)作為特征去訓(xùn)練和豐富AI算法,同時(shí)這些算法可以產(chǎn)生或者迭代元數(shù)據(jù)的語(yǔ)義,以及改進(jìn)數(shù)據(jù)集成的設(shè)計(jì)、自動(dòng)化流程。
  • 推薦引擎。推薦引擎與業(yè)務(wù)相關(guān),將基于專家經(jīng)驗(yàn)形成的規(guī)則或者機(jī)器模型學(xué)習(xí)的結(jié)果,以及結(jié)合主動(dòng)元數(shù)據(jù),用在數(shù)據(jù)質(zhì)量監(jiān)控以及優(yōu)化改進(jìn)數(shù)據(jù)的準(zhǔn)備過(guò)程(如集成流程或者引擎優(yōu)化),如元數(shù)據(jù)推薦、流程推薦、資產(chǎn)推薦、建議推薦、執(zhí)行計(jì)劃推薦、計(jì)算引擎推薦等。
  • 數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)交付。Data Fabric的數(shù)據(jù)準(zhǔn)備和交付是在數(shù)據(jù)pipline中進(jìn)行數(shù)據(jù)的轉(zhuǎn)化和集成。數(shù)據(jù)集成對(duì)于Data Fabric至關(guān)重要, 通過(guò)批處理、數(shù)據(jù)復(fù)制、數(shù)據(jù)同步、流數(shù)據(jù)集成以及數(shù)據(jù)虛擬化(在數(shù)據(jù)查詢時(shí)完成數(shù)據(jù)轉(zhuǎn)化)等方式進(jìn)行跨源、跨環(huán)境(如多云、混合云、供應(yīng)商)的數(shù)據(jù)集成,將數(shù)據(jù)準(zhǔn)備折疊到數(shù)據(jù)交付層(將準(zhǔn)備好的數(shù)據(jù)進(jìn)行交付)。
  • 數(shù)據(jù)編排和DataOps。數(shù)據(jù)編排是用于驅(qū)動(dòng)數(shù)據(jù)準(zhǔn)備工作流的流程,用來(lái)集成、轉(zhuǎn)換和交付各種數(shù)據(jù)和分析用例的數(shù)據(jù)。DataOps是將類(lèi)似于DevOps的持續(xù)集成、持續(xù)部署的原則應(yīng)用于數(shù)據(jù)pipeline,更加敏捷和嚴(yán)格的進(jìn)行數(shù)據(jù)交付?;贏I的自動(dòng)化數(shù)據(jù)編排是Data Fabric架構(gòu)設(shè)計(jì)以及落地的關(guān)鍵,通過(guò)組合和重用集成組件,快速支持當(dāng)下以及未來(lái)需求。存儲(chǔ)和計(jì)算分離是未來(lái)數(shù)據(jù)管理的趨勢(shì),Data Fabric通過(guò)自動(dòng)化來(lái)管理和編排跨組織、跨平臺(tái)的的數(shù)據(jù)pipeline,包括數(shù)據(jù)流協(xié)調(diào)、維護(hù)、操作、性能優(yōu)化、集成負(fù)載調(diào)度等,大幅提高數(shù)據(jù)管理團(tuán)隊(duì)的工作效率。

3、Data Fabric 廠商實(shí)踐

Data Fabric (數(shù)據(jù)經(jīng)緯)目前是一個(gè)IT熱點(diǎn),眾多國(guó)內(nèi)外公司均推出了針對(duì) Data Fabric 的解決方案。下面看看幾個(gè)典型廠商的產(chǎn)品及方案。

IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data針對(duì)上述Data Fabric (數(shù)據(jù)經(jīng)緯)擁有四個(gè) AI賦能的自動(dòng)化能力。

圖片

  • AutoCatalog:元數(shù)據(jù)的管理是挖掘數(shù)據(jù)價(jià)值,把各個(gè)不同來(lái)源的數(shù)據(jù)很好利用起來(lái)的重要技術(shù)環(huán)節(jié)。AutoCatalog 可以看成是 IBM 研發(fā) AI 賦能的分類(lèi)大腦,可以根據(jù)發(fā)現(xiàn)數(shù)據(jù)和分類(lèi)的流程實(shí)現(xiàn)自動(dòng)化,進(jìn)行自動(dòng)分類(lèi)之后建立自動(dòng)化目錄,維護(hù)來(lái)自不同數(shù)據(jù)環(huán)境數(shù)據(jù)資產(chǎn)的 Dynamic 的實(shí)時(shí)目錄。
  • AutoAI:AutoAI 的主要功能是盡量降低 AI 模型開(kāi)發(fā)、模型校正、模型自我重新培訓(xùn)的技術(shù)門(mén)檻和人力付出,從而對(duì)動(dòng)態(tài)的數(shù)據(jù)和整個(gè) AI 本身算法生命的周期進(jìn)行自動(dòng)化。
  • AutoPrivacy:實(shí)際上 AutoPrivacy 主要是通過(guò)數(shù)據(jù)隱私框架當(dāng)中的關(guān)鍵能力,使用 AI 的能力智能化地識(shí)別企業(yè)內(nèi)部的敏感數(shù)據(jù),當(dāng)被調(diào)用的時(shí)候系統(tǒng)能夠識(shí)別到、監(jiān)控到,甚至在后續(xù)當(dāng)定義敏感數(shù)據(jù)的使用和保護(hù)時(shí),就可以為企業(yè)內(nèi)部的政策實(shí)施自動(dòng)化提供了技術(shù)和智能化的保障。
  • AutoSQL:因?yàn)槲覀儸F(xiàn)在要解決的問(wèn)題是跨混合多云環(huán)境實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)的自動(dòng)化,當(dāng)寫(xiě)一個(gè)傳統(tǒng) SQL 的時(shí)候,首先要知道這個(gè)數(shù)據(jù)在什么地方。我們通過(guò) AutoSQL 的技術(shù)來(lái)實(shí)現(xiàn)訪問(wèn)數(shù)據(jù)的自動(dòng)化,無(wú)須物理地移動(dòng)這些數(shù)據(jù),從而提高了數(shù)據(jù)查詢的速度,也降低了使用數(shù)據(jù)的人對(duì)數(shù)據(jù)來(lái)源所需要的了解。

 Aloudata NoETL

圖片

  • 主動(dòng)元數(shù)據(jù)。主動(dòng)元數(shù)據(jù)是實(shí)現(xiàn) Data Fabric 的基石,它類(lèi)似于智能駕駛汽車(chē)的傳感器及信號(hào)解析處理模塊,為推薦引擎、DataOps、數(shù)據(jù)虛擬化和主動(dòng)數(shù)據(jù)治理提供了數(shù)據(jù)支撐。數(shù)據(jù)管理策略的有效性絕大部分取決于主動(dòng)元數(shù)據(jù)建設(shè)的好壞,企業(yè)落地 Data Fabric 的首要任務(wù),就是構(gòu)建全面、準(zhǔn)確、實(shí)時(shí)的主動(dòng)元數(shù)據(jù),并持續(xù)優(yōu)化以獲得更好的數(shù)據(jù)管理效果。其具備如下能力:快速發(fā)現(xiàn)全鏈路元數(shù)據(jù)、實(shí)時(shí)、精細(xì)、準(zhǔn)確的全鏈路血緣、采集數(shù)據(jù)生態(tài)的所有元數(shù)據(jù)、以知識(shí)圖譜方式組織元數(shù)據(jù)、實(shí)時(shí)、高效、易擴(kuò)展的數(shù)據(jù)畫(huà)像打標(biāo)等。
  • 推薦引擎。推薦引擎將基于專家經(jīng)驗(yàn)形成的規(guī)則或者機(jī)器學(xué)習(xí)模型,用于 DataOps、數(shù)據(jù)管理以及數(shù)據(jù)準(zhǔn)備及服務(wù) (如數(shù)據(jù)集成方案或者引擎性能優(yōu)化) ,其推薦范圍可以涵蓋數(shù)據(jù)全生命周期各個(gè)階段,如數(shù)據(jù)資產(chǎn)推薦、數(shù)據(jù)用法推薦、數(shù)據(jù)集成方案推薦、執(zhí)行計(jì)劃推薦、計(jì)算引擎推薦、數(shù)據(jù)分類(lèi)建議、數(shù)據(jù)時(shí)效提升建議、數(shù)據(jù)安全風(fēng)控建議、成本治理建議等。其具備如下能力:數(shù)據(jù)資產(chǎn)業(yè)務(wù)分類(lèi)推薦、智能 SQL 用法聯(lián)想、智能查詢加速、智能資產(chǎn)推薦等。
  • 增強(qiáng)數(shù)據(jù)目錄。Aloudata 增強(qiáng)數(shù)據(jù)目錄 (Aloudata BIG Catalog) 以主動(dòng)元數(shù)據(jù)為核心,將 AI 和機(jī)器學(xué)習(xí)用于元數(shù)據(jù)收集、語(yǔ)義推理和分類(lèi)打標(biāo),自動(dòng)對(duì)數(shù)據(jù)進(jìn)行編目,從而最大限度減少手工維護(hù)元數(shù)據(jù)的工作,從而為業(yè)務(wù)人員提供以下關(guān)鍵特性和體驗(yàn):語(yǔ)義化數(shù)據(jù)搜索、全景數(shù)據(jù)畫(huà)像、可視化血緣分析、全域數(shù)據(jù)探索等。
  • 數(shù)據(jù)虛擬化。數(shù)據(jù)虛擬化是實(shí)現(xiàn) Data Fabric 的核心,它承擔(dān)了業(yè)務(wù)人員自助完成數(shù)據(jù)集成、準(zhǔn)備和交付的關(guān)鍵職責(zé),它在數(shù)據(jù)源與數(shù)據(jù)消費(fèi)端之間提供了一個(gè)連接、整合以及消費(fèi)數(shù)據(jù)的虛擬語(yǔ)義層,用戶可以通過(guò)定義數(shù)據(jù)查詢來(lái)完成數(shù)據(jù)轉(zhuǎn)換,從而實(shí)現(xiàn)對(duì)跨源、跨環(huán)境 (如多云、混合云、Saas 軟件供應(yīng)商) 的數(shù)據(jù)進(jìn)行透明集成、自助準(zhǔn)備以及高性能服務(wù)。其具備如下能力:高性能聯(lián)邦查詢、全場(chǎng)景智能加速、全鏈路數(shù)據(jù)編排、零運(yùn)維數(shù)據(jù)更新、標(biāo)準(zhǔn)化協(xié)議接入、精細(xì)化安全管控等。
  • DataOps。DataOps 理念被提出,它的核心內(nèi)涵是將類(lèi)似于 DevOps 的敏捷研發(fā)、持續(xù)集成、持續(xù)部署等原則應(yīng)用于數(shù)據(jù)研發(fā)和管理過(guò)程,以實(shí)現(xiàn)更加敏捷和高質(zhì)的數(shù)據(jù)交付,通常來(lái)說(shuō),落地 DataOps 必須具備以下關(guān)鍵能力:一站式數(shù)據(jù)研發(fā)、數(shù)據(jù)變更 CI/CD、嵌入式治理管控、數(shù)據(jù)質(zhì)量可觀測(cè)等。

極數(shù)云舟-DTark

北京極數(shù)云舟科技有限公司( Cloud-ark )是一家致力于數(shù)據(jù)處理基礎(chǔ)技術(shù)研發(fā)的高新技術(shù)企業(yè),結(jié)合數(shù)據(jù)處理領(lǐng)域最前沿的Data Fabric理論,創(chuàng)造性地提出廣義數(shù)據(jù)庫(kù)系統(tǒng),并自主實(shí)現(xiàn)內(nèi)核層多引擎融合技術(shù),打造核心產(chǎn)品:云舟數(shù)據(jù)經(jīng)緯平臺(tái)(DTark),助力用戶打造簡(jiǎn)單、高效、便捷與可持續(xù)發(fā)展的企業(yè)數(shù)據(jù)基座。

圖片

DTark核心技術(shù)本質(zhì)是實(shí)現(xiàn)了多引擎融合數(shù)據(jù)處理,同時(shí)也實(shí)現(xiàn)了數(shù)據(jù)多副本、水平彈性伸縮、數(shù)據(jù)一致性、透明高可用、分層解耦等能力,基于成熟開(kāi)源組件,并兼容開(kāi)源協(xié)議和技術(shù)生態(tài)體系,穩(wěn)定可靠,簡(jiǎn)單易用,軟件核心源代碼及關(guān)鍵技術(shù)自主研發(fā),產(chǎn)品安全可控。極數(shù)云舟基于DTark產(chǎn)品,服務(wù)能力覆蓋復(fù)雜企業(yè)數(shù)據(jù)管理、數(shù)據(jù)平臺(tái)建設(shè)、數(shù)據(jù)庫(kù)系統(tǒng)及管理,助力客戶數(shù)字化、智慧化等基于數(shù)據(jù)融合服務(wù)的數(shù)據(jù)基座建設(shè),也為數(shù)據(jù)中臺(tái)、大數(shù)據(jù)平臺(tái)建設(shè)提供了新動(dòng)力,在提高性能、降低成本、減少定制化、降低系統(tǒng)復(fù)雜度、提升系統(tǒng)可持續(xù)發(fā)展能力等方面獨(dú)具優(yōu)勢(shì):

  • 數(shù)據(jù)接入的融合:基于成熟開(kāi)源組件,穩(wěn)定可靠,兼容MySQL協(xié)議和技術(shù)生態(tài)體系。
  • 數(shù)據(jù)存儲(chǔ)的融合:可實(shí)現(xiàn)數(shù)據(jù)多副本、水平彈性伸縮、數(shù)據(jù)一致性、透明高可用、分層解耦融合。
  • 數(shù)據(jù)引擎融合:多引擎融合解決數(shù)據(jù)多樣性存儲(chǔ)的橫向打通。
  • 數(shù)據(jù)接入的擴(kuò)展:支持信息系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)、工業(yè)物聯(lián)網(wǎng)時(shí)序數(shù)據(jù)、科學(xué)引擎接口數(shù)據(jù)的可擴(kuò)展接入。
  • 數(shù)據(jù)輸出的擴(kuò)展:數(shù)據(jù)服務(wù)化要作為數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)能力。
  • 數(shù)據(jù)引擎的擴(kuò)展:針對(duì)數(shù)據(jù)類(lèi)型與計(jì)算需求可擴(kuò)展至 在線事務(wù)處理、在線分析處理、時(shí)序數(shù)據(jù)處理、全文檢索、知識(shí)庫(kù)等多種引擎。

作者介紹

韓鋒,51CTO社區(qū)編輯,CCIA(中國(guó)計(jì)算機(jī)協(xié)會(huì))常務(wù)理事,前Oracle ACE,騰訊TVP,阿里云MVP,dbaplus等多家社群創(chuàng)始人或?qū)<覉F(tuán)成員。有著豐富的一線數(shù)據(jù)庫(kù)架構(gòu)、軟件研發(fā)、產(chǎn)品設(shè)計(jì)、團(tuán)隊(duì)管理經(jīng)驗(yàn)。曾擔(dān)任多家公司首席DBA、數(shù)據(jù)庫(kù)架構(gòu)師等職。在云、電商、金融、互聯(lián)網(wǎng)等行業(yè)均有涉獵,精通多種關(guān)系型數(shù)據(jù)庫(kù),對(duì)NoSQL及大數(shù)據(jù)相關(guān)技術(shù)也有涉足,實(shí)踐經(jīng)驗(yàn)豐富。曾著有數(shù)據(jù)庫(kù)相關(guān)著作《SQL優(yōu)化最佳實(shí)踐》、《數(shù)據(jù)庫(kù)高效優(yōu)化》。

責(zé)任編輯:姜華 來(lái)源: 韓鋒頻道
相關(guān)推薦

2021-08-11 18:23:08

數(shù)據(jù)平臺(tái)IT

2010-03-25 10:04:10

UbuntuOne M

2010-12-09 09:09:37

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2018-05-13 09:45:53

共享經(jīng)濟(jì)

2016-10-08 23:30:58

Power8云計(jì)算

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2023-02-21 21:48:29

2020-06-01 14:20:35

DenoNodeJS開(kāi)發(fā)

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2014-01-17 14:08:45

移動(dòng)os國(guó)產(chǎn)軟件

2016-04-27 11:01:11

SparkStormApache Apex

2023-04-19 07:34:21

AutoGPT程序員GitHub

2021-01-18 06:17:00

騰訊阿里低代碼

2011-05-04 15:09:56

激光打印機(jī)奔圖科技

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2020-10-12 14:47:25

芯片半導(dǎo)體技術(shù)

2014-11-13 16:37:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)