自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

現(xiàn)代數(shù)據(jù)架構(gòu)的探索與實(shí)踐:知語數(shù)據(jù)編織系統(tǒng)

大數(shù)據(jù)
數(shù)據(jù)編織是分布式數(shù)據(jù)邏輯集成的關(guān)鍵,本次分享將對這種新型數(shù)據(jù)管理架構(gòu)展開探討,包括為什么我們需要數(shù)據(jù)編織,以及知語數(shù)據(jù)編織產(chǎn)品的相關(guān)研究和實(shí)踐。

一、背景知識(shí)簡介

1. 歷史回顧

為什么需要數(shù)據(jù)編織?回顧過去幾十年,數(shù)據(jù)管理和知識(shí)管理是兩條平行線,獨(dú)立發(fā)展?,F(xiàn)在到了認(rèn)知人工智能時(shí)代,我們知道,數(shù)據(jù)原本就是分布式的,未來也將是分布式的。過去的數(shù)據(jù)管理方式和未來的數(shù)據(jù)管理方式如何與知識(shí)管理無縫銜接是當(dāng)前需要思考的重要問題,數(shù)據(jù)編織正是在這樣的背景下誕生的。

圖片

2. 技術(shù)趨勢

美國的數(shù)據(jù)編織技術(shù)已相對成熟,國內(nèi)則需要我們一起努力推動(dòng)數(shù)據(jù)編織的發(fā)展,應(yīng)用先進(jìn)的數(shù)據(jù)管理思想,以適應(yīng)人工智能時(shí)代的需要。

圖片

3. 數(shù)據(jù)管理面臨的問題

問題之一:數(shù)據(jù)規(guī)模急劇擴(kuò)大,數(shù)據(jù)處理速度遠(yuǎn)慢于數(shù)據(jù)增長速度,利用傳統(tǒng)數(shù)據(jù)架構(gòu)處理非結(jié)構(gòu)化數(shù)據(jù)效率低。

問題之二:在混合多云環(huán)境中,數(shù)據(jù)處理“高并發(fā)”,多重?cái)?shù)據(jù)困境和復(fù)雜性增加。

問題之三:數(shù)據(jù)高度分散,存在“數(shù)據(jù)孤島”,煙囪式的封閉數(shù)據(jù)架構(gòu)造成數(shù)據(jù)運(yùn)用時(shí)的缺失與不便。

4. 傳統(tǒng)數(shù)據(jù)集成方式的缺陷

重復(fù)數(shù)據(jù):數(shù)據(jù)分層存儲(chǔ)造成大量數(shù)據(jù)冗余。出現(xiàn)這一問題主要是為了解決性能問題,為了加速查詢,不得不做一定的冗余,物化部分信息。其不僅意味著昂貴的存儲(chǔ)空間價(jià)格;而且不夠靈活,每次修改都需要對重復(fù)數(shù)據(jù)進(jìn)行額外操作。

非共享的元數(shù)據(jù)規(guī)范:不可共享的元數(shù)據(jù)規(guī)范降低了靈活性,難以管理,將會(huì)導(dǎo)致不一致的報(bào)告結(jié)果。

靈活局限性:在商務(wù)智能系統(tǒng)中采用抽象化和封裝的概念,對于提高自身的靈活性、更容易地實(shí)現(xiàn)改變和采納新的工程技術(shù)非常重要。

數(shù)據(jù)質(zhì)量下降:多數(shù)據(jù)副本導(dǎo)致的問題。

有局限的運(yùn)營報(bào)告支持:從生產(chǎn)數(shù)據(jù)庫中獲取資源到報(bào)告中,數(shù)據(jù)需要多次復(fù)制到另一區(qū)域,在極短時(shí)間內(nèi)完成不可能。大多數(shù)商務(wù)智能沒有按照運(yùn)營報(bào)告與運(yùn)營數(shù)據(jù)關(guān)聯(lián)的方式來設(shè)計(jì)。我們不得不簡化結(jié)構(gòu)來支持運(yùn)營系統(tǒng),最根本的是移除數(shù)據(jù)存儲(chǔ)區(qū)和最少化復(fù)制步驟來簡化結(jié)構(gòu)。

5. 數(shù)據(jù)管理方式能力對比

數(shù)據(jù)編織并非要取代數(shù)據(jù)倉庫或數(shù)據(jù)湖,數(shù)倉和數(shù)據(jù)湖是物理集成的方式,而數(shù)據(jù)編織則是在邏輯層面上更好地管理數(shù)據(jù),因此具有一些天然優(yōu)勢。

圖片

6. 數(shù)據(jù)編織的變遷

在數(shù)據(jù)編織 1.0 時(shí)代,Gartner 將數(shù)據(jù)編織定義為一種設(shè)計(jì)理念,充當(dāng)數(shù)據(jù)和連接過程的集成層。當(dāng)時(shí)只是定義了框架,并沒有給出深入的實(shí)現(xiàn)方式。

圖片

2022 年,進(jìn)入數(shù)據(jù)編織 2.0 時(shí)代,外部數(shù)據(jù)和邊緣數(shù)據(jù)被更多地納入中央數(shù)據(jù)范圍,因此涉及如何將內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)做互聯(lián)互通。

圖片

2024 年 3 月份,美軍提出統(tǒng)一數(shù)據(jù)參考架構(gòu) UDRA,用數(shù)據(jù)編織的技術(shù)實(shí)現(xiàn)數(shù)據(jù)網(wǎng)格的架構(gòu),標(biāo)志著數(shù)據(jù)編織已進(jìn)入 3.0 時(shí)代。我們在做自己的信創(chuàng)產(chǎn)品時(shí),可以直接基于 3.0 時(shí)代的架構(gòu)。

圖片

7. 數(shù)據(jù)網(wǎng)格

在數(shù)據(jù)網(wǎng)格架構(gòu)下,首先要把數(shù)據(jù)當(dāng)作產(chǎn)品,還要明確所有數(shù)據(jù)的所有權(quán),以及如何做自助服務(wù)和聯(lián)合治理。數(shù)據(jù)編織 3.0 時(shí)代可以很好地支持?jǐn)?shù)據(jù)網(wǎng)格的實(shí)現(xiàn)。

圖片

二、知語數(shù)據(jù)編織

1. 知語數(shù)據(jù)編織智能體

知語數(shù)據(jù)編織智能體,旨在將數(shù)據(jù)編織引擎、大模型和知識(shí)管理全部網(wǎng)絡(luò)化,構(gòu)建虛擬數(shù)據(jù)網(wǎng)絡(luò)。隨著人工智能技術(shù)的推動(dòng),無論元數(shù)據(jù)還是數(shù)據(jù),都在一套體系下進(jìn)行數(shù)據(jù)編織,當(dāng)然具體實(shí)現(xiàn)的技術(shù)引擎可能不同。

我們不僅要解決單體模型的問題,還要解決主從模式部署、聯(lián)邦式網(wǎng)絡(luò)部署模式的問題,要實(shí)現(xiàn)與大模型之間的無縫整合。因此我們設(shè)計(jì)了如下圖所示的智能體架構(gòu)。

圖片

過去在做這種架構(gòu)的時(shí)候,常常會(huì)把數(shù)據(jù)層做得很大。但是在數(shù)據(jù)編織體系下,重心回到了元數(shù)據(jù)的處理。元數(shù)據(jù)在整個(gè)數(shù)據(jù)編織網(wǎng)絡(luò)體系下,是唯一的一個(gè)知識(shí)審核點(diǎn),也就是說知識(shí)表示是通過元數(shù)據(jù)平臺(tái)來表示的。我們所處理的數(shù)據(jù)還是分散在各處的,并不需要物理上全量集中,而元數(shù)據(jù)會(huì)被統(tǒng)一集中管理。包括技術(shù)元數(shù)據(jù)、管理元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù),都被統(tǒng)一管理,并且無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),所有的元數(shù)據(jù)模型都是統(tǒng)一的,甚至一些儀表盤、工作流程、機(jī)器學(xué)習(xí)模型的元數(shù)據(jù)也都統(tǒng)一在一個(gè)圖模型的表示方法之下。

圖片

這里就會(huì)涉及如何自動(dòng)提取這些元數(shù)據(jù)。知語主動(dòng)元數(shù)據(jù)管理平臺(tái),通過推拉的方式,實(shí)現(xiàn)了全局的元數(shù)據(jù)服務(wù)。類似于京東淘寶,在可視化的產(chǎn)品平臺(tái)上可以選擇你所需要的數(shù)據(jù)產(chǎn)品。

圖片

知語數(shù)據(jù)聯(lián)邦管理平臺(tái)能夠通過對物理位置分散的不同系統(tǒng)的數(shù)據(jù)進(jìn)行聯(lián)合查詢、并行查詢、水平集群擴(kuò)展等方式,解決物理分布式數(shù)據(jù)的分析和洞察問題。我們并不需要從各處把數(shù)據(jù)物理集中起來,而是在邏輯層面訪問和使用這些數(shù)據(jù),并且與在任何應(yīng)用客戶端訪問數(shù)據(jù)是沒有差異的,這就是聯(lián)邦的方式。

圖片

知語數(shù)據(jù)編織引擎現(xiàn)已支持 50 多種數(shù)據(jù)做數(shù)據(jù)聯(lián)邦虛擬化,整體分成兩類,一類是結(jié)構(gòu)化數(shù)據(jù),另一類是非結(jié)構(gòu)化數(shù)據(jù)。通過圖模型,把結(jié)構(gòu)化和非結(jié)構(gòu)化文件集成在一起,構(gòu)建數(shù)據(jù)目錄,以供查詢。另外,為了更好地實(shí)現(xiàn)互聯(lián)互通,還加入了語義增強(qiáng)的邏輯。

圖片

其它一些功能特點(diǎn)包括,支持各種類型用戶角色,可并行已有數(shù)據(jù)平臺(tái)部署,支持多云混合,以及支持分布式數(shù)據(jù)的統(tǒng)一訪問。

圖片

目前支持的數(shù)據(jù)源包括:HDFS、關(guān)系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫、對象存儲(chǔ)、云數(shù)據(jù)倉庫,以及其它一些數(shù)據(jù)源,如 Kafka、Elasticsearch 等。

圖片

最小部署環(huán)境要求如下圖所示:

圖片

知語數(shù)據(jù)編織平臺(tái)支持的第一種部署架構(gòu)為單體模式。所有共享數(shù)據(jù)作為客戶端,所有應(yīng)用只知道數(shù)據(jù)編制平臺(tái)提供的接口,并不知道數(shù)據(jù)源實(shí)際在哪。

圖片

第二種部署架構(gòu)是主從模式,每個(gè)數(shù)據(jù)領(lǐng)域部署一套數(shù)據(jù)編織,如果需要其它領(lǐng)域的數(shù)據(jù),則通過主平臺(tái)來訪問。

圖片

第三種部署架構(gòu)是聯(lián)邦模式,即數(shù)據(jù)網(wǎng)格模式,各領(lǐng)域部署了數(shù)據(jù)編織后,域之間聯(lián)通,從任何點(diǎn)接入都可以訪問全域數(shù)據(jù)。

圖片

目前推出了社區(qū)版、企業(yè)版和高級(jí)版三個(gè)版本,各有一些不同的能力,如下圖所示:

圖片

三、場景實(shí)踐案例

接下來介紹一些成功案例。

在第一個(gè)案例中,客戶有 10 個(gè)采用不同技術(shù)構(gòu)建的數(shù)據(jù)倉庫,希望將其連接在一起。每天每個(gè)廠有超過 200G 的數(shù)據(jù),如果將數(shù)據(jù)復(fù)制一遍,成本會(huì)非常大,因此采用了輕量級(jí)的數(shù)據(jù)編織的方式。

圖片

第二個(gè)案例中,舊的架構(gòu)是將數(shù)據(jù)在物理上傳到中心節(jié)點(diǎn),時(shí)延高。為滿足審計(jì)要求,需要實(shí)時(shí)查詢、計(jì)算。針對這些需求,應(yīng)用了數(shù)據(jù)編織技術(shù)。

圖片

四、總結(jié)與展望

在當(dāng)今數(shù)據(jù)不斷增長的情況下,可以通過物理和邏輯兩種方式將數(shù)據(jù)整合并統(tǒng)一管理,物理上可以通過數(shù)據(jù)湖,而邏輯上就可以通過數(shù)據(jù)編織的方式。

圖片

現(xiàn)代數(shù)據(jù)架構(gòu)如下圖所示,原有數(shù)據(jù)中臺(tái)依然保留,根據(jù)特定需要進(jìn)行物理集成,而在此之上,加入數(shù)據(jù)編織,實(shí)現(xiàn)邏輯上的集成,并對外提供服務(wù)。

圖片

我們將數(shù)據(jù)編織能力成熟度定義了 L0~L4 五個(gè)級(jí)別,首先需要思維上的改變,并具備虛擬化的能力,在此基礎(chǔ)上統(tǒng)一元數(shù)據(jù),利用知識(shí)圖譜,最終實(shí)現(xiàn)知識(shí)自動(dòng)化。

圖片

數(shù)據(jù)編織是人工智能時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施。底層是各種物理數(shù)據(jù)源,中間建立數(shù)據(jù)編織層,在此基礎(chǔ)上是各種模型,在模型之上是智能體應(yīng)用。

圖片

以上就是本次分享的內(nèi)容,謝謝大家。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2016-03-09 10:07:54

數(shù)據(jù)架構(gòu)大數(shù)據(jù)即服務(wù)數(shù)據(jù)分析

2015-10-10 09:23:31

數(shù)據(jù)中心挑戰(zhàn)創(chuàng)新

2018-11-21 14:44:33

數(shù)據(jù)庫容器數(shù)據(jù)架構(gòu)

2016-02-25 14:40:01

云數(shù)據(jù)中心

2018-03-09 12:00:02

數(shù)字化數(shù)據(jù)庫容器

2020-03-06 16:04:10

DataOps數(shù)據(jù)分析數(shù)據(jù)質(zhì)量

2015-08-27 17:17:41

數(shù)據(jù)中心備份容災(zāi)

2022-09-26 11:01:11

ClouderaCDP數(shù)據(jù)編織

2017-03-16 09:24:31

數(shù)據(jù)集成業(yè)務(wù)

2023-06-30 13:10:54

數(shù)據(jù)聚合網(wǎng)關(guān)

2024-09-10 08:42:37

2015-08-31 10:02:26

數(shù)據(jù)中心綠色節(jié)能

2020-06-22 17:26:36

數(shù)據(jù)倉庫數(shù)據(jù)數(shù)據(jù)庫

2024-03-21 15:54:00

數(shù)據(jù)堆棧數(shù)據(jù)管理數(shù)據(jù)結(jié)構(gòu)

2017-11-03 10:47:04

數(shù)據(jù)中心容量管理

2021-04-19 14:18:17

數(shù)據(jù)分析互聯(lián)網(wǎng)運(yùn)營大數(shù)據(jù)

2020-01-09 10:50:46

數(shù)據(jù)中心IT技術(shù)

2024-04-29 13:09:00

數(shù)據(jù)中心

2022-07-06 17:46:22

DataOpsDevOps

2017-11-28 09:22:25

數(shù)據(jù)中心功耗
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)