現(xiàn)代數(shù)據(jù)架構(gòu)的探索與實(shí)踐:知語數(shù)據(jù)編織系統(tǒng)
一、背景知識(shí)簡介
1. 歷史回顧
為什么需要數(shù)據(jù)編織?回顧過去幾十年,數(shù)據(jù)管理和知識(shí)管理是兩條平行線,獨(dú)立發(fā)展?,F(xiàn)在到了認(rèn)知人工智能時(shí)代,我們知道,數(shù)據(jù)原本就是分布式的,未來也將是分布式的。過去的數(shù)據(jù)管理方式和未來的數(shù)據(jù)管理方式如何與知識(shí)管理無縫銜接是當(dāng)前需要思考的重要問題,數(shù)據(jù)編織正是在這樣的背景下誕生的。
2. 技術(shù)趨勢
美國的數(shù)據(jù)編織技術(shù)已相對成熟,國內(nèi)則需要我們一起努力推動(dòng)數(shù)據(jù)編織的發(fā)展,應(yīng)用先進(jìn)的數(shù)據(jù)管理思想,以適應(yīng)人工智能時(shí)代的需要。
3. 數(shù)據(jù)管理面臨的問題
問題之一:數(shù)據(jù)規(guī)模急劇擴(kuò)大,數(shù)據(jù)處理速度遠(yuǎn)慢于數(shù)據(jù)增長速度,利用傳統(tǒng)數(shù)據(jù)架構(gòu)處理非結(jié)構(gòu)化數(shù)據(jù)效率低。
問題之二:在混合多云環(huán)境中,數(shù)據(jù)處理“高并發(fā)”,多重?cái)?shù)據(jù)困境和復(fù)雜性增加。
問題之三:數(shù)據(jù)高度分散,存在“數(shù)據(jù)孤島”,煙囪式的封閉數(shù)據(jù)架構(gòu)造成數(shù)據(jù)運(yùn)用時(shí)的缺失與不便。
4. 傳統(tǒng)數(shù)據(jù)集成方式的缺陷
重復(fù)數(shù)據(jù):數(shù)據(jù)分層存儲(chǔ)造成大量數(shù)據(jù)冗余。出現(xiàn)這一問題主要是為了解決性能問題,為了加速查詢,不得不做一定的冗余,物化部分信息。其不僅意味著昂貴的存儲(chǔ)空間價(jià)格;而且不夠靈活,每次修改都需要對重復(fù)數(shù)據(jù)進(jìn)行額外操作。
非共享的元數(shù)據(jù)規(guī)范:不可共享的元數(shù)據(jù)規(guī)范降低了靈活性,難以管理,將會(huì)導(dǎo)致不一致的報(bào)告結(jié)果。
靈活局限性:在商務(wù)智能系統(tǒng)中采用抽象化和封裝的概念,對于提高自身的靈活性、更容易地實(shí)現(xiàn)改變和采納新的工程技術(shù)非常重要。
數(shù)據(jù)質(zhì)量下降:多數(shù)據(jù)副本導(dǎo)致的問題。
有局限的運(yùn)營報(bào)告支持:從生產(chǎn)數(shù)據(jù)庫中獲取資源到報(bào)告中,數(shù)據(jù)需要多次復(fù)制到另一區(qū)域,在極短時(shí)間內(nèi)完成不可能。大多數(shù)商務(wù)智能沒有按照運(yùn)營報(bào)告與運(yùn)營數(shù)據(jù)關(guān)聯(lián)的方式來設(shè)計(jì)。我們不得不簡化結(jié)構(gòu)來支持運(yùn)營系統(tǒng),最根本的是移除數(shù)據(jù)存儲(chǔ)區(qū)和最少化復(fù)制步驟來簡化結(jié)構(gòu)。
5. 數(shù)據(jù)管理方式能力對比
數(shù)據(jù)編織并非要取代數(shù)據(jù)倉庫或數(shù)據(jù)湖,數(shù)倉和數(shù)據(jù)湖是物理集成的方式,而數(shù)據(jù)編織則是在邏輯層面上更好地管理數(shù)據(jù),因此具有一些天然優(yōu)勢。
6. 數(shù)據(jù)編織的變遷
在數(shù)據(jù)編織 1.0 時(shí)代,Gartner 將數(shù)據(jù)編織定義為一種設(shè)計(jì)理念,充當(dāng)數(shù)據(jù)和連接過程的集成層。當(dāng)時(shí)只是定義了框架,并沒有給出深入的實(shí)現(xiàn)方式。
2022 年,進(jìn)入數(shù)據(jù)編織 2.0 時(shí)代,外部數(shù)據(jù)和邊緣數(shù)據(jù)被更多地納入中央數(shù)據(jù)范圍,因此涉及如何將內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)做互聯(lián)互通。
2024 年 3 月份,美軍提出統(tǒng)一數(shù)據(jù)參考架構(gòu) UDRA,用數(shù)據(jù)編織的技術(shù)實(shí)現(xiàn)數(shù)據(jù)網(wǎng)格的架構(gòu),標(biāo)志著數(shù)據(jù)編織已進(jìn)入 3.0 時(shí)代。我們在做自己的信創(chuàng)產(chǎn)品時(shí),可以直接基于 3.0 時(shí)代的架構(gòu)。
7. 數(shù)據(jù)網(wǎng)格
在數(shù)據(jù)網(wǎng)格架構(gòu)下,首先要把數(shù)據(jù)當(dāng)作產(chǎn)品,還要明確所有數(shù)據(jù)的所有權(quán),以及如何做自助服務(wù)和聯(lián)合治理。數(shù)據(jù)編織 3.0 時(shí)代可以很好地支持?jǐn)?shù)據(jù)網(wǎng)格的實(shí)現(xiàn)。
二、知語數(shù)據(jù)編織
1. 知語數(shù)據(jù)編織智能體
知語數(shù)據(jù)編織智能體,旨在將數(shù)據(jù)編織引擎、大模型和知識(shí)管理全部網(wǎng)絡(luò)化,構(gòu)建虛擬數(shù)據(jù)網(wǎng)絡(luò)。隨著人工智能技術(shù)的推動(dòng),無論元數(shù)據(jù)還是數(shù)據(jù),都在一套體系下進(jìn)行數(shù)據(jù)編織,當(dāng)然具體實(shí)現(xiàn)的技術(shù)引擎可能不同。
我們不僅要解決單體模型的問題,還要解決主從模式部署、聯(lián)邦式網(wǎng)絡(luò)部署模式的問題,要實(shí)現(xiàn)與大模型之間的無縫整合。因此我們設(shè)計(jì)了如下圖所示的智能體架構(gòu)。
過去在做這種架構(gòu)的時(shí)候,常常會(huì)把數(shù)據(jù)層做得很大。但是在數(shù)據(jù)編織體系下,重心回到了元數(shù)據(jù)的處理。元數(shù)據(jù)在整個(gè)數(shù)據(jù)編織網(wǎng)絡(luò)體系下,是唯一的一個(gè)知識(shí)審核點(diǎn),也就是說知識(shí)表示是通過元數(shù)據(jù)平臺(tái)來表示的。我們所處理的數(shù)據(jù)還是分散在各處的,并不需要物理上全量集中,而元數(shù)據(jù)會(huì)被統(tǒng)一集中管理。包括技術(shù)元數(shù)據(jù)、管理元數(shù)據(jù)、業(yè)務(wù)元數(shù)據(jù),都被統(tǒng)一管理,并且無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),所有的元數(shù)據(jù)模型都是統(tǒng)一的,甚至一些儀表盤、工作流程、機(jī)器學(xué)習(xí)模型的元數(shù)據(jù)也都統(tǒng)一在一個(gè)圖模型的表示方法之下。
這里就會(huì)涉及如何自動(dòng)提取這些元數(shù)據(jù)。知語主動(dòng)元數(shù)據(jù)管理平臺(tái),通過推拉的方式,實(shí)現(xiàn)了全局的元數(shù)據(jù)服務(wù)。類似于京東淘寶,在可視化的產(chǎn)品平臺(tái)上可以選擇你所需要的數(shù)據(jù)產(chǎn)品。
知語數(shù)據(jù)聯(lián)邦管理平臺(tái)能夠通過對物理位置分散的不同系統(tǒng)的數(shù)據(jù)進(jìn)行聯(lián)合查詢、并行查詢、水平集群擴(kuò)展等方式,解決物理分布式數(shù)據(jù)的分析和洞察問題。我們并不需要從各處把數(shù)據(jù)物理集中起來,而是在邏輯層面訪問和使用這些數(shù)據(jù),并且與在任何應(yīng)用客戶端訪問數(shù)據(jù)是沒有差異的,這就是聯(lián)邦的方式。
知語數(shù)據(jù)編織引擎現(xiàn)已支持 50 多種數(shù)據(jù)做數(shù)據(jù)聯(lián)邦虛擬化,整體分成兩類,一類是結(jié)構(gòu)化數(shù)據(jù),另一類是非結(jié)構(gòu)化數(shù)據(jù)。通過圖模型,把結(jié)構(gòu)化和非結(jié)構(gòu)化文件集成在一起,構(gòu)建數(shù)據(jù)目錄,以供查詢。另外,為了更好地實(shí)現(xiàn)互聯(lián)互通,還加入了語義增強(qiáng)的邏輯。
其它一些功能特點(diǎn)包括,支持各種類型用戶角色,可并行已有數(shù)據(jù)平臺(tái)部署,支持多云混合,以及支持分布式數(shù)據(jù)的統(tǒng)一訪問。
目前支持的數(shù)據(jù)源包括:HDFS、關(guān)系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫、對象存儲(chǔ)、云數(shù)據(jù)倉庫,以及其它一些數(shù)據(jù)源,如 Kafka、Elasticsearch 等。
最小部署環(huán)境要求如下圖所示:
知語數(shù)據(jù)編織平臺(tái)支持的第一種部署架構(gòu)為單體模式。所有共享數(shù)據(jù)作為客戶端,所有應(yīng)用只知道數(shù)據(jù)編制平臺(tái)提供的接口,并不知道數(shù)據(jù)源實(shí)際在哪。
第二種部署架構(gòu)是主從模式,每個(gè)數(shù)據(jù)領(lǐng)域部署一套數(shù)據(jù)編織,如果需要其它領(lǐng)域的數(shù)據(jù),則通過主平臺(tái)來訪問。
第三種部署架構(gòu)是聯(lián)邦模式,即數(shù)據(jù)網(wǎng)格模式,各領(lǐng)域部署了數(shù)據(jù)編織后,域之間聯(lián)通,從任何點(diǎn)接入都可以訪問全域數(shù)據(jù)。
目前推出了社區(qū)版、企業(yè)版和高級(jí)版三個(gè)版本,各有一些不同的能力,如下圖所示:
三、場景實(shí)踐案例
接下來介紹一些成功案例。
在第一個(gè)案例中,客戶有 10 個(gè)采用不同技術(shù)構(gòu)建的數(shù)據(jù)倉庫,希望將其連接在一起。每天每個(gè)廠有超過 200G 的數(shù)據(jù),如果將數(shù)據(jù)復(fù)制一遍,成本會(huì)非常大,因此采用了輕量級(jí)的數(shù)據(jù)編織的方式。
第二個(gè)案例中,舊的架構(gòu)是將數(shù)據(jù)在物理上傳到中心節(jié)點(diǎn),時(shí)延高。為滿足審計(jì)要求,需要實(shí)時(shí)查詢、計(jì)算。針對這些需求,應(yīng)用了數(shù)據(jù)編織技術(shù)。
四、總結(jié)與展望
在當(dāng)今數(shù)據(jù)不斷增長的情況下,可以通過物理和邏輯兩種方式將數(shù)據(jù)整合并統(tǒng)一管理,物理上可以通過數(shù)據(jù)湖,而邏輯上就可以通過數(shù)據(jù)編織的方式。
現(xiàn)代數(shù)據(jù)架構(gòu)如下圖所示,原有數(shù)據(jù)中臺(tái)依然保留,根據(jù)特定需要進(jìn)行物理集成,而在此之上,加入數(shù)據(jù)編織,實(shí)現(xiàn)邏輯上的集成,并對外提供服務(wù)。
我們將數(shù)據(jù)編織能力成熟度定義了 L0~L4 五個(gè)級(jí)別,首先需要思維上的改變,并具備虛擬化的能力,在此基礎(chǔ)上統(tǒng)一元數(shù)據(jù),利用知識(shí)圖譜,最終實(shí)現(xiàn)知識(shí)自動(dòng)化。
數(shù)據(jù)編織是人工智能時(shí)代的數(shù)據(jù)基礎(chǔ)設(shè)施。底層是各種物理數(shù)據(jù)源,中間建立數(shù)據(jù)編織層,在此基礎(chǔ)上是各種模型,在模型之上是智能體應(yīng)用。
以上就是本次分享的內(nèi)容,謝謝大家。