自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

金融信創(chuàng)湖倉一體數(shù)據(jù)平臺架構(gòu)實踐

大數(shù)據(jù) 數(shù)據(jù)湖
本文將分享數(shù)新網(wǎng)絡(luò)在金融信創(chuàng)領(lǐng)域湖倉一體數(shù)據(jù)平臺架構(gòu)方面的實踐經(jīng)驗。湖倉一體架構(gòu)則解決了這些問題,它整合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢,創(chuàng)建一體化和開放式的數(shù)據(jù)處理平臺。

一、數(shù)據(jù)平臺架構(gòu)演進

圖片

大數(shù)據(jù)基礎(chǔ)設(shè)施的發(fā)展經(jīng)歷了四個主要階段,每個階段都有著標(biāo)志性的技術(shù)進步來應(yīng)對新的應(yīng)用需求。

第一階段:數(shù)據(jù)倉庫。在這個階段,數(shù)據(jù)平臺主要用于支持在線分析處理(OLAP)和商業(yè)智能(BI)報表分析。技術(shù)上的代表包括 Oracle 的共享存儲架構(gòu)和 Teradata 的大規(guī)模并行處理架構(gòu)。

第二階段:數(shù)據(jù)平臺。隨著大數(shù)據(jù)的興起,數(shù)據(jù)平臺開始以大規(guī)模數(shù)據(jù)存儲和計算為特點,主要服務(wù)于流批計算場景。這一階段的代表技術(shù)是 Hadoop,它從早期的單一 MapReduce 計算引擎發(fā)展到支持多元化計算引擎的 2.0 階段,能夠應(yīng)對更復(fù)雜的數(shù)據(jù)分析需求。

第三階段:數(shù)據(jù)中臺。數(shù)據(jù)中臺在技術(shù)上延續(xù)了數(shù)據(jù)平臺的相關(guān)技術(shù),如Hadoop,并融合了數(shù)據(jù)組織和變革管理,形成了更為完善的數(shù)據(jù)服務(wù)能力。

第四階段:云數(shù)據(jù)平臺。當(dāng)前的云數(shù)據(jù)平臺以云原生架構(gòu)為基礎(chǔ),提供了如云數(shù)據(jù)倉庫等創(chuàng)新產(chǎn)品。代表產(chǎn)品包括 Snowflake 和 Databricks,它們支持云上多租戶資源彈性伸縮和按使用量計費。技術(shù)上,這一階段出現(xiàn)了流批一體、湖倉一體和存算分離等先進的數(shù)據(jù)架構(gòu)。

圖片

當(dāng)前數(shù)據(jù)平臺發(fā)展的第一個重要趨勢是云原生與大數(shù)據(jù)的結(jié)合。這種結(jié)合形成了一種新型的數(shù)據(jù)平臺架構(gòu),它利用云原生的資源調(diào)度和存儲統(tǒng)一負(fù)載能力,在資源利用率、彈性調(diào)度計算以及標(biāo)準(zhǔn)化部署和升級等方面發(fā)揮云原生的優(yōu)勢。這種架構(gòu)不僅提高了數(shù)據(jù)處理效率,還增強了數(shù)據(jù)平臺的靈活性和可擴展性,為企業(yè)提供了更加高效和可靠的數(shù)據(jù)服務(wù)。

圖片

第二個重要趨勢是湖倉一體,傳統(tǒng)的湖倉融合架構(gòu)雖然能夠處理多種數(shù)據(jù)類型,但由于數(shù)據(jù)冗余存儲和依賴 ETL 任務(wù)的數(shù)據(jù)搬運,存在數(shù)據(jù)時效性和一致性差的問題,同時增加了開發(fā)和運維的復(fù)雜性。

湖倉一體架構(gòu)則解決了這些問題,它整合了數(shù)據(jù)湖和數(shù)據(jù)倉庫的優(yōu)勢,創(chuàng)建一體化和開放式的數(shù)據(jù)處理平臺。這種架構(gòu)允許底層統(tǒng)一存儲和管理多種類型的數(shù)據(jù),并實現(xiàn)了數(shù)據(jù)在湖倉之間的高效調(diào)度和管理。此外,它還能夠向業(yè)務(wù)層提供統(tǒng)一的查詢和分析能力,提高了數(shù)據(jù)的時效性和一致性,降低了開發(fā)和運維成本,為企業(yè)的數(shù)據(jù)分析和決策提供了強有力的支持。

圖片

第三個重要趨勢是存算分離。長期以來,Hadoop 一直以存算一體的架構(gòu)提供大數(shù)據(jù)能力,但隨著企業(yè)內(nèi)部網(wǎng)絡(luò)帶寬的快速增長和數(shù)據(jù)規(guī)模的膨脹,以及數(shù)據(jù)湖技術(shù)的發(fā)展,大數(shù)據(jù)基礎(chǔ)設(shè)施正朝著存算分離的架構(gòu)演進。

存算分離的核心是將 Hadoop 的資源調(diào)度 Yarn 和存儲集群 HDFS 分開部署,實現(xiàn)存儲和資源管理的解耦。這種方式雖然會增加運維負(fù)擔(dān)且犧牲一些本地讀性能,但實踐經(jīng)驗表明,這些損失是可控的,尤其適用于關(guān)注成本和私有化場景的客戶場景。

進入云原生時代后,存算分離的架構(gòu)變得更加多元化。底層存儲可以是 HDFS,也可以是 S3 對象存儲等,而資源調(diào)度框架則全面擁抱 Kubernetes 進行資源調(diào)度和管理。這種架構(gòu)提供了更高的靈活性和擴展性,有助于優(yōu)化資源使用和降低成本,同時保持大數(shù)據(jù)平臺的高性能和可靠性。

圖片

第四個趨勢是混合云和數(shù)據(jù)云。隨著企業(yè)數(shù)據(jù)中心的日益普及,同時存在于公有云和私有云的情況越來越常見。企業(yè)需要一套平臺來統(tǒng)一管理這兩類云上的數(shù)據(jù)中心,確??缭茢?shù)據(jù)流動的安全。

為了保障企業(yè)內(nèi)部及企業(yè)間數(shù)據(jù)的安全流通,需要采用如數(shù)據(jù)沙箱、隱私計算等技術(shù)。這些技術(shù)可以幫助解決數(shù)據(jù)在不同企業(yè)間安全流動的問題。對于一個數(shù)據(jù)平臺來說,支持多租戶之間數(shù)據(jù)安全流通的解決方案是必不可少的。

二、金融信創(chuàng)對數(shù)據(jù)平臺的挑戰(zhàn)

接下來,在第二部分中,將聚焦于金融信創(chuàng)領(lǐng)域,剖析數(shù)據(jù)平臺所面臨的挑戰(zhàn)。

圖片

“信創(chuàng)”是我國信息技術(shù)應(yīng)用創(chuàng)新的簡稱,其目標(biāo)是推動 IT 產(chǎn)業(yè)鏈核心技術(shù)的國產(chǎn)化,實現(xiàn)安全自主可控。大數(shù)據(jù)組件的信創(chuàng)化適配是信創(chuàng)戰(zhàn)略的重要組成部分。在金融行業(yè),信創(chuàng)化的推廣和落地正在加速進行,大數(shù)據(jù)組件信創(chuàng)適配是當(dāng)下的重要挑戰(zhàn)。

大數(shù)據(jù)信創(chuàng)化的必要性主要體現(xiàn)在兩個方面:一是海外大數(shù)據(jù)平臺產(chǎn)品如 CDH 的許可費用高昂,二是這些產(chǎn)品并不能完全支持我國信創(chuàng)環(huán)境中的軟件和硬件。因此,大數(shù)據(jù)組件的信創(chuàng)化適配成為了一項重要任務(wù)。

信創(chuàng)化適配過程遠比簡單的開源技術(shù)遷移復(fù)雜。首先,需要對國產(chǎn) CPU 芯片、操作系統(tǒng)、數(shù)據(jù)庫和云平臺等進行逐一適配。完成這一階段后,還需解決不同大數(shù)據(jù)組件間的版本沖突、依賴包沖突,以及組件組合使用中的問題。這要求專業(yè)的大數(shù)據(jù)團隊基于開源技術(shù),經(jīng)過編譯、組裝、打包、部署和測試等一系列流程,最終實現(xiàn)可交付給客戶的生產(chǎn)環(huán)境部署。

圖片

第二個挑戰(zhàn)是大數(shù)據(jù)組件的穩(wěn)定性、性能和安全。為確保在創(chuàng)新環(huán)境下的大數(shù)據(jù)組件具備高可用性和穩(wěn)定性,需執(zhí)行以下步驟:

  • 全面適配主流大數(shù)據(jù)計算、存儲和分析組件,確保它們能在云原生環(huán)境下順利運行。
  • 對適配后的組件進行性能調(diào)優(yōu),以解決信創(chuàng)與非信創(chuàng)環(huán)境下性能差異的問題。
  • 針對云原生環(huán)境和存算分離架構(gòu)進行性能優(yōu)化,以滿足不同業(yè)務(wù)場景需求。
  • 進行大規(guī)模性能測試和優(yōu)化,確保組件在實際部署中的表現(xiàn)。

同時,大數(shù)據(jù)平臺的安全性不容忽視。需從用戶管理、租戶管理、權(quán)限管理和審計中心等多維度保障平臺安全。這包括對安全組件如 Kerberos、OpenLDAP 等進行信創(chuàng)環(huán)境適配,以及對多租戶系統(tǒng)、權(quán)限系統(tǒng)和審計系統(tǒng)等進行信創(chuàng)化適配。通過全面的安全保障措施,確保大數(shù)據(jù)平臺在信創(chuàng)環(huán)境下的安全性。

圖片

第三個挑戰(zhàn)是大數(shù)據(jù)集群的遷移和混合部署。這個過程是逐步推進的,涉及新老集群的并行運行和過渡。因此,需要開發(fā)支持異構(gòu)環(huán)境下集群數(shù)據(jù)遷移的工具,并最大化復(fù)用現(xiàn)有老集群的服務(wù)器資源。

為了有效復(fù)用原有資源,信創(chuàng)大數(shù)據(jù)平臺需具備多種混合部署的能力。這包括支持不同 CPU 架構(gòu)、硬件規(guī)格和操作系統(tǒng)之間的混合部署。這些要求對大數(shù)據(jù)信創(chuàng)化提出了更高的挑戰(zhàn)。

三、云數(shù)據(jù)智能平臺 DataCyber

第三部分詳細(xì)介紹數(shù)新網(wǎng)絡(luò)在金融信創(chuàng)背景下獨立自主研發(fā)的云數(shù)據(jù)智能平臺 DataCyber 的架構(gòu)設(shè)計和相關(guān)實踐。

1. 設(shè)計目標(biāo)

圖片

在介紹 DataCyber 技術(shù)架構(gòu)之前,首先闡明一下整個系統(tǒng)的設(shè)計目標(biāo)。平臺的首要設(shè)計目標(biāo)是在國產(chǎn)信創(chuàng)環(huán)境下,打造一個技術(shù)上自主可控的大數(shù)據(jù)平臺。同時,我們并不追求從零開始研發(fā)大數(shù)據(jù)引擎,而是希望通過開源社區(qū)生態(tài),共同參與構(gòu)建新的大數(shù)據(jù)引擎技術(shù),確保平臺的開放性和兼容性。

在技術(shù)選型上,我們采用的是云原生湖倉一體的架構(gòu)。這種架構(gòu)結(jié)合了云原生和湖倉一體的技術(shù)優(yōu)勢,實現(xiàn)新一代云數(shù)據(jù)智能平臺。我們還希望平臺能夠?qū)崿F(xiàn) Data + AI 一體化,即數(shù)據(jù)平臺和 AI 平臺之間的打通,抽象和提取兩個平臺通用的技術(shù)組件,打通賬號租戶體系等等。

此外,整個平臺是基于多租戶體系設(shè)計的。既要保障租戶內(nèi)部的隔離和安全,也要支持跨租戶之間的數(shù)據(jù)開放共享。這是數(shù)據(jù)平臺的關(guān)鍵能力,特別是在金融場景下,客戶需要在不同企業(yè)主體之間通過數(shù)據(jù)流通實現(xiàn)數(shù)據(jù)價值分析和挖掘。

2. 架構(gòu)設(shè)計

圖片

上圖展示了 DataCyber 的總體架構(gòu),DataCyber 是一個開放式的云數(shù)據(jù)智能平臺,它的設(shè)計旨在支持異構(gòu)硬件環(huán)境,包括傳統(tǒng)的 X86 服務(wù)器以及 ARM、MIPS 等新興 CPU 架構(gòu)。平臺底層能夠適應(yīng)不同云平臺廠商的私有云、混合云等場景。

DataCyber 的產(chǎn)品矩陣由下至上分為幾個層次:

  • CyberEngine:負(fù)責(zé)提供湖倉引擎底座以及大數(shù)據(jù)集群管理運維能力,為數(shù)據(jù)平臺和 AI 平臺提供底座支撐。
  • CyberData:面向開發(fā)者和用戶提供數(shù)據(jù)平臺的一站式產(chǎn)品能力。
  • CyberAI:面向開發(fā)者和用戶提供 AI 平臺的一站式產(chǎn)品能力。
  • CyberMarket:負(fù)責(zé)跨租戶之間安全流通數(shù)據(jù)模型、算法應(yīng)用,促進數(shù)據(jù)價值的最大化。

后續(xù)將詳細(xì)介紹 DataCyber 各個組件的架構(gòu),展示如何通過這些組件實現(xiàn)數(shù)據(jù)的智能處理和分析,以及如何在確保安全的前提下促進數(shù)據(jù)在不同租戶間的共享和流通。

(1)CyberEngine

圖片

首先介紹一下賽博數(shù)智引擎 CyberEngine ,它是一個先進的大數(shù)據(jù)管理平臺,其架構(gòu)設(shè)計既支持云原生環(huán)境,同時兼容傳統(tǒng)數(shù)據(jù)架構(gòu)。平臺自下而上分為四個層次:資源調(diào)度、數(shù)據(jù)存儲、數(shù)據(jù)引擎和管理平臺。

在資源調(diào)度層,CyberEngine 提供了統(tǒng)一的資源管理,支持云原生 K8S 調(diào)度和傳統(tǒng)的 Yarn 調(diào)度,以幫助客戶平滑過渡到云原生架構(gòu)。數(shù)據(jù)存儲層既支持傳統(tǒng)的 HDFS 存儲,也支持對象存儲和新型數(shù)據(jù)湖格式,提供了元數(shù)據(jù)服務(wù)、數(shù)據(jù)入湖、數(shù)據(jù)湖加速和管理等核心服務(wù)。數(shù)據(jù)引擎層包括流引擎、批引擎和交互分析引擎,基于開源技術(shù)構(gòu)建,形成高性能、高穩(wěn)定性的大數(shù)據(jù)引擎發(fā)行版,滿足不同場景需求。此外,還包括統(tǒng)一數(shù)據(jù)集成引擎、統(tǒng)一任務(wù)調(diào)度引擎、統(tǒng)一元數(shù)據(jù)服務(wù)引擎和統(tǒng)一 SQL 引擎,為 CyberData 和 CyberAI 平臺提供支撐。管理平臺由 EngineManager 產(chǎn)品構(gòu)成,提供一站式的大數(shù)據(jù)集群規(guī)劃、部署和運維管理,目標(biāo)是成為智能高效的大數(shù)據(jù)技術(shù)基礎(chǔ)設(shè)施管理平臺,服務(wù)于企業(yè)內(nèi)部的大數(shù)據(jù)管理運維人員。

CyberEngine 產(chǎn)品特點包括:完全云原生化,支持多租戶和多集群管理,以及全面的發(fā)布、配置、管理、操作和審計功能;支持主流大數(shù)據(jù)組件版本,包括計算存儲組件、數(shù)據(jù)湖引擎和分析型引擎,且在穩(wěn)定性和性能上優(yōu)于開源組件;支持大規(guī)模部署和管理。

(2)CyberData

圖片

CyberData 是一個一站式的大數(shù)據(jù)智能研發(fā)和治理平臺,它的設(shè)計理念是模塊化和可插拔,可以拆分成不同的子產(chǎn)品以滿足不同的需求。這些子產(chǎn)品包括數(shù)據(jù)建模、數(shù)據(jù)集成、數(shù)據(jù)開發(fā)運維、數(shù)據(jù)資產(chǎn)治理、數(shù)據(jù)安全、數(shù)據(jù)服務(wù)等等。平臺支持多種湖倉架構(gòu),包括離線數(shù)倉、實時數(shù)倉、流批一體數(shù)倉以及湖倉一體架構(gòu),滿足企業(yè)內(nèi)部數(shù)倉工程師、數(shù)據(jù)分析工程師和數(shù)據(jù)管理人員的需求。

CyberData 采用云原生技術(shù)架構(gòu),能在多云環(huán)境中部署,支持多環(huán)境、多區(qū)域以及多集群的大規(guī)模企業(yè)應(yīng)用。在信創(chuàng)化方向,CyberData 不僅支持各種信創(chuàng)軟硬件環(huán)境,還能接入國產(chǎn)化數(shù)據(jù)庫和數(shù)據(jù)源,將業(yè)務(wù)數(shù)據(jù)采集到平臺進行加工處理和分析。

CyberData 的核心能力包括統(tǒng)一的元數(shù)據(jù)管理、數(shù)據(jù)集成能力和數(shù)據(jù)開發(fā)任務(wù)的工作流調(diào)度,這些能力都由 CyberEngine 產(chǎn)品的四個核心服務(wù)引擎提供支持。

(3)CyberAI

圖片

CyberAI 是一個一站式的機器學(xué)習(xí)平臺,旨在為算法工程師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師提供服務(wù)。該平臺首先強調(diào)的是對底層基礎(chǔ)設(shè)施的管理和接入能力,這是基于 CyberEngine 提供的統(tǒng)一服務(wù)底座引擎的接入能力。通過這種方式,CyberAI能夠有效地管理資源和數(shù)據(jù)接入。

此外,CyberAI 平臺能夠與 CyberData 數(shù)據(jù)平臺無縫對接。這種整合能力體現(xiàn)在租戶賬號體系以及數(shù)據(jù)源的接入和管理方面,實現(xiàn)了真正的一體化能力。

在產(chǎn)品化能力方面,CyberAI 平臺不僅支持傳統(tǒng)的交互式和可視化建模能力,還針對企業(yè)間數(shù)據(jù)流通的場景提供了算法沙箱和聯(lián)邦學(xué)習(xí)支持,以實現(xiàn)跨租戶的數(shù)據(jù)流通和算法訓(xùn)練。此外,該平臺還集成了大模型工具的相關(guān)能力,用戶可以在這個平臺上一站式完成大模型應(yīng)用的構(gòu)建過程。

(4)產(chǎn)品輸出形態(tài)

圖片

云數(shù)據(jù)智能平臺 DataCyber 展示了其產(chǎn)品的高度開源開放性。DataCyber 的三個主要產(chǎn)品 CyberEngine、CyberData 和 CyberAI 均能單獨輸出,并與其他開源組件和大數(shù)據(jù)分析數(shù)據(jù)庫保持最大兼容性。這些產(chǎn)品通過插件化和標(biāo)準(zhǔn)化方式,支持包括 CDH/CDP 國產(chǎn)化替代、大數(shù)據(jù)底座構(gòu)建、數(shù)據(jù)開發(fā)和治理以及機器學(xué)習(xí)框架集成等多樣化場景。

  • CyberEngine:作為大數(shù)據(jù)底座,能以插件化方式接入主流大數(shù)據(jù)組件,適合從零開始構(gòu)建大數(shù)據(jù)平臺,如銀行 CDH 替換等場景。
  • CyberData:通過標(biāo)準(zhǔn)化插件接入大數(shù)據(jù)底座,快速支持開源和商用集群以及云原生集群的數(shù)據(jù)開發(fā)和治理,適用于構(gòu)建各類企業(yè)級數(shù)據(jù)平臺的場景。
  • CyberAI:作為一站式機器學(xué)習(xí)平臺,以插件化方式集成 TensorFlow、PyTorch 等框架,適用于私有云企業(yè)機器學(xué)習(xí)平臺等場景。

產(chǎn)品間的組合輸出也提供了更多可能性,例如:

  • CyberEngine + CyberData:構(gòu)建大數(shù)據(jù)底座+一站式 DataOps 平臺的組合能力,例如:云原生湖倉一體平臺。
  • CyberEngine + CyberAI:構(gòu)建大數(shù)據(jù)AI底座+一站式 MLOps 平臺的組合能力。
  • CyberData + CyberAI:構(gòu)建數(shù)智一體化平臺,從產(chǎn)品能力上可對標(biāo) Databricks 和 Snowflake。

在云上輸出湖倉一體平臺,

  • CyberEngine + CyberData + CyberAI:提供一站式的大數(shù)據(jù) AI 底座、DataOps 平臺和 MLOps 平臺組合,輸出云原生彈性湖倉一體平臺,滿足客戶的多樣化應(yīng)用場景。

3. 核心技術(shù)組件

接下來介紹 DataCyber 的幾個核心技術(shù)組件。

圖片

首先是信創(chuàng)云原生湖倉引擎(CyberLakehouse),這是一個結(jié)合了信創(chuàng)環(huán)境和云原生技術(shù)的湖倉引擎。它在信創(chuàng)環(huán)境中進行了全棧適配,從基礎(chǔ)硬件到操作系統(tǒng),再到產(chǎn)業(yè)生態(tài),確保大數(shù)據(jù)組件的國產(chǎn)化適配。在此基礎(chǔ)上,實現(xiàn)了基于容器化的大數(shù)據(jù)組件標(biāo)準(zhǔn)化發(fā)布流程和源碼適配,支持云原生部署。再往上是湖倉一體架構(gòu),它要求存算分離、開放式存儲、計算組件靈活擴展,以及統(tǒng)一標(biāo)準(zhǔn)化元數(shù)據(jù)服務(wù)。

基于這些要求,CyberLakehouse 架構(gòu)分為三層:

  • 存儲層:提供統(tǒng)一存儲和 HDFS 格式支持以及數(shù)據(jù)訪問層的加速。其中訪問層加速包括 Alluxio 等緩存加速和 Celeborn 等服務(wù),提高存算分離架構(gòu)下的訪問穩(wěn)定性和性能。
  • 計算層:基于云原生資源調(diào)度(K8S),支持批處理(Hive/Spark)、流處理(Flink)和交互分析(StarRocks/Presto/Impala)引擎。
  • 管理層:提供集群規(guī)劃、管理、實施和部署運維監(jiān)控的一站式操作平臺。

這些技術(shù)組件共同構(gòu)成了 DataCyber 的湖倉一體平臺,為大數(shù)據(jù)運維管理人員提供了一站式的操作平臺,支持多種計算組件和存儲格式,確保了高性能和靈活性。

圖片

上圖介紹了 DataCyber 的 CyberLakehouse 在研發(fā)過程中對開源大數(shù)據(jù)組件進行的大量的二次開發(fā)和適配工作。目前,已全面適配覆蓋了批處理引擎 Hive、Spark,流計算引擎 Flink,以及交互分析引擎 Impala、Presto 等。主要工作成果包括:

  • Hive:解決了 Hive 與高版本 Hadoop、K8s、數(shù)據(jù)湖組件和數(shù)據(jù)緩存系統(tǒng)的適配問題。
  • Spark:實現(xiàn)了 Spark 在高版本 Hadoop3 上的適配,以及 Spark on Hive 和 Spark on k8s 的部署能力,支持彈性的擴縮容。
  • Flink:支持 Flink on k8s 的彈性部署,并對 Flink 的 session集群進行了資源彈性管理的二次開發(fā),實現(xiàn)了作業(yè)的彈性伸縮。
  • 數(shù)據(jù)湖集成:對 Hudi 和 Paimon 等數(shù)據(jù)湖引擎進行了集成。
  • 分析引擎:對 Impala 和 Kudu 進行了定制化的二次開發(fā)和適配,解決了 Impala 在云原生環(huán)境下的部署問題,并支持 CDH 老用戶的平滑升級。
  • 安全性:解決了 Kerberos、Ranger 和 OpenLDAP 的集成問題,提供了金融級客戶的安全需求解決方案。

經(jīng)過這些適配和開發(fā)工作,CyberEngine 產(chǎn)品的最新版本 2.3.0 已經(jīng)具備了超越 CDH 的組件覆蓋度,并在組件版本上優(yōu)于 CDH 的老版本,實現(xiàn)了產(chǎn)品化的輸出。

圖片

統(tǒng)一元數(shù)據(jù)服務(wù)引擎 CyberMeta 是大數(shù)據(jù)平臺的核心技術(shù)組件,它實現(xiàn)了湖倉平臺元數(shù)據(jù)在整個平臺的統(tǒng)一管理,以及外部數(shù)據(jù)源元數(shù)據(jù)的主動發(fā)現(xiàn)和多計算引擎間元數(shù)據(jù)的互通互聯(lián)。此外,它還支持跨多元計算場景,以及在元數(shù)據(jù)基礎(chǔ)上的統(tǒng)一數(shù)據(jù)權(quán)限管理和數(shù)據(jù)湖的自動化優(yōu)化加速。

為了滿足多元異構(gòu)大數(shù)據(jù)計算引擎對元數(shù)據(jù)的需求,統(tǒng)一元數(shù)據(jù)服務(wù)引擎支持兩種模式:

  • 與 Hive Metastore 集成:通過 Hive 的標(biāo)準(zhǔn)化的元數(shù)據(jù)能力,為不同的分析計算引擎提供元數(shù)據(jù)管理和服務(wù)。
  • 基于 Spark 和 Flink 的自定義 Catalog 擴展機制:擴展支持更大范圍的數(shù)據(jù)源元數(shù)據(jù)管理能力,使 Spark 和 Flink 引擎能夠訪問關(guān)系型數(shù)據(jù)庫,以及實現(xiàn)與湖倉數(shù)據(jù)源之間的跨源數(shù)據(jù)訪問。

圖片

統(tǒng)一任務(wù)調(diào)度引擎 CyberScheduler 是大數(shù)據(jù)平臺的另一個核心技術(shù)組件,它負(fù)責(zé)數(shù)倉任務(wù)的工作流調(diào)度,確保了任務(wù)的高效執(zhí)行和數(shù)據(jù)流程的穩(wěn)定性。CyberScheduler 的架構(gòu)分為三層:

  • Web 服務(wù)和 Scheduler API 層:為用戶提供調(diào)度任務(wù)的接口。
  • 協(xié)調(diào)器集群(Coordinator 集群):一個分布式的調(diào)度系統(tǒng),負(fù)責(zé)作業(yè)實例的生成和按照工作流依賴進行調(diào)度,同時提供 API 服務(wù)化接口。它強調(diào)服務(wù)的穩(wěn)定性、高并發(fā)和低延遲。
  • 工作者集群(Worker 集群):執(zhí)行不同類型的作業(yè),包括本地執(zhí)行和遠程提交到 Hadoop、K8S 等平臺執(zhí)行的任務(wù)。它關(guān)注任務(wù)的擴展性和資源隔離性。

CyberScheduler 覆蓋了多種作業(yè)類型,支持周期調(diào)度、靈活的依賴關(guān)系、補數(shù)據(jù)和斷點重跑等功能。它能夠適應(yīng)不同任務(wù)規(guī)模的湖倉場景,支持從十萬級到千萬級以上的任務(wù)調(diào)度,通過統(tǒng)一架構(gòu)和不同部署模式適配不同客戶需求,實現(xiàn)穩(wěn)定的調(diào)度和運維。

此外,CyberScheduler 還支持智能化的調(diào)度和監(jiān)控,能夠基于歷史數(shù)據(jù)優(yōu)化任務(wù)調(diào)度資源,提供任務(wù)產(chǎn)出時間和告警的智能化提示,從而提升調(diào)度效率和任務(wù)成功率。

圖片

統(tǒng)一數(shù)據(jù)集成引擎 CyberIntegration 是一個多功能的數(shù)據(jù)同步平臺。該平臺支持三種主要的數(shù)據(jù)同步引擎:DataX、Spark 和 Flink。這些引擎能夠處理包括批量同步、流式同步、全量同步、增量同步以及整庫同步在內(nèi)的多種數(shù)據(jù)同步需求。

CyberIntegration 的系統(tǒng)架構(gòu)允許其根據(jù)數(shù)據(jù)源的規(guī)模動態(tài)地決定所需的資源和同步能力,并支持水平擴展。此外,考慮到該平臺需要支持公有云、私有云以及混合云架構(gòu),它在數(shù)據(jù)集成過程中還要解決跨網(wǎng)段數(shù)據(jù)傳輸?shù)募夹g(shù)挑戰(zhàn)。這種靈活性和強大的數(shù)據(jù)處理能力使得 CyberIntegration 成為滿足各種數(shù)據(jù)集成需求的有效解決方案。

圖片

數(shù)據(jù)流通中心 CyberMarket 專注于解決跨租戶的數(shù)據(jù)流通問題。CyberMarket 支持多種數(shù)據(jù)開放共享方式,包括數(shù)據(jù) API、數(shù)據(jù)應(yīng)用以及數(shù)據(jù)沙箱和算法沙箱,后者允許在不同租戶之間實現(xiàn)數(shù)據(jù)的可用不可見,特別適用于金融等行業(yè)場景。

數(shù)據(jù)沙箱通過物理隔離的存儲和多租戶之間的隔離,確保數(shù)據(jù)的安全性。在計算層面,SQL 沙箱和算法沙箱提供安全的數(shù)據(jù)分析和挖掘環(huán)境。數(shù)據(jù)在進入計算沙箱后,只能在沙箱內(nèi)安全使用,計算結(jié)果需經(jīng)過數(shù)據(jù)所有方審批后才能流出。沙箱使用完畢后,還會進行相關(guān)的回收和安全保障機制。

CyberData 和 CyberAI 之間的協(xié)同也是關(guān)鍵,例如,CyberAI 平臺中訓(xùn)練得到的模型會發(fā)布到 CyberData 平臺,以便進行數(shù)據(jù)開發(fā)和模型訓(xùn)練任務(wù)的工作流編排與調(diào)度。這種能力使得整個平臺能夠在數(shù)據(jù)流通場景下提供全面的支持。

四、金融信創(chuàng)數(shù)據(jù)平臺落地路徑

圖片

第四部分將探討金融信創(chuàng)數(shù)據(jù)平臺的典型落地路徑,分為六個階段:

  • 統(tǒng)一納管平臺構(gòu)建:首先構(gòu)建一個統(tǒng)一的納管平臺,以統(tǒng)一用戶使用體驗,確保在信創(chuàng)化切換過程中實現(xiàn)平滑管理和遷移。
  • 業(yè)務(wù)場景選擇與試點規(guī)劃:根據(jù)客戶實際情況,選擇合適的業(yè)務(wù)場景進行系統(tǒng)化試點,并規(guī)劃信創(chuàng)化集群。
  • 信創(chuàng)湖倉集群資源規(guī)劃:設(shè)計并規(guī)劃信創(chuàng)湖倉集群,包括計算、存儲、網(wǎng)絡(luò)等資源,以滿足業(yè)務(wù)需求。
  • 數(shù)據(jù)遷移與驗證:在新的信創(chuàng)集群部署完成后,進行新老集群的數(shù)據(jù)遷移,并進行數(shù)據(jù)比對和驗證。
  • 壓測與優(yōu)化:根據(jù)數(shù)據(jù)量級和業(yè)務(wù)要求,對信創(chuàng)集群進行壓力測試和優(yōu)化。
  • 逐步切換與驗證:在確保新集群符合性能和穩(wěn)定性要求后,進行新老集群的并行運行,最終完成集群切換。

這條路徑確保了金融信創(chuàng)數(shù)據(jù)平臺的高效實施和平穩(wěn)過渡,滿足客戶的業(yè)務(wù)需求。

圖片

在金融信創(chuàng)數(shù)據(jù)平臺的實施中,上圖中大數(shù)據(jù)集群統(tǒng)一納管平臺的功能技術(shù)架構(gòu)是關(guān)鍵。其中大數(shù)據(jù)集群的統(tǒng)一納管平臺包括新老兩個集群,它們在資源調(diào)度和組件使用方面有所不同。中間層負(fù)責(zé)數(shù)據(jù)遷移,而統(tǒng)一納管層通過不同的驅(qū)動包實現(xiàn)對底層不同類型的大數(shù)據(jù)集群的驅(qū)動對接和管理。最上層為應(yīng)用層,本文不對此展開詳細(xì)討論。這一架構(gòu)可以確保金融信創(chuàng)數(shù)據(jù)平臺的高效推進,在不影響客戶業(yè)務(wù)穩(wěn)健的情況下,實現(xiàn)金融信創(chuàng)數(shù)據(jù)平臺穩(wěn)扎穩(wěn)打的替代。

五、金融信創(chuàng)數(shù)據(jù)平臺實踐案例

在金融信創(chuàng)領(lǐng)域,數(shù)新網(wǎng)絡(luò)在云數(shù)據(jù)智能平臺的實施中取得了顯著成效。本文第五部分將通過兩個案例展示數(shù)新網(wǎng)絡(luò)的實踐成果。

圖片

第一個案例涉及某股份銀行,該銀行原先使用的是 Cloudera 的 CDH 產(chǎn)品,面臨高昂的訂閱成本和不滿足信創(chuàng)化要求的問題。數(shù)新網(wǎng)絡(luò)提供的云原生大數(shù)據(jù)管理平臺 CyberEngine 產(chǎn)品,成功幫助銀行將其多個數(shù)據(jù)集群升級至信創(chuàng)化的湖倉架構(gòu)。此舉不僅提升了平臺的自主可控性,還優(yōu)化了組件版本升級和計算資源效率,為客戶帶來了全面的平臺改進和價值提升。

圖片

第二個案例為某省金融綜合服務(wù)平臺的建設(shè)與運營。數(shù)新網(wǎng)絡(luò)的云數(shù)據(jù)智能平臺利用大數(shù)據(jù)和云計算技術(shù),實現(xiàn)了多個政府部門和銀行間數(shù)據(jù)的統(tǒng)一融合分析,解決了金融領(lǐng)域的數(shù)據(jù)使用問題。數(shù)新網(wǎng)絡(luò)提供了數(shù)據(jù)平臺 CyberData 和智能平臺 CyberAI,幫助構(gòu)建金融主題庫和金融數(shù)倉,涵蓋從數(shù)據(jù)開發(fā)、治理到 AI 任務(wù)開發(fā)的全流程。此外,為了確保數(shù)據(jù)的合法合規(guī)共享,數(shù)新網(wǎng)絡(luò)還提供了數(shù)據(jù)沙箱和算法沙箱能力。最終,在業(yè)務(wù)層面,數(shù)新網(wǎng)絡(luò)輸出了適用于金融領(lǐng)域的數(shù)據(jù)應(yīng)用,為金融綜合服務(wù)平臺提供了全面的數(shù)據(jù)智能解決方案。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2024-02-20 07:55:48

數(shù)據(jù)平臺架構(gòu)湖倉一體Alluxio

2021-06-11 14:01:51

數(shù)據(jù)倉庫湖倉一體 Flink

2023-06-28 07:28:36

湖倉騰訊架構(gòu)

2023-12-14 13:01:00

Hudivivo

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2021-06-07 11:22:38

大數(shù)據(jù)數(shù)據(jù)倉庫湖倉一體

2023-05-26 06:45:08

2023-08-30 07:14:27

MaxCompute湖倉一體

2022-12-13 17:42:47

Arctic存儲湖倉

2022-06-24 10:41:53

日志數(shù)據(jù)

2020-12-02 17:20:58

數(shù)據(jù)倉庫阿里云數(shù)據(jù)湖

2023-06-19 07:13:51

云原生湖倉一體

2023-05-16 07:24:25

數(shù)據(jù)湖快手

2024-09-03 14:59:00

2022-09-29 09:22:33

數(shù)據(jù)倉

2022-08-18 11:12:51

Cloudera?數(shù)據(jù)湖倉SaaS
點贊
收藏

51CTO技術(shù)棧公眾號