自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)集成產(chǎn)品的技術(shù)演進與實際應用-FastData DCT

作者：劉波 2024-01-15 07:17:11

大數(shù)據(jù)

FastData DCT 憑借在異構(gòu)數(shù)據(jù)源實時融合和數(shù)據(jù)倉庫遷移方面的強大優(yōu)勢，有效提高了數(shù)據(jù)利用率和管理效率，減少了數(shù)據(jù)浪費。本次分享將深入探討 FastData DCT 的架構(gòu)演進和實際應用案例，展現(xiàn)其在推動各行業(yè)數(shù)字化轉(zhuǎn)型升級中的重要作用。

在數(shù)字化轉(zhuǎn)型的大潮中，企業(yè)面臨的數(shù)據(jù)環(huán)境日益復雜多變。滴普科技的 FastData DCT 產(chǎn)品應運而生，專注于高效的數(shù)據(jù)集成和管理，以應對多樣化的數(shù)據(jù)挑戰(zhàn)。這款產(chǎn)品結(jié)合了流批一體和湖倉一體架構(gòu)，提供了從數(shù)據(jù)集成、分析到價值實現(xiàn)的全鏈路服務，極大地提升了數(shù)據(jù)處理的時效性和靈活性。FastData DCT 憑借在異構(gòu)數(shù)據(jù)源實時融合和數(shù)據(jù)倉庫遷移方面的強大優(yōu)勢，有效提高了數(shù)據(jù)利用率和管理效率，減少了數(shù)據(jù)浪費。本次分享將深入探討 FastData DCT 的架構(gòu)演進和實際應用案例，展現(xiàn)其在推動各行業(yè)數(shù)字化轉(zhuǎn)型升級中的重要作用。

一、產(chǎn)品概述

1、Data Fabric 數(shù)據(jù)架構(gòu)

自 2019 年起，高德納連續(xù)4年將數(shù)據(jù)編織(數(shù)據(jù)結(jié)構(gòu))列為年度數(shù)據(jù)和分析技術(shù)領(lǐng)域的十大趨勢之一。高德納認為“數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)管理的未來”。

數(shù)據(jù)架構(gòu)是一種數(shù)據(jù)架構(gòu)思想，包含 DataOps 數(shù)據(jù)工程，其中通過 AI、知識圖譜等智能技術(shù)，實現(xiàn)主動元數(shù)據(jù)治理。

2、DCT 簡介

DCT (Data Collection Transform，簡稱DCT)支持關(guān)系型數(shù)據(jù)庫、NoSQL、數(shù)據(jù)倉庫(OLAP)、數(shù)據(jù)湖(lceberg、Hudi)等數(shù)據(jù)源，可用于公有云之間、公有云與私有云之間的數(shù)據(jù)入湖入倉的結(jié)構(gòu)遷移，存量數(shù)據(jù)同步和實時數(shù)據(jù)捕獲同步。為企業(yè)實現(xiàn)數(shù)據(jù)流通，提供簡單、安全和穩(wěn)健的數(shù)據(jù)傳輸保障。

DCT 專注于數(shù)據(jù)的入湖入倉、出湖出倉場景，同時支持包括 PSC、Flink、Spark 在內(nèi)的多引擎資源調(diào)度配置，支持批流一體以及故障轉(zhuǎn)移等復雜的數(shù)據(jù)傳輸機制。在復雜的網(wǎng)絡環(huán)境和業(yè)務背景下，DCT 提供了穩(wěn)固的數(shù)據(jù)同步解決方案。

目前，DCT 已經(jīng)發(fā)展到第四代。其第一代主要關(guān)注于參數(shù)配置；第二代引入了可視化界面，以簡化任務配置過程；第三代實現(xiàn)了對讀取與寫入功能的組件化；而最新一代則新增了流批一體的任務類型，以進一步優(yōu)化數(shù)據(jù)處理效率和彈性。

3、產(chǎn)品定位：PB 級數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路

在大數(shù)據(jù)領(lǐng)域，特別是在 PB 級別的海量數(shù)據(jù)處理中，核心任務是確保數(shù)據(jù)傳輸?shù)母咝屎头€(wěn)定性。DCT 的產(chǎn)品定位就是在PB級數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路。從源端到目標端，DCT 構(gòu)建了一條能夠靈活適應不同數(shù)據(jù)源的可組合數(shù)據(jù)鏈路。在這一過程中，涉及 13 種主流的數(shù)據(jù)源類型，包括關(guān)系型數(shù)據(jù)庫、大規(guī)模并行處理系統(tǒng)（MPP）及數(shù)據(jù)湖和數(shù)據(jù)倉庫等。

系統(tǒng)的核心技術(shù)能力集中在任務配置、組件管理以及運維維護等關(guān)鍵環(huán)節(jié)。這些能力共同支持了離線數(shù)據(jù)采集、實時數(shù)據(jù)采集以及批處理與流處理一體化等多樣化的數(shù)據(jù)任務類型，確保了數(shù)據(jù)處理流程的靈活性和系統(tǒng)響應的及時性，滿足了復雜數(shù)據(jù)操作的需求。

4、產(chǎn)品價值

產(chǎn)品價值主要體現(xiàn)在三大方面：

異構(gòu)數(shù)據(jù)源的實時融合
專注于實現(xiàn)不同數(shù)據(jù)源如 Oracle、MySQL、Kafka 和 Iceberg 等的實時數(shù)據(jù)融合。包括支持數(shù)據(jù)的增量捕獲和異構(gòu)數(shù)據(jù)的語義映射，以便實現(xiàn)數(shù)據(jù)的即時入湖。
整庫入湖入倉，出湖出倉
支持 MySQL、Oracle 等數(shù)據(jù)源入湖入倉，出湖出倉?？焖贅?gòu)建湖倉內(nèi)數(shù)據(jù)，打通數(shù)據(jù)孤島，實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和高效利用，為數(shù)據(jù)開發(fā)工程師和數(shù)據(jù)分析人員可以快速建立數(shù)據(jù)模型、構(gòu)建應用提供數(shù)據(jù)來源。
降本增效
降本：多種架構(gòu)簡化場景，簡化軟件架構(gòu)設(shè)計，降低異構(gòu)數(shù)據(jù)融合成本。通過拖拉拽實現(xiàn)同步鏈路的創(chuàng)建，低代碼，降低學習和維護成本。
增效：無代碼任務構(gòu)建，提升數(shù)據(jù)集成敏捷性。支持組件自定義，提升客戶業(yè)務創(chuàng)新效率。分布式引擎、組件級高可用保障，實時鏈路穩(wěn)定高容錯。

5、產(chǎn)品優(yōu)勢

高性能多源異構(gòu)數(shù)據(jù)采集
支持從關(guān)系型數(shù)據(jù)庫、NoSQL、OLAP、數(shù)據(jù)湖等多樣的數(shù)據(jù)源進行結(jié)構(gòu)化遷移、離線同步以及實時同步。
批流一體化數(shù)據(jù)采集
采用統(tǒng)一的開發(fā)范式，同時實施大數(shù)據(jù)的流式和批量計算，確保數(shù)據(jù)處理的一致性，并簡化了批流采集任務的配置流程。
高可靠性與時效性
通過變更數(shù)據(jù)捕獲（CDC）機制，實現(xiàn)日志級別的數(shù)據(jù)監(jiān)聽，確保數(shù)據(jù)的時效性。同時，支持斷點續(xù)傳和故障轉(zhuǎn)移，保障數(shù)據(jù)傳輸?shù)母呖煽啃浴?/span>
組件化插拔式管理
提供了組件插拔式管理，用戶可以自定義組件進行擴展，并支持拖拉拽的任務配置方式，降低了代碼編寫的需求，使系統(tǒng)易于學習和維護。
低成本高效率運行
系統(tǒng)設(shè)計為單進程任務，最低僅需 1G 內(nèi)存即可運行，降低了成本。同時，支持并行度設(shè)置，有效提高了數(shù)據(jù)傳輸效率。
云原生架構(gòu)設(shè)計
系統(tǒng)采用云原生架構(gòu)，無需調(diào)整現(xiàn)有架構(gòu)，具有強大的兼容性?；谌罩镜脑O(shè)計對源業(yè)務無侵入，保障原有業(yè)務庫的穩(wěn)定運行。

二、功能介紹

1、產(chǎn)品功能架構(gòu)圖

在產(chǎn)品功能架構(gòu)的設(shè)計上，專注于數(shù)據(jù)湖和數(shù)據(jù)倉的高效數(shù)據(jù)處理流程，包括數(shù)據(jù)的導入與導出操作。Delink、EMR、MRS 等平臺能夠得到良好的支持，系統(tǒng)對于數(shù)據(jù)湖或湖倉一體化平臺有很好的兼容性。

基礎(chǔ)服務層面
提供了數(shù)據(jù)源管理、資源組件管理等核心功能。
數(shù)據(jù)傳輸層面
數(shù)據(jù)傳輸過程中，任務類型被細分為離線、實時和流批一體三種模式。數(shù)據(jù)采集模式涵蓋一對一、多對一和一對多三種類型。組件配置方面，將其劃分為讀取組件、轉(zhuǎn)換組件和寫入組件，數(shù)據(jù)映射時提供字段批量處理、整庫處理和大批量處理等映射規(guī)則。數(shù)據(jù)安全管理方面，實施了嚴格的分類分級、加解密措施，并對任務管理進行了優(yōu)化，包括前置檢測、導入導出、斷點續(xù)傳和 DDL 變更等功能。
監(jiān)控告警層面
系統(tǒng)支持故障轉(zhuǎn)移，如通過檢查頻率來實現(xiàn)超時任務的故障遷移。任務執(zhí)行過程中，監(jiān)控大屏能夠?qū)崟r顯示任務狀態(tài)、數(shù)據(jù)同步量和資源消耗情況。為確保數(shù)據(jù)質(zhì)量，系統(tǒng)支持與源端進行數(shù)據(jù)質(zhì)量校驗，并結(jié)合告警規(guī)則對超時任務和狀態(tài)進行監(jiān)控。此外，系統(tǒng)支持多種消息提醒方式，如短信、釘釘電話、Webhook 等，從而快速為下游應用提供必要的數(shù)據(jù)支撐。

2、產(chǎn)品核心功能

資源管理
支持界面配置多種計算、調(diào)度、存儲資源類型。
數(shù)據(jù)源管理
支持界面配置多種類型數(shù)據(jù)源，測試連通性。
組件管理
將 ETL 能力抽象為“組件”，支持界面管理讀取、轉(zhuǎn)換、寫入組件。
任務配置
支持按項目空間 & 目錄進行任務管理。
離線數(shù)據(jù)采集：支持根據(jù)源表生成目標表建表 SQL 等，快速創(chuàng)建目標表，支持按時間周期自動調(diào)度全量/增量數(shù)據(jù)采集。
實時數(shù)據(jù)采集：支持通過訂閱數(shù)據(jù)源 Binlog 等方式，無侵入實現(xiàn)實時增量數(shù)據(jù)采集。
批流一體數(shù)據(jù)入湖：支持通過一個任務實現(xiàn)批流一體數(shù)據(jù)入 lceberg 等數(shù)據(jù)湖。
運維監(jiān)控
實例日志：支持根據(jù)日志層級，分類查看日志信息，快速定位問題。
監(jiān)控告警：支持釘釘、郵箱、短信、電話等多種告警方式。
數(shù)據(jù)質(zhì)量：支持界面查看抽取總數(shù)、寫入總數(shù)、運行時長等指標進行數(shù)據(jù)質(zhì)量管理。

3、多引擎調(diào)度

DCT On Local
這種調(diào)度方法基于我們自主研發(fā)的 PSC 調(diào)度引擎，利用本地資源進行資源調(diào)度，其資源消耗極低。
DCT On Yarn
這種調(diào)度方法通過隊列機制實現(xiàn)資源隔離，保證了調(diào)度的效率和安全性。
Spark On Yarn
這種調(diào)度方法采用 Spark 引擎。在這種情況下，任務實際上運行在 Yarn 集群中，確保了高效和穩(wěn)定的運行環(huán)境。
Delink
這種調(diào)度方式是基于我們自研的實時湖倉 Delink。這種方式的任務運行在 Yarn 或 K8S 中，通常適用于批流一體的數(shù)據(jù)湖場景。高效的特征配置能力，可以應對大量的特征需求。

4、擴展性-自定義組件

DCT 統(tǒng)一了數(shù)據(jù)格式標準和組件開發(fā)規(guī)范，支持根據(jù)需求進行自定義組件開發(fā)，導入到管理界面后即可使用。

5、構(gòu)建任務-組件化配置、零代碼開發(fā)

任務構(gòu)建的過程也非常簡便，采用了模塊化的配置方法。用戶只需通過直觀的拖拽操作，將讀取組件、轉(zhuǎn)換組件和寫入組件按需串聯(lián)起來，即可完成任務配置。這種設(shè)計大大簡化了任務構(gòu)建流程，提高了操作的便捷性和效率。

6、離線同步(全量&增量)

全量同步：指源表中所有數(shù)據(jù)都傳輸。

增量同步：全量同步過程中或同步完成之后，源庫產(chǎn)生的增量數(shù)據(jù)，支持通過自定義 SQL 引用變量獲取。

7、實時同步

采用基于日志的增量數(shù)據(jù)秒級獲取技術(shù)（CDC），為數(shù)據(jù)倉庫、大數(shù)據(jù)平臺提供實時、準確的數(shù)據(jù)變化，從而使得客戶可以根據(jù)最新的數(shù)據(jù)進行運營管理與決策制定。

MySQL，通過 Binlog 方式獲取準確的數(shù)據(jù)，支持 5.x 及以上多版本，支持只讀庫權(quán)限的同步；支持斷點續(xù)傳。
PostgreSQL，支持邏輯流復制，通過 wal2json 解析日志獲取準確的數(shù)據(jù)；支持斷點續(xù)傳。
Oracle，支持 LogMiner 讀取數(shù)據(jù)庫日志獲取準確的數(shù)據(jù)；支持斷點續(xù)傳。

8、批流一體

使用同一套開發(fā)范式來實現(xiàn)大數(shù)據(jù)的流計算和批計算，進而保證處理過程與結(jié)果的一致性。降低批流采集任務配置復雜度，一次配置，程序自動進行批和流的數(shù)據(jù)采集，便于任務管理；批流自動切換，可降低資源消耗。

9、豐富的監(jiān)控運維

系統(tǒng)提供了全面的監(jiān)控功能，包括對每個實例的輸入和輸出數(shù)據(jù)量進行實時監(jiān)控。這不僅限于單個實例，還涵蓋了平臺級和項目級的任務。監(jiān)控內(nèi)容包括數(shù)據(jù)同步趨勢、資源消耗等關(guān)鍵指標，所有這些監(jiān)控數(shù)據(jù)都通過一個可視化界面展現(xiàn)。這種可視化監(jiān)控系統(tǒng)使監(jiān)控過程更加直觀和全面，支持實例級的輸入、輸出條數(shù)記錄，平臺級和項目級任務狀態(tài)監(jiān)控、數(shù)據(jù)同步趨勢監(jiān)控以及資源消耗監(jiān)控。

通過這種直觀的方式呈現(xiàn)監(jiān)控數(shù)據(jù)，監(jiān)控人員能夠更清晰地理解和分析監(jiān)控場景，及時發(fā)現(xiàn)和響應任何異常情況，從而保證系統(tǒng)的高效和穩(wěn)定運行。

10、智能調(diào)度

新一代分布式任務調(diào)度平臺，提供定時、任務編排、分布式跑批等功能，具有高可靠、海量任務、秒級調(diào)度及可運維等能力。

工作流調(diào)度方面，平臺支持可視化工作流進行任務編排，以及支持 Cron 表達式和 API。
資源調(diào)度方面，平臺能夠監(jiān)控和分配 CPU、內(nèi)存和 IO 資源，同時設(shè)置任務的優(yōu)先級，以智能方式分配任務資源。
分布式跑批方面，主要應用于離線場景，通過數(shù)據(jù)分片和將任務分配到不同的工作節(jié)點運行，以提高數(shù)據(jù)任務傳輸?shù)男省?/span>
任務監(jiān)控方面，包括監(jiān)控任務狀態(tài)、執(zhí)行結(jié)果，并支持任務的重跑設(shè)置。通過這些功能，平臺確保了任務的高效、穩(wěn)定執(zhí)行，同時提升了數(shù)據(jù)處理的效率和可靠性。

11、斷點續(xù)傳

基于 WAL 架構(gòu)，通過定期保存 CKP 的設(shè)計，即使出現(xiàn)斷網(wǎng)情況，當網(wǎng)絡恢復，也可基于斷網(wǎng)的定期保存檢查點實現(xiàn)斷點續(xù)傳，保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性。

當出現(xiàn)故障，數(shù)據(jù)傳輸中斷，可基于 CKP 快速恢復傳輸任務的數(shù)據(jù)，高效解決數(shù)據(jù)質(zhì)量問題。當然這有一個前提就是需要數(shù)據(jù)源支持斷點續(xù)傳機制。

三、技術(shù)架構(gòu)演進

1、DCT 1.0 技術(shù)架構(gòu)

DCT 1.0 的核心功能包括：

支持離線和實時數(shù)據(jù)同步；
讀寫組件插件化；
命令行的方式，單進程運行；
支持 MySQL、 Oracle、 SQLServer、Kafka、Hive 等數(shù)據(jù)源。

2、DCT 2.0 技術(shù)架構(gòu)

DCT 2.0 架構(gòu)在 1.0 的基礎(chǔ)之上，進行了如下提升：

任務創(chuàng)建和配置支持界面化操作，以拖拉拽的方式進行任務開發(fā)；
支持數(shù)據(jù)源管理、讀寫組件和轉(zhuǎn)換組件的上傳與下載；
支持多任務并行運行。

3、DCT 3.0 技術(shù)架構(gòu)

DCT 3.0 架構(gòu)介紹

Manger 管理端
控制創(chuàng)建任務以及啟動停止；
可實時監(jiān)控 MasterNode 是否在線。
MasterNode 主節(jié)點
負責 WorkNode 注冊上線，監(jiān)控，狀態(tài)維護；對提交的任務進行節(jié)點分配，任務下發(fā)，狀態(tài)監(jiān)控。
WorkNode 工作節(jié)點
負責 MasterNode 上報所在服務器節(jié)點的資源相關(guān)信息，接收來自 MasterNode 下發(fā)的任務；
負責 PSC 啟動，監(jiān)控上報，結(jié)束、異常處理等整個完整生命周期。
PSC 可編程調(diào)度容器
執(zhí)行數(shù)據(jù)同步任務的最小管理單元，包含讀取、轉(zhuǎn)換、寫入組件，共同組成一個同步任務；
由 WorkNode 負責管理整個任務的生命周期。
DCT 3.0 架構(gòu)先進性
支持分布式部署，Manager 節(jié)點和 WorkNode 節(jié)點實現(xiàn)了無狀態(tài)化，能夠獨立的橫向擴展，支持高可用和彈性擴縮容；
實時查看 CPU、內(nèi)存、I/O 等資源使用情況；
設(shè)定任務優(yōu)先級，智能分配資源；
優(yōu)化 PSC，使得能快速地支持自定義組件擴展。

4、DCT 4.0 技術(shù)架構(gòu)

DCT 4.0 架構(gòu)更進一步：

優(yōu)化掉了調(diào)度單點瓶頸的 MasterNode 節(jié)點，降低系統(tǒng)復雜度，提升了系統(tǒng)的可靠性；
自主研發(fā)基于 Manager 結(jié)合 PSC 作為資源調(diào)度引擎，實現(xiàn)任務分片調(diào)度；
WorkNode 節(jié)點與 PSC 任務支持故障轉(zhuǎn)移，使得系統(tǒng)具有更優(yōu)的穩(wěn)定性；
DCT 支持多種資源調(diào)度模式，能和大數(shù)據(jù)集群共享調(diào)度資源，降低硬件成本。
DCT-on-Local 模式：Local 模式支持以工作節(jié)點作為任務運行的資源，不需要依賴外部資源；
DCT-on-Yarn 模式：支持在 Yarn 集群運行；
DCT-on-Spark 模式：使用 Spark 引擎，以 Yarn 作為資源調(diào)度運行任務；
DCT-on-DLink 模式：使用 DLink 湖倉引擎，以 Yarn 或 K8S 作為資源調(diào)度運行任務。

四、應用場景

接下來將通過整庫入湖場景，來介紹 DCT 的應用。

將業(yè)務庫 MySQL 中的數(shù)據(jù)入湖，快速構(gòu)建湖倉一體。僅需簡單的四步，即可完成從基礎(chǔ)配置到實例運維的全流程閉環(huán)。

1、配置數(shù)據(jù)源

配置數(shù)據(jù)源
這一步驟相對簡單，主要通過直觀的拖拽操作來完成。用戶需要填寫相關(guān)的數(shù)據(jù)源連接信息，如數(shù)據(jù)庫地址、端口、用戶名和密碼等。
連接驗證和預檢測
配置完數(shù)據(jù)源后，下一步是驗證連接信息。包括檢查提供的連接信息是否正確，以及驗證相應的權(quán)限。系統(tǒng)會進行一系列預檢測，確保數(shù)據(jù)源連接的有效性和安全性。

2、配置資源

選擇 DLink 資源作為采集的資源調(diào)度引擎。
湖內(nèi) Catalog 信息獲取，作為目標端。
運維文件上傳（CDC jar 上傳）。

3、新建入湖任務

選擇讀取組件，MySQL 作為采集源端，寫入組件 Iceberg_DLink 作為目標端。
配置任務基礎(chǔ)信息，例如：Flink 重啟策略配置、Checkpoint、并行度、日志存儲等。
分別配置批資源、流資源，實例運行自動切換。
可根據(jù)源表結(jié)構(gòu)，自動生成目標表結(jié)構(gòu)，支持預覽、編輯、批量創(chuàng)建。
前置檢測通過后，啟動任務。

4、實例運維

支持查看實例狀態(tài)、同步數(shù)量、異常記錄等。
通過查看實例配置，二次檢驗是否符合同步配置。

五、成功案例

1、某能源企業(yè)：集成滴普實時湖倉，油田數(shù)據(jù)服務時效性大幅提升

客戶背景
某能源公司是以油氣業(yè)務、工程技術(shù)服務、石油工程建設(shè)、石油裝備制造等為主營業(yè)務的綜合性國際能源公司，是中國主要的油氣生產(chǎn)商和供應商之一?？碧介_發(fā)平臺是國內(nèi)油氣行業(yè)首個智能云平臺，其依托數(shù)據(jù)湖和 PaaS 技術(shù)實現(xiàn)勘探開發(fā)生產(chǎn)管理、協(xié)同研究、經(jīng)營管理及決策的一體化運營，支撐勘探開發(fā)業(yè)務的數(shù)字化、自動化、可視化、智能化轉(zhuǎn)型發(fā)展。
客戶需求——由離線數(shù)倉升級為新一代實時湖倉
提升油田勘探開發(fā)數(shù)據(jù)的服務時效性，原有數(shù)據(jù)需要 T+1 才能從數(shù)據(jù)源端到達數(shù)據(jù)服務端。
全量油田數(shù)據(jù)入湖，油田邊緣計算設(shè)備的時序數(shù)據(jù)需要實時上傳入湖，原有離線數(shù)倉不支持數(shù)據(jù)快速去重能力，導致時序入湖性能達不到要求。
滴普服務
統(tǒng)一數(shù)據(jù)集成工具：滴普 DCT 提供統(tǒng)一的多源異構(gòu)數(shù)據(jù)庫實時同步+離線同步工具，支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)實時匯聚。
實時湖倉架構(gòu)升級：滴普 DLink 實時湖倉引擎集成到勘探開發(fā)云平臺，提供數(shù)據(jù)實時計算、聯(lián)邦查詢等高級特性。
解決方案
數(shù)據(jù)源分類：項目涵蓋了 11 大類油田數(shù)據(jù)源，這些數(shù)據(jù)源多樣化，涉及油氣行業(yè)的多個關(guān)鍵領(lǐng)域。
數(shù)據(jù)同步和調(diào)度：所有這些數(shù)據(jù)源通過 DCT 進行統(tǒng)一調(diào)度和集成。DCT 在這里起到了核心的數(shù)據(jù)同步和集成工具的作用，確保了不同數(shù)據(jù)源之間的有效對接。
數(shù)據(jù)同步至開發(fā)云平臺：通過 DCT 工具，數(shù)據(jù)被同步到一個專門的開發(fā)云平臺。這個平臺作為數(shù)據(jù)處理和分析的核心，支持大規(guī)模數(shù)據(jù)集的處理和分析。
數(shù)據(jù)量和應用場景：這個項目處理了大約 5PB 的數(shù)據(jù)量，這一規(guī)模體現(xiàn)了其處理大數(shù)據(jù)的強大能力。最終，這些數(shù)據(jù)用于支持 8 大油氣數(shù)據(jù)應用場景，提供實時的數(shù)據(jù)服務。

（1）勘探開發(fā)云平臺：勘探開發(fā)云平臺新架構(gòu)

數(shù)據(jù)集成：從各種業(yè)務系統(tǒng)中提取數(shù)據(jù)，通過 DCT 實現(xiàn)數(shù)據(jù)的統(tǒng)一集成。
數(shù)據(jù)入湖：采用批流一體的方式，具體是通過 Flink CDC 機制將數(shù)據(jù)同步到 Kafka 集群，然后再利用 Flink 將數(shù)據(jù)實時寫入數(shù)據(jù)湖。同時，也支持使用聯(lián)邦查詢技術(shù)進行批處理數(shù)據(jù)的入湖。
實時計算與離線分析：數(shù)據(jù)入湖后，在數(shù)據(jù)湖內(nèi)部進行實時計算及離線分析，實現(xiàn)數(shù)據(jù)的深度處理。
數(shù)據(jù)同步與調(diào)度：處理完成的數(shù)據(jù)通過調(diào)度策略，使用 Trinor 進行離線同步到 ClickHouse（CK）。
數(shù)據(jù)服務 API：最終，通過 API 將同步到 ClickHouse 的數(shù)據(jù)提供給下游應用，供進一步的業(yè)務應用和數(shù)據(jù)分析使用。

（2）成果：異構(gòu)多模數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)采集架構(gòu)入湖，優(yōu)化運維成本

新架構(gòu)相較于原架構(gòu)，實現(xiàn)了數(shù)據(jù)同步流程的簡化和統(tǒng)一，并通過實時數(shù)據(jù)湖的引入，提升了數(shù)據(jù)處理的實時性和全面性，為更快速、更有效的數(shù)據(jù)分析提供了支持。

原架構(gòu)特點：在原有的數(shù)據(jù)架構(gòu)中，實時數(shù)據(jù)同步和離線數(shù)據(jù)同步是分開的，使用不同的工具鏈進行處理。
新架構(gòu)優(yōu)化：新架構(gòu)通過 DCT 實現(xiàn)了數(shù)據(jù)采集的統(tǒng)一，將實時和離線數(shù)據(jù)同步集成在同一條數(shù)據(jù)鏈路中，優(yōu)化了入湖過程。
數(shù)據(jù)湖轉(zhuǎn)變：在原架構(gòu)中，數(shù)據(jù)湖主要面向離線數(shù)據(jù)存儲，而新架構(gòu)升級為實時數(shù)據(jù)湖，提供了更高的時效性和全鏈路數(shù)據(jù)處理的能力。
時效性提升：新架構(gòu)顯著提高了數(shù)據(jù)處理的時效性，使得實時數(shù)據(jù)分析成為可能，同時還支持在實時數(shù)據(jù)湖中進行全鏈路的數(shù)據(jù)處理。

（3）成果：數(shù)據(jù)入湖、湖倉內(nèi)模型處理速度大幅提升，時效升級為 T+0

原架構(gòu)處理方式：原架構(gòu)依賴于離線跑批處理數(shù)據(jù)，并將數(shù)據(jù)同步到數(shù)據(jù)集市（data mart）層，同樣采用離線跑批的方法。
新架構(gòu)的優(yōu)化：新架構(gòu)采用了流批一體的處理鏈路，從數(shù)據(jù)入湖到最終寫入數(shù)據(jù)集市，整個應用層都采用了流處理和批處理的結(jié)合方式。
時效性提升：新架構(gòu)將數(shù)據(jù)處理的時效性從原來的 T+1（次日處理）提升到了 T+0（實時處理），顯著提高了數(shù)據(jù)處理的即時性。
資源消耗優(yōu)化：新架構(gòu)能夠在資源消耗上實現(xiàn)顯著節(jié)省，提高了整體的數(shù)據(jù)處理效率。
性能提升：在數(shù)據(jù)同步性能上，從原來的每秒同步 1100 條數(shù)據(jù)提升到實時入湖監(jiān)測到的每秒 25000 條數(shù)據(jù)，性能提高了超過 20 倍。

2、某零售企業(yè)：構(gòu)建圍繞“貨”“店”數(shù)據(jù)智能運營體系

技術(shù)應用：該零售企業(yè)采用了 FastData 平臺，輔以數(shù)據(jù)集成工具，以優(yōu)化其貨店數(shù)據(jù)智能運營體系。
成本下降：通過這些技術(shù)的應用，企業(yè)的硬件成本降低了 25%。
數(shù)據(jù)量和性能提升：在數(shù)據(jù)鏈方面，企業(yè)管理著大約 2.5 到 3PB 的數(shù)據(jù)規(guī)模，每天數(shù)據(jù)新增量約為 500GB。數(shù)據(jù)查詢性能提高了 30%。
架構(gòu)升級：企業(yè)的數(shù)據(jù)處理架構(gòu)從原來的批處理架構(gòu)升級到了實時處理架構(gòu)，時效性也隨之提升到了 T+0 級別，即數(shù)據(jù)可以實時處理和分析。

（1）某零售企業(yè)：基于 FastData 湖倉一體架構(gòu)優(yōu)化成本，性能和效率

數(shù)據(jù)源集成：我們將內(nèi)部及外部的多樣化數(shù)據(jù)源通過 DCT 進行集成，整合到 FastData 平臺。
數(shù)據(jù)處理與分析：在數(shù)據(jù)集成之后，在 FastData 的基礎(chǔ)設(shè)施上進行了必要的數(shù)據(jù)處理和分析。
指標與模型：處理和分析的過程中涉及到指標標簽的構(gòu)建和應用模型分析。
業(yè)務閉環(huán)形成：通過這些步驟，實現(xiàn)了針對特定業(yè)務場景的閉環(huán)，從而支撐了數(shù)據(jù)驅(qū)動的決策過程。

（2）某零售企業(yè)：數(shù)據(jù)中臺聯(lián)合共創(chuàng)，全面提升業(yè)務效率

問題
客戶擁有多個業(yè)務系統(tǒng)，并使用多種數(shù)據(jù)庫類型；底層需接入多個組件實現(xiàn)數(shù)據(jù)離線、實時同步，技術(shù)復雜度高，穩(wěn)定性差，采購多套商業(yè)軟件，費用高，資源消耗大。
價值
統(tǒng)一數(shù)據(jù)入湖工具可以降低數(shù)據(jù)集成過程的復雜度，減少維護成本，資源使用大幅減少。該工具采用集群架構(gòu)，高可用，支持故障轉(zhuǎn)移，能進一步提升容錯性和可靠性。同時數(shù)據(jù)入湖速度、湖倉內(nèi)模型處理速度大幅提升，數(shù)據(jù)服務時效從 T+1 升級為 T+0。
運行情況：
DCT 任務 2000+，并發(fā)任務 500+，平日數(shù)據(jù)量約為 1億+；峰值 3 萬條/秒；
DCT 生產(chǎn)環(huán)境運行 2 年，運行穩(wěn)定，無數(shù)據(jù)丟失；
DCT 扛住 618、雙 11、雙 12 的壓力（數(shù)據(jù)量為平日 3-5 倍），無崩潰，無數(shù)據(jù)丟失，數(shù)據(jù)延遲 <2 秒；
DCT 實時同步速率約 80MB/s，日最高承受數(shù)據(jù)量達 20TB。

六、Q&A

Q1：DCT 數(shù)據(jù)集成是如何保證數(shù)據(jù)一致性的？

A1：實時任務同步的一致性保證：對于實時數(shù)據(jù)同步任務，我們采用了 checkpoint 機制。這一機制能夠在任務因異常中斷時創(chuàng)建保存點，以便在網(wǎng)絡或系統(tǒng)恢復后，能夠從上一個已知的良好狀態(tài)重新開始數(shù)據(jù)同步。這樣做的好處是，即使在出現(xiàn)故障的情況下，也能確保數(shù)據(jù)不會丟失，并且可以根據(jù)業(yè)務時間或數(shù)據(jù)偏移量進行精確地重置和消費。此外，如果目標端存在主鍵，我們還可以利用數(shù)據(jù)的冪等性質(zhì)來避免重復，確保數(shù)據(jù)的一致性。

離線任務同步的一致性保證：在離線數(shù)據(jù)同步方面，特別是在處理大數(shù)據(jù)量場景下，我們同樣實施了故障轉(zhuǎn)移策略，并記錄了數(shù)據(jù)的偏移量。當任務發(fā)生異常時，可以從記錄的偏移量處開始重新同步。這種機制保證了即使在離線狀態(tài)下，數(shù)據(jù)同步也能夠在故障后繼續(xù)進行，而不會造成數(shù)據(jù)的不一致。

綜上，無論是實時同步還是離線同步，DCT 都通過先進的機制確保了數(shù)據(jù)的一致性和完整性，以支持企業(yè)的數(shù)據(jù)集成和分析需求。

Q2：DCT-on-Yarn 跟 DCT-on-Spark 有什么區(qū)別？他們的應用場景是什么？

A2：DCT-on-Yarn 是一種基于 Yarn 進行資源調(diào)度的數(shù)據(jù)集成工具。它能夠高效地利用企業(yè)現(xiàn)有的 Yarn 集群資源，避免了在工作節(jié)點上部署額外的機器資源。這種方式適合于企業(yè)已經(jīng)擁有大數(shù)據(jù)集群，并希望在現(xiàn)有集群中實現(xiàn)批處理和流處理相結(jié)合，或是實現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫一體化的任務調(diào)度。簡而言之，DCT-on-Yarn 可以直接借用企業(yè)現(xiàn)有的資源來執(zhí)行數(shù)據(jù)集成任務。

相比之下，DCT-on-Spark 專注于數(shù)據(jù)湖的入湖場景，特別是在使用企業(yè)自有的湖倉引擎時。DCT-on-Spark 采用了 SeaTunnel 引擎，旨在提升從源端到實時湖倉引擎 Dlink 的數(shù)據(jù)處理效率。雖然 Spark 引擎也運行在 Yarn 集群中，與 DCT-on-Yarn 在技術(shù)基礎(chǔ)上有所相似，但 DCT-on-Spark 通過特定的數(shù)據(jù)處理引擎優(yōu)化了入湖過程的性能。

總結(jié)來說，DCT-on-Yarn 更適合那些希望在現(xiàn)有大數(shù)據(jù)集群內(nèi)優(yōu)化資源利用的企業(yè)，而 DCT-on-Spark 則更適用于需要高效數(shù)據(jù)入湖處理的場景。兩者雖然在技術(shù)實現(xiàn)上有所交叉，但都旨在提高企業(yè)數(shù)據(jù)處理的效率和效能。

Q3：數(shù)據(jù)大量入倉入湖后能用到業(yè)務端的數(shù)據(jù)占比有多少？另外怎么解決數(shù)據(jù)浪費的問題？

A3：業(yè)務應用占比：這個問題高度依賴于業(yè)務需求。一種常見的方法是自上而下的數(shù)據(jù)入湖，即先將企業(yè)內(nèi)所有系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)統(tǒng)一入湖，然后進行數(shù)據(jù)建模和治理。但這種方法可能導致一部分數(shù)據(jù)并不符合實際業(yè)務需求。因此，更推薦的做法是結(jié)合企業(yè)具體業(yè)務進行自下而上的數(shù)據(jù)分析，明確哪些數(shù)據(jù)需要入湖并加以加工，最終形成有用的主題域。這樣做可以更好地對接業(yè)務需求，提升數(shù)據(jù)在業(yè)務端的應用率。

解決數(shù)據(jù)浪費問題：數(shù)據(jù)浪費主要集中在存儲空間占用和計算資源上。對于存儲來說，我們可以采用冷熱數(shù)據(jù)分離的策略：對冷數(shù)據(jù)進行壓縮和歸檔，以減少存儲空間占用；而熱數(shù)據(jù)則重點保存和加速處理，以便快速分析。在計算引擎方面，采用存算分離的架構(gòu)既能提升性能，又能保證在不同場景下選擇最合適的引擎，避免不必要的資源堆積和浪費。通過這種方式，可以靈活地調(diào)整或下架不再使用的計算引擎，進一步優(yōu)化資源利用。

責任編輯：姜華來源： DataFunTalk

湖倉一體大數(shù)據(jù)數(shù)據(jù)集成

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<thead id="qsrr5"></thead>}

<cite id="qsrr5"></cite>

<u id="qsrr5"></u>