自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)集成產(chǎn)品的技術(shù)演進與實際應用-FastData DCT

大數(shù)據(jù)
FastData DCT 憑借在異構(gòu)數(shù)據(jù)源實時融合和數(shù)據(jù)倉庫遷移方面的強大優(yōu)勢,有效提高了數(shù)據(jù)利用率和管理效率,減少了數(shù)據(jù)浪費。本次分享將深入探討 FastData DCT 的架構(gòu)演進和實際應用案例,展現(xiàn)其在推動各行業(yè)數(shù)字化轉(zhuǎn)型升級中的重要作用。

在數(shù)字化轉(zhuǎn)型的大潮中,企業(yè)面臨的數(shù)據(jù)環(huán)境日益復雜多變。滴普科技的 FastData DCT 產(chǎn)品應運而生,專注于高效的數(shù)據(jù)集成和管理,以應對多樣化的數(shù)據(jù)挑戰(zhàn)。這款產(chǎn)品結(jié)合了流批一體和湖倉一體架構(gòu),提供了從數(shù)據(jù)集成、分析到價值實現(xiàn)的全鏈路服務,極大地提升了數(shù)據(jù)處理的時效性和靈活性。FastData DCT 憑借在異構(gòu)數(shù)據(jù)源實時融合和數(shù)據(jù)倉庫遷移方面的強大優(yōu)勢,有效提高了數(shù)據(jù)利用率和管理效率,減少了數(shù)據(jù)浪費。本次分享將深入探討 FastData DCT 的架構(gòu)演進和實際應用案例,展現(xiàn)其在推動各行業(yè)數(shù)字化轉(zhuǎn)型升級中的重要作用。

一、產(chǎn)品概述

1、Data Fabric 數(shù)據(jù)架構(gòu)

圖片

自 2019 年起,高德納連續(xù)4年將數(shù)據(jù)編織(數(shù)據(jù)結(jié)構(gòu))列為年度數(shù)據(jù)和分析技術(shù)領(lǐng)域的十大趨勢之一。高德納認為“數(shù)據(jù)結(jié)構(gòu)是數(shù)據(jù)管理的未來”。

數(shù)據(jù)架構(gòu)是一種數(shù)據(jù)架構(gòu)思想,包含 DataOps 數(shù)據(jù)工程,其中通過 AI、知識圖譜等智能技術(shù),實現(xiàn)主動元數(shù)據(jù)治理。

2、DCT 簡介

圖片

DCT (Data Collection Transform,簡稱DCT)支持關(guān)系型數(shù)據(jù)庫、NoSQL、數(shù)據(jù)倉庫(OLAP)、數(shù)據(jù)湖(lceberg、Hudi)等數(shù)據(jù)源,可用于公有云之間、公有云與私有云之間的數(shù)據(jù)入湖入倉的結(jié)構(gòu)遷移,存量數(shù)據(jù)同步和實時數(shù)據(jù)捕獲同步。為企業(yè)實現(xiàn)數(shù)據(jù)流通,提供簡單、安全和穩(wěn)健的數(shù)據(jù)傳輸保障。

DCT 專注于數(shù)據(jù)的入湖入倉、出湖出倉場景,同時支持包括 PSC、Flink、Spark 在內(nèi)的多引擎資源調(diào)度配置,支持批流一體以及故障轉(zhuǎn)移等復雜的數(shù)據(jù)傳輸機制。在復雜的網(wǎng)絡環(huán)境和業(yè)務背景下,DCT 提供了穩(wěn)固的數(shù)據(jù)同步解決方案。

目前,DCT 已經(jīng)發(fā)展到第四代。其第一代主要關(guān)注于參數(shù)配置;第二代引入了可視化界面,以簡化任務配置過程;第三代實現(xiàn)了對讀取與寫入功能的組件化;而最新一代則新增了流批一體的任務類型,以進一步優(yōu)化數(shù)據(jù)處理效率和彈性。

3、產(chǎn)品定位:PB 級數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路

圖片

在大數(shù)據(jù)領(lǐng)域,特別是在 PB 級別的海量數(shù)據(jù)處理中,核心任務是確保數(shù)據(jù)傳輸?shù)母咝屎头€(wěn)定性。DCT 的產(chǎn)品定位就是在PB級數(shù)據(jù)量下高效、穩(wěn)定的數(shù)據(jù)傳輸高速公路。從源端到目標端,DCT 構(gòu)建了一條能夠靈活適應不同數(shù)據(jù)源的可組合數(shù)據(jù)鏈路。在這一過程中,涉及 13 種主流的數(shù)據(jù)源類型,包括關(guān)系型數(shù)據(jù)庫、大規(guī)模并行處理系統(tǒng)(MPP)及數(shù)據(jù)湖和數(shù)據(jù)倉庫等。

系統(tǒng)的核心技術(shù)能力集中在任務配置、組件管理以及運維維護等關(guān)鍵環(huán)節(jié)。這些能力共同支持了離線數(shù)據(jù)采集、實時數(shù)據(jù)采集以及批處理與流處理一體化等多樣化的數(shù)據(jù)任務類型,確保了數(shù)據(jù)處理流程的靈活性和系統(tǒng)響應的及時性,滿足了復雜數(shù)據(jù)操作的需求。

4、產(chǎn)品價值

產(chǎn)品價值主要體現(xiàn)在三大方面:

  • 異構(gòu)數(shù)據(jù)源的實時融合
    專注于實現(xiàn)不同數(shù)據(jù)源如 Oracle、MySQL、Kafka 和 Iceberg 等的實時數(shù)據(jù)融合。包括支持數(shù)據(jù)的增量捕獲和異構(gòu)數(shù)據(jù)的語義映射,以便實現(xiàn)數(shù)據(jù)的即時入湖。
  • 整庫入湖入倉,出湖出倉
    支持 MySQL、Oracle 等數(shù)據(jù)源入湖入倉,出湖出倉??焖贅?gòu)建湖倉內(nèi)數(shù)據(jù),打通數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理和高效利用,為數(shù)據(jù)開發(fā)工程師和數(shù)據(jù)分析人員可以快速建立數(shù)據(jù)模型、構(gòu)建應用提供數(shù)據(jù)來源。
  • 降本增效
    降本:多種架構(gòu)簡化場景,簡化軟件架構(gòu)設(shè)計,降低異構(gòu)數(shù)據(jù)融合成本。通過拖拉拽實現(xiàn)同步鏈路的創(chuàng)建,低代碼,降低學習和維護成本。
    增效:無代碼任務構(gòu)建,提升數(shù)據(jù)集成敏捷性。支持組件自定義,提升客戶業(yè)務創(chuàng)新效率。分布式引擎、組件級高可用保障,實時鏈路穩(wěn)定高容錯。

5、產(chǎn)品優(yōu)勢

圖片


  • 高性能多源異構(gòu)數(shù)據(jù)采集
    支持從關(guān)系型數(shù)據(jù)庫、NoSQL、OLAP、數(shù)據(jù)湖等多樣的數(shù)據(jù)源進行結(jié)構(gòu)化遷移、離線同步以及實時同步。
  • 批流一體化數(shù)據(jù)采集
    采用統(tǒng)一的開發(fā)范式,同時實施大數(shù)據(jù)的流式和批量計算,確保數(shù)據(jù)處理的一致性,并簡化了批流采集任務的配置流程。
  • 高可靠性與時效性
    通過變更數(shù)據(jù)捕獲(CDC)機制,實現(xiàn)日志級別的數(shù)據(jù)監(jiān)聽,確保數(shù)據(jù)的時效性。同時,支持斷點續(xù)傳和故障轉(zhuǎn)移,保障數(shù)據(jù)傳輸?shù)母呖煽啃浴?/span>
  • 組件化插拔式管理
    提供了組件插拔式管理,用戶可以自定義組件進行擴展,并支持拖拉拽的任務配置方式,降低了代碼編寫的需求,使系統(tǒng)易于學習和維護。
  • 低成本高效率運行
    系統(tǒng)設(shè)計為單進程任務,最低僅需 1G 內(nèi)存即可運行,降低了成本。同時,支持并行度設(shè)置,有效提高了數(shù)據(jù)傳輸效率。
  • 云原生架構(gòu)設(shè)計
    系統(tǒng)采用云原生架構(gòu),無需調(diào)整現(xiàn)有架構(gòu),具有強大的兼容性?;谌罩镜脑O(shè)計對源業(yè)務無侵入,保障原有業(yè)務庫的穩(wěn)定運行。

二、功能介紹

1、產(chǎn)品功能架構(gòu)圖

圖片

在產(chǎn)品功能架構(gòu)的設(shè)計上,專注于數(shù)據(jù)湖和數(shù)據(jù)倉的高效數(shù)據(jù)處理流程,包括數(shù)據(jù)的導入與導出操作。Delink、EMR、MRS 等平臺能夠得到良好的支持,系統(tǒng)對于數(shù)據(jù)湖或湖倉一體化平臺有很好的兼容性。

  • 基礎(chǔ)服務層面
    提供了數(shù)據(jù)源管理、資源組件管理等核心功能。
  • 數(shù)據(jù)傳輸層面
    數(shù)據(jù)傳輸過程中,任務類型被細分為離線、實時和流批一體三種模式。數(shù)據(jù)采集模式涵蓋一對一、多對一和一對多三種類型。組件配置方面,將其劃分為讀取組件、轉(zhuǎn)換組件和寫入組件,數(shù)據(jù)映射時提供字段批量處理、整庫處理和大批量處理等映射規(guī)則。數(shù)據(jù)安全管理方面,實施了嚴格的分類分級、加解密措施,并對任務管理進行了優(yōu)化,包括前置檢測、導入導出、斷點續(xù)傳和 DDL 變更等功能。
  • 監(jiān)控告警層面
    系統(tǒng)支持故障轉(zhuǎn)移,如通過檢查頻率來實現(xiàn)超時任務的故障遷移。任務執(zhí)行過程中,監(jiān)控大屏能夠?qū)崟r顯示任務狀態(tài)、數(shù)據(jù)同步量和資源消耗情況。為確保數(shù)據(jù)質(zhì)量,系統(tǒng)支持與源端進行數(shù)據(jù)質(zhì)量校驗,并結(jié)合告警規(guī)則對超時任務和狀態(tài)進行監(jiān)控。此外,系統(tǒng)支持多種消息提醒方式,如短信、釘釘電話、Webhook 等,從而快速為下游應用提供必要的數(shù)據(jù)支撐。

2、產(chǎn)品核心功能

圖片

  • 資源管理
    支持界面配置多種計算、調(diào)度、存儲資源類型。
  • 數(shù)據(jù)源管理
    支持界面配置多種類型數(shù)據(jù)源,測試連通性。
  • 組件管理
    將 ETL 能力抽象為“組件”,支持界面管理讀取、轉(zhuǎn)換、寫入組件。
  • 任務配置
    支持按項目空間 & 目錄進行任務管理。
    離線數(shù)據(jù)采集:支持根據(jù)源表生成目標表建表 SQL 等,快速創(chuàng)建目標表,支持按時間周期自動調(diào)度全量/增量數(shù)據(jù)采集。
    實時數(shù)據(jù)采集:支持通過訂閱數(shù)據(jù)源 Binlog 等方式,無侵入實現(xiàn)實時增量數(shù)據(jù)采集。
    批流一體數(shù)據(jù)入湖:支持通過一個任務實現(xiàn)批流一體數(shù)據(jù)入 lceberg 等數(shù)據(jù)湖。
  • 運維監(jiān)控
    實例日志:支持根據(jù)日志層級,分類查看日志信息,快速定位問題。
    監(jiān)控告警:支持釘釘、郵箱、短信、電話等多種告警方式。
    數(shù)據(jù)質(zhì)量:支持界面查看抽取總數(shù)、寫入總數(shù)、運行時長等指標進行數(shù)據(jù)質(zhì)量管理。

3、多引擎調(diào)度

圖片

  • DCT On Local
    這種調(diào)度方法基于我們自主研發(fā)的 PSC 調(diào)度引擎,利用本地資源進行資源調(diào)度,其資源消耗極低。
  • DCT On Yarn
    這種調(diào)度方法通過隊列機制實現(xiàn)資源隔離,保證了調(diào)度的效率和安全性。
  • Spark On Yarn
    這種調(diào)度方法采用 Spark 引擎。在這種情況下,任務實際上運行在 Yarn 集群中,確保了高效和穩(wěn)定的運行環(huán)境。
  • Delink
    這種調(diào)度方式是基于我們自研的實時湖倉 Delink。這種方式的任務運行在 Yarn 或 K8S 中,通常適用于批流一體的數(shù)據(jù)湖場景。高效的特征配置能力,可以應對大量的特征需求。

4、擴展性-自定義組件

DCT 統(tǒng)一了數(shù)據(jù)格式標準和組件開發(fā)規(guī)范,支持根據(jù)需求進行自定義組件開發(fā),導入到管理界面后即可使用。

圖片

5、構(gòu)建任務-組件化配置、零代碼開發(fā)

任務構(gòu)建的過程也非常簡便,采用了模塊化的配置方法。用戶只需通過直觀的拖拽操作,將讀取組件、轉(zhuǎn)換組件和寫入組件按需串聯(lián)起來,即可完成任務配置。這種設(shè)計大大簡化了任務構(gòu)建流程,提高了操作的便捷性和效率。

圖片

6、離線同步(全量&增量)

全量同步:指源表中所有數(shù)據(jù)都傳輸。

增量同步:全量同步過程中或同步完成之后,源庫產(chǎn)生的增量數(shù)據(jù),支持通過自定義 SQL 引用變量獲取。

圖片

7、實時同步

圖片

采用基于日志的增量數(shù)據(jù)秒級獲取技術(shù)(CDC),為數(shù)據(jù)倉庫、大數(shù)據(jù)平臺提供實時、準確的數(shù)據(jù)變化,從而使得客戶可以根據(jù)最新的數(shù)據(jù)進行運營管理與決策制定。

  • MySQL,通過 Binlog 方式獲取準確的數(shù)據(jù),支持 5.x 及以上多版本,支持只讀庫權(quán)限的同步;支持斷點續(xù)傳。
  • PostgreSQL,支持邏輯流復制,通過 wal2json 解析日志獲取準確的數(shù)據(jù);支持斷點續(xù)傳。
  • Oracle,支持 LogMiner 讀取數(shù)據(jù)庫日志獲取準確的數(shù)據(jù);支持斷點續(xù)傳。

8、批流一體

使用同一套開發(fā)范式來實現(xiàn)大數(shù)據(jù)的流計算和批計算,進而保證處理過程與結(jié)果的一致性。降低批流采集任務配置復雜度,一次配置,程序自動進行批和流的數(shù)據(jù)采集,便于任務管理;批流自動切換,可降低資源消耗。

圖片

9、豐富的監(jiān)控運維

系統(tǒng)提供了全面的監(jiān)控功能,包括對每個實例的輸入和輸出數(shù)據(jù)量進行實時監(jiān)控。這不僅限于單個實例,還涵蓋了平臺級和項目級的任務。監(jiān)控內(nèi)容包括數(shù)據(jù)同步趨勢、資源消耗等關(guān)鍵指標,所有這些監(jiān)控數(shù)據(jù)都通過一個可視化界面展現(xiàn)。這種可視化監(jiān)控系統(tǒng)使監(jiān)控過程更加直觀和全面,支持實例級的輸入、輸出條數(shù)記錄,平臺級和項目級任務狀態(tài)監(jiān)控、數(shù)據(jù)同步趨勢監(jiān)控以及資源消耗監(jiān)控。

通過這種直觀的方式呈現(xiàn)監(jiān)控數(shù)據(jù),監(jiān)控人員能夠更清晰地理解和分析監(jiān)控場景,及時發(fā)現(xiàn)和響應任何異常情況,從而保證系統(tǒng)的高效和穩(wěn)定運行。

圖片

10、智能調(diào)度

新一代分布式任務調(diào)度平臺,提供定時、任務編排、分布式跑批等功能,具有高可靠、海量任務、秒級調(diào)度及可運維等能力。

圖片

  • 工作流調(diào)度方面,平臺支持可視化工作流進行任務編排,以及支持 Cron 表達式和 API。
  • 資源調(diào)度方面,平臺能夠監(jiān)控和分配 CPU、內(nèi)存和 IO 資源,同時設(shè)置任務的優(yōu)先級,以智能方式分配任務資源。
  • 分布式跑批方面,主要應用于離線場景,通過數(shù)據(jù)分片和將任務分配到不同的工作節(jié)點運行,以提高數(shù)據(jù)任務傳輸?shù)男省?/span>
  • 任務監(jiān)控方面,包括監(jiān)控任務狀態(tài)、執(zhí)行結(jié)果,并支持任務的重跑設(shè)置。通過這些功能,平臺確保了任務的高效、穩(wěn)定執(zhí)行,同時提升了數(shù)據(jù)處理的效率和可靠性。

11、斷點續(xù)傳

基于 WAL 架構(gòu),通過定期保存 CKP 的設(shè)計,即使出現(xiàn)斷網(wǎng)情況,當網(wǎng)絡恢復,也可基于斷網(wǎng)的定期保存檢查點實現(xiàn)斷點續(xù)傳,保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性。

圖片

當出現(xiàn)故障,數(shù)據(jù)傳輸中斷,可基于 CKP 快速恢復傳輸任務的數(shù)據(jù),高效解決數(shù)據(jù)質(zhì)量問題。當然這有一個前提就是需要數(shù)據(jù)源支持斷點續(xù)傳機制。

三、技術(shù)架構(gòu)演進

1、DCT 1.0 技術(shù)架構(gòu)

圖片

DCT 1.0 的核心功能包括:

  • 支持離線和實時數(shù)據(jù)同步;
  • 讀寫組件插件化;
  • 命令行的方式,單進程運行;
  • 支持 MySQL、 Oracle、 SQLServer、Kafka、Hive 等數(shù)據(jù)源。

2、DCT 2.0 技術(shù)架構(gòu)

圖片

DCT 2.0 架構(gòu)在 1.0 的基礎(chǔ)之上,進行了如下提升:

  • 任務創(chuàng)建和配置支持界面化操作,以拖拉拽的方式進行任務開發(fā);
  • 支持數(shù)據(jù)源管理、讀寫組件和轉(zhuǎn)換組件的上傳與下載;
  • 支持多任務并行運行。

3、DCT 3.0 技術(shù)架構(gòu)

圖片

DCT 3.0 架構(gòu)介紹

  • Manger 管理端
    控制創(chuàng)建任務以及啟動停止;
    可實時監(jiān)控 MasterNode 是否在線。
  • MasterNode 主節(jié)點
    負責 WorkNode 注冊上線,監(jiān)控,狀態(tài)維護;對提交的任務進行節(jié)點分配,任務下發(fā),狀態(tài)監(jiān)控。
  • WorkNode 工作節(jié)點
    負責 MasterNode 上報所在服務器節(jié)點的資源相關(guān)信息,接收來自 MasterNode 下發(fā)的任務;
    負責 PSC 啟動,監(jiān)控上報,結(jié)束、異常處理等整個完整生命周期。
  • PSC 可編程調(diào)度容器
    執(zhí)行數(shù)據(jù)同步任務的最小管理單元,包含讀取、轉(zhuǎn)換、寫入組件,共同組成一個同步任務;
    由 WorkNode 負責管理整個任務的生命周期。
  • DCT 3.0 架構(gòu)先進性
    支持分布式部署,Manager 節(jié)點和 WorkNode 節(jié)點實現(xiàn)了無狀態(tài)化,能夠獨立的橫向擴展,支持高可用和彈性擴縮容;
    實時查看 CPU、內(nèi)存、I/O 等資源使用情況;
    設(shè)定任務優(yōu)先級,智能分配資源;
    優(yōu)化 PSC,使得能快速地支持自定義組件擴展。

4、DCT 4.0 技術(shù)架構(gòu)

圖片

DCT 4.0 架構(gòu)更進一步:

  • 優(yōu)化掉了調(diào)度單點瓶頸的 MasterNode 節(jié)點,降低系統(tǒng)復雜度,提升了系統(tǒng)的可靠性;
  • 自主研發(fā)基于 Manager 結(jié)合 PSC 作為資源調(diào)度引擎,實現(xiàn)任務分片調(diào)度;
  • WorkNode 節(jié)點與 PSC 任務支持故障轉(zhuǎn)移,使得系統(tǒng)具有更優(yōu)的穩(wěn)定性;
  • DCT 支持多種資源調(diào)度模式,能和大數(shù)據(jù)集群共享調(diào)度資源,降低硬件成本。
    DCT-on-Local 模式:Local 模式支持以工作節(jié)點作為任務運行的資源,不需要依賴外部資源;
    DCT-on-Yarn 模式:支持在 Yarn 集群運行;
    DCT-on-Spark 模式:使用 Spark 引擎,以 Yarn 作為資源調(diào)度運行任務;
    DCT-on-DLink 模式:使用 DLink 湖倉引擎,以 Yarn 或 K8S 作為資源調(diào)度運行任務。

四、應用場景

接下來將通過整庫入湖場景,來介紹 DCT 的應用。

將業(yè)務庫 MySQL 中的數(shù)據(jù)入湖,快速構(gòu)建湖倉一體。僅需簡單的四步,即可完成從基礎(chǔ)配置到實例運維的全流程閉環(huán)。

圖片

1、配置數(shù)據(jù)源

圖片

  • 配置數(shù)據(jù)源
    這一步驟相對簡單,主要通過直觀的拖拽操作來完成。用戶需要填寫相關(guān)的數(shù)據(jù)源連接信息,如數(shù)據(jù)庫地址、端口、用戶名和密碼等。
  • 連接驗證和預檢測
    配置完數(shù)據(jù)源后,下一步是驗證連接信息。包括檢查提供的連接信息是否正確,以及驗證相應的權(quán)限。系統(tǒng)會進行一系列預檢測,確保數(shù)據(jù)源連接的有效性和安全性。

2、配置資源

圖片

  • 選擇 DLink 資源作為采集的資源調(diào)度引擎。
  • 湖內(nèi) Catalog 信息獲取,作為目標端。
  • 運維文件上傳(CDC jar 上傳)。

3、新建入湖任務

圖片

  • 選擇讀取組件,MySQL 作為采集源端,寫入組件 Iceberg_DLink 作為目標端。
  • 配置任務基礎(chǔ)信息,例如:Flink 重啟策略配置、Checkpoint、并行度、日志存儲等。
  • 分別配置批資源、流資源,實例運行自動切換。
  • 可根據(jù)源表結(jié)構(gòu),自動生成目標表結(jié)構(gòu),支持預覽、編輯、批量創(chuàng)建。
  • 前置檢測通過后,啟動任務。

4、實例運維

圖片

  • 支持查看實例狀態(tài)、同步數(shù)量、異常記錄等。
  • 通過查看實例配置,二次檢驗是否符合同步配置。

五、成功案例

1、某能源企業(yè):集成滴普實時湖倉,油田數(shù)據(jù)服務時效性大幅提升

圖片

  • 客戶背景
    某能源公司是以油氣業(yè)務、工程技術(shù)服務、石油工程建設(shè)、石油裝備制造等為主營業(yè)務的綜合性國際能源公司,是中國主要的油氣生產(chǎn)商和供應商之一??碧介_發(fā)平臺是國內(nèi)油氣行業(yè)首個智能云平臺,其依托數(shù)據(jù)湖和 PaaS 技術(shù)實現(xiàn)勘探開發(fā)生產(chǎn)管理、協(xié)同研究、經(jīng)營管理及決策的一體化運營,支撐勘探開發(fā)業(yè)務的數(shù)字化、自動化、可視化、智能化轉(zhuǎn)型發(fā)展。
  • 客戶需求——由離線數(shù)倉升級為新一代實時湖倉
    提升油田勘探開發(fā)數(shù)據(jù)的服務時效性,原有數(shù)據(jù)需要 T+1 才能從數(shù)據(jù)源端到達數(shù)據(jù)服務端。
    全量油田數(shù)據(jù)入湖,油田邊緣計算設(shè)備的時序數(shù)據(jù)需要實時上傳入湖,原有離線數(shù)倉不支持數(shù)據(jù)快速去重能力,導致時序入湖性能達不到要求。
  • 滴普服務
    統(tǒng)一數(shù)據(jù)集成工具:滴普 DCT 提供統(tǒng)一的多源異構(gòu)數(shù)據(jù)庫實時同步+離線同步工具,支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)實時匯聚。
    實時湖倉架構(gòu)升級:滴普 DLink 實時湖倉引擎集成到勘探開發(fā)云平臺,提供數(shù)據(jù)實時計算、聯(lián)邦查詢等高級特性。
  • 解決方案
    數(shù)據(jù)源分類:項目涵蓋了 11 大類油田數(shù)據(jù)源,這些數(shù)據(jù)源多樣化,涉及油氣行業(yè)的多個關(guān)鍵領(lǐng)域。
    數(shù)據(jù)同步和調(diào)度:所有這些數(shù)據(jù)源通過 DCT 進行統(tǒng)一調(diào)度和集成。DCT 在這里起到了核心的數(shù)據(jù)同步和集成工具的作用,確保了不同數(shù)據(jù)源之間的有效對接。
    數(shù)據(jù)同步至開發(fā)云平臺:通過 DCT 工具,數(shù)據(jù)被同步到一個專門的開發(fā)云平臺。這個平臺作為數(shù)據(jù)處理和分析的核心,支持大規(guī)模數(shù)據(jù)集的處理和分析。
    數(shù)據(jù)量和應用場景:這個項目處理了大約 5PB 的數(shù)據(jù)量,這一規(guī)模體現(xiàn)了其處理大數(shù)據(jù)的強大能力。最終,這些數(shù)據(jù)用于支持 8 大油氣數(shù)據(jù)應用場景,提供實時的數(shù)據(jù)服務。

(1)勘探開發(fā)云平臺:勘探開發(fā)云平臺新架構(gòu)

圖片

  • 數(shù)據(jù)集成:從各種業(yè)務系統(tǒng)中提取數(shù)據(jù),通過 DCT 實現(xiàn)數(shù)據(jù)的統(tǒng)一集成。
  • 數(shù)據(jù)入湖:采用批流一體的方式,具體是通過 Flink CDC 機制將數(shù)據(jù)同步到 Kafka 集群,然后再利用 Flink 將數(shù)據(jù)實時寫入數(shù)據(jù)湖。同時,也支持使用聯(lián)邦查詢技術(shù)進行批處理數(shù)據(jù)的入湖。
  • 實時計算與離線分析:數(shù)據(jù)入湖后,在數(shù)據(jù)湖內(nèi)部進行實時計算及離線分析,實現(xiàn)數(shù)據(jù)的深度處理。
  • 數(shù)據(jù)同步與調(diào)度:處理完成的數(shù)據(jù)通過調(diào)度策略,使用 Trinor 進行離線同步到 ClickHouse(CK)。
  • 數(shù)據(jù)服務 API:最終,通過 API 將同步到 ClickHouse 的數(shù)據(jù)提供給下游應用,供進一步的業(yè)務應用和數(shù)據(jù)分析使用。

(2)成果:異構(gòu)多模數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)采集架構(gòu)入湖,優(yōu)化運維成本

圖片

新架構(gòu)相較于原架構(gòu),實現(xiàn)了數(shù)據(jù)同步流程的簡化和統(tǒng)一,并通過實時數(shù)據(jù)湖的引入,提升了數(shù)據(jù)處理的實時性和全面性,為更快速、更有效的數(shù)據(jù)分析提供了支持。

  • 原架構(gòu)特點:在原有的數(shù)據(jù)架構(gòu)中,實時數(shù)據(jù)同步和離線數(shù)據(jù)同步是分開的,使用不同的工具鏈進行處理。
  • 新架構(gòu)優(yōu)化:新架構(gòu)通過 DCT 實現(xiàn)了數(shù)據(jù)采集的統(tǒng)一,將實時和離線數(shù)據(jù)同步集成在同一條數(shù)據(jù)鏈路中,優(yōu)化了入湖過程。
  • 數(shù)據(jù)湖轉(zhuǎn)變:在原架構(gòu)中,數(shù)據(jù)湖主要面向離線數(shù)據(jù)存儲,而新架構(gòu)升級為實時數(shù)據(jù)湖,提供了更高的時效性和全鏈路數(shù)據(jù)處理的能力。
  • 時效性提升:新架構(gòu)顯著提高了數(shù)據(jù)處理的時效性,使得實時數(shù)據(jù)分析成為可能,同時還支持在實時數(shù)據(jù)湖中進行全鏈路的數(shù)據(jù)處理。

(3)成果:數(shù)據(jù)入湖、湖倉內(nèi)模型處理速度大幅提升,時效升級為 T+0

圖片

  • 原架構(gòu)處理方式:原架構(gòu)依賴于離線跑批處理數(shù)據(jù),并將數(shù)據(jù)同步到數(shù)據(jù)集市(data mart)層,同樣采用離線跑批的方法。
  • 新架構(gòu)的優(yōu)化:新架構(gòu)采用了流批一體的處理鏈路,從數(shù)據(jù)入湖到最終寫入數(shù)據(jù)集市,整個應用層都采用了流處理和批處理的結(jié)合方式。
  • 時效性提升:新架構(gòu)將數(shù)據(jù)處理的時效性從原來的 T+1(次日處理)提升到了 T+0(實時處理),顯著提高了數(shù)據(jù)處理的即時性。
  • 資源消耗優(yōu)化:新架構(gòu)能夠在資源消耗上實現(xiàn)顯著節(jié)省,提高了整體的數(shù)據(jù)處理效率。
  • 性能提升:在數(shù)據(jù)同步性能上,從原來的每秒同步 1100 條數(shù)據(jù)提升到實時入湖監(jiān)測到的每秒 25000 條數(shù)據(jù),性能提高了超過 20 倍。

2、某零售企業(yè):構(gòu)建圍繞“貨”“店”數(shù)據(jù)智能運營體系

圖片

  • 技術(shù)應用:該零售企業(yè)采用了 FastData 平臺,輔以數(shù)據(jù)集成工具,以優(yōu)化其貨店數(shù)據(jù)智能運營體系。
  • 成本下降:通過這些技術(shù)的應用,企業(yè)的硬件成本降低了 25%。
  • 數(shù)據(jù)量和性能提升:在數(shù)據(jù)鏈方面,企業(yè)管理著大約 2.5 到 3PB 的數(shù)據(jù)規(guī)模,每天數(shù)據(jù)新增量約為 500GB。數(shù)據(jù)查詢性能提高了 30%。
  • 架構(gòu)升級:企業(yè)的數(shù)據(jù)處理架構(gòu)從原來的批處理架構(gòu)升級到了實時處理架構(gòu),時效性也隨之提升到了 T+0 級別,即數(shù)據(jù)可以實時處理和分析。

(1)某零售企業(yè):基于 FastData 湖倉一體架構(gòu)優(yōu)化成本,性能和效率

圖片

  • 數(shù)據(jù)源集成:我們將內(nèi)部及外部的多樣化數(shù)據(jù)源通過 DCT 進行集成,整合到 FastData 平臺。
  • 數(shù)據(jù)處理與分析:在數(shù)據(jù)集成之后,在 FastData 的基礎(chǔ)設(shè)施上進行了必要的數(shù)據(jù)處理和分析。
  • 指標與模型:處理和分析的過程中涉及到指標標簽的構(gòu)建和應用模型分析。
  • 業(yè)務閉環(huán)形成:通過這些步驟,實現(xiàn)了針對特定業(yè)務場景的閉環(huán),從而支撐了數(shù)據(jù)驅(qū)動的決策過程。

(2)某零售企業(yè):數(shù)據(jù)中臺聯(lián)合共創(chuàng),全面提升業(yè)務效率

圖片

  • 問題
    客戶擁有多個業(yè)務系統(tǒng),并使用多種數(shù)據(jù)庫類型;底層需接入多個組件實現(xiàn)數(shù)據(jù)離線、實時同步,技術(shù)復雜度高,穩(wěn)定性差,采購多套商業(yè)軟件,費用高,資源消耗大。
  • 價值
    統(tǒng)一數(shù)據(jù)入湖工具可以降低數(shù)據(jù)集成過程的復雜度,減少維護成本,資源使用大幅減少。該工具采用集群架構(gòu),高可用,支持故障轉(zhuǎn)移,能進一步提升容錯性和可靠性。同時數(shù)據(jù)入湖速度、湖倉內(nèi)模型處理速度大幅提升,數(shù)據(jù)服務時效從 T+1 升級為 T+0。
  • 運行情況:
    DCT 任務 2000+,并發(fā)任務 500+,平日數(shù)據(jù)量約為 1億+;峰值 3 萬條/秒;
    DCT 生產(chǎn)環(huán)境運行 2 年,運行穩(wěn)定,無數(shù)據(jù)丟失;
    DCT 扛住 618、雙 11、雙 12 的壓力(數(shù)據(jù)量為平日 3-5 倍), 無崩潰,無數(shù)據(jù)丟失,數(shù)據(jù)延遲 <2 秒;
    DCT 實時同步速率約 80MB/s,日最高承受數(shù)據(jù)量達 20TB。

六、Q&A

Q1:DCT 數(shù)據(jù)集成是如何保證數(shù)據(jù)一致性的?

A1:實時任務同步的一致性保證:對于實時數(shù)據(jù)同步任務,我們采用了 checkpoint 機制。這一機制能夠在任務因異常中斷時創(chuàng)建保存點,以便在網(wǎng)絡或系統(tǒng)恢復后,能夠從上一個已知的良好狀態(tài)重新開始數(shù)據(jù)同步。這樣做的好處是,即使在出現(xiàn)故障的情況下,也能確保數(shù)據(jù)不會丟失,并且可以根據(jù)業(yè)務時間或數(shù)據(jù)偏移量進行精確地重置和消費。此外,如果目標端存在主鍵,我們還可以利用數(shù)據(jù)的冪等性質(zhì)來避免重復,確保數(shù)據(jù)的一致性。

離線任務同步的一致性保證:在離線數(shù)據(jù)同步方面,特別是在處理大數(shù)據(jù)量場景下,我們同樣實施了故障轉(zhuǎn)移策略,并記錄了數(shù)據(jù)的偏移量。當任務發(fā)生異常時,可以從記錄的偏移量處開始重新同步。這種機制保證了即使在離線狀態(tài)下,數(shù)據(jù)同步也能夠在故障后繼續(xù)進行,而不會造成數(shù)據(jù)的不一致。

綜上,無論是實時同步還是離線同步,DCT 都通過先進的機制確保了數(shù)據(jù)的一致性和完整性,以支持企業(yè)的數(shù)據(jù)集成和分析需求。

Q2:DCT-on-Yarn 跟 DCT-on-Spark 有什么區(qū)別?他們的應用場景是什么?

A2:DCT-on-Yarn 是一種基于 Yarn 進行資源調(diào)度的數(shù)據(jù)集成工具。它能夠高效地利用企業(yè)現(xiàn)有的 Yarn 集群資源,避免了在工作節(jié)點上部署額外的機器資源。這種方式適合于企業(yè)已經(jīng)擁有大數(shù)據(jù)集群,并希望在現(xiàn)有集群中實現(xiàn)批處理和流處理相結(jié)合,或是實現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫一體化的任務調(diào)度。簡而言之,DCT-on-Yarn 可以直接借用企業(yè)現(xiàn)有的資源來執(zhí)行數(shù)據(jù)集成任務。

相比之下,DCT-on-Spark 專注于數(shù)據(jù)湖的入湖場景,特別是在使用企業(yè)自有的湖倉引擎時。DCT-on-Spark 采用了 SeaTunnel 引擎,旨在提升從源端到實時湖倉引擎 Dlink 的數(shù)據(jù)處理效率。雖然 Spark 引擎也運行在 Yarn 集群中,與 DCT-on-Yarn 在技術(shù)基礎(chǔ)上有所相似,但 DCT-on-Spark 通過特定的數(shù)據(jù)處理引擎優(yōu)化了入湖過程的性能。

總結(jié)來說,DCT-on-Yarn 更適合那些希望在現(xiàn)有大數(shù)據(jù)集群內(nèi)優(yōu)化資源利用的企業(yè),而 DCT-on-Spark 則更適用于需要高效數(shù)據(jù)入湖處理的場景。兩者雖然在技術(shù)實現(xiàn)上有所交叉,但都旨在提高企業(yè)數(shù)據(jù)處理的效率和效能。

Q3:數(shù)據(jù)大量入倉入湖后能用到業(yè)務端的數(shù)據(jù)占比有多少?另外怎么解決數(shù)據(jù)浪費的問題?

A3:業(yè)務應用占比:這個問題高度依賴于業(yè)務需求。一種常見的方法是自上而下的數(shù)據(jù)入湖,即先將企業(yè)內(nèi)所有系統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)統(tǒng)一入湖,然后進行數(shù)據(jù)建模和治理。但這種方法可能導致一部分數(shù)據(jù)并不符合實際業(yè)務需求。因此,更推薦的做法是結(jié)合企業(yè)具體業(yè)務進行自下而上的數(shù)據(jù)分析,明確哪些數(shù)據(jù)需要入湖并加以加工,最終形成有用的主題域。這樣做可以更好地對接業(yè)務需求,提升數(shù)據(jù)在業(yè)務端的應用率。

解決數(shù)據(jù)浪費問題:數(shù)據(jù)浪費主要集中在存儲空間占用和計算資源上。對于存儲來說,我們可以采用冷熱數(shù)據(jù)分離的策略:對冷數(shù)據(jù)進行壓縮和歸檔,以減少存儲空間占用;而熱數(shù)據(jù)則重點保存和加速處理,以便快速分析。在計算引擎方面,采用存算分離的架構(gòu)既能提升性能,又能保證在不同場景下選擇最合適的引擎,避免不必要的資源堆積和浪費。通過這種方式,可以靈活地調(diào)整或下架不再使用的計算引擎,進一步優(yōu)化資源利用。

責任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2022-08-01 15:45:43

數(shù)據(jù)治理數(shù)據(jù)集成數(shù)據(jù)驅(qū)動

2023-07-26 08:11:04

ChatGPT技術(shù)產(chǎn)品

2023-12-06 11:28:48

工業(yè)物聯(lián)網(wǎng)IIoT

2023-01-16 14:56:00

Graph圖數(shù)據(jù)庫

2012-03-31 11:07:49

ibmdw

2009-10-29 14:07:35

ROF接入技術(shù)

2009-11-04 12:37:10

CDN接入技術(shù)

2009-12-29 10:34:10

無線接入技術(shù)

2024-09-24 19:27:40

數(shù)據(jù)倉庫數(shù)據(jù)飛輪數(shù)據(jù)中臺

2009-12-31 09:41:34

光纖接入網(wǎng)

2010-01-12 12:55:19

LAN多層交換技術(shù)

2024-10-18 12:13:55

數(shù)據(jù)飛輪數(shù)據(jù)中臺

2009-10-28 14:28:10

2024-09-19 16:11:07

2015-09-23 14:19:38

2010-05-18 14:21:35

MySQL視圖

2009-11-03 11:03:00

CDN接入技術(shù)

2009-12-23 16:31:07

靜態(tài)路由技術(shù)

2012-02-14 14:17:35

ibmdw

2010-01-06 15:21:00

軟交換技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號