自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

流批一體技術(shù)在數(shù)字政府大屏領(lǐng)域的探索和實踐

數(shù)字化轉(zhuǎn)型
在流批一體這一目標(biāo)的引導(dǎo)下,Apache Flink 現(xiàn)在已經(jīng)對底層的算子、調(diào)度、Shuffle進(jìn)行了統(tǒng)一的抽象,以統(tǒng)一的方式向上支持 DataStream API 和 Table API兩套接口。DataStream API 是一種比較偏物理層的接口,Table API 是一種 Declearetive 的接口,這兩套接口對流和批來說都是統(tǒng)一的。

Labs 導(dǎo)讀

在數(shù)字化浪潮的推動下,以政府、工業(yè)、金融等為代表的多領(lǐng)域正在全面開展數(shù)字化轉(zhuǎn)型建設(shè),一些應(yīng)用場景,對數(shù)據(jù)處理的時效性提出了更高的要求?;诖诵枨螅O(shè)計并搭建了數(shù)據(jù)實時處理分析平臺,該平臺提供基于Flink SQL的數(shù)據(jù)分析能力,單個SQL語句即可完成數(shù)據(jù)的采集、計算和傳輸全流程開發(fā),極大降低了用戶使用實時計算能力的門檻,有效提高了實時計算服務(wù)的開發(fā)效率和質(zhì)量,助力政府、工業(yè)、金融等領(lǐng)域數(shù)字化建設(shè)。

Part 01 背景

2022年,國務(wù)院公開發(fā)布了《全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南》,要求各地區(qū)各部門按需建設(shè)政務(wù)數(shù)據(jù)實時交換系統(tǒng),支持海量數(shù)據(jù)高速傳輸,實現(xiàn)數(shù)據(jù)分鐘級共享,形成安全穩(wěn)定、運(yùn)行高效的數(shù)據(jù)供應(yīng)鏈[1]。

傳統(tǒng)的基于CDC[2]的ETL中,數(shù)據(jù)采集工具是必不可少的,通常使用DataX 和 Sqoop 做全量數(shù)據(jù)采集,使用 Canal 或 Debezium做增量變更數(shù)據(jù)采集,采集到的數(shù)據(jù)傳輸?shù)较⒅虚g件Kafka中,F(xiàn)link 計算引擎再去實時消費(fèi)這一部分?jǐn)?shù)據(jù)傳輸?shù)?的端,基于此理念,數(shù)據(jù)采集鏈路長,數(shù)據(jù)傳輸?shù)臅r延較高,全量數(shù)據(jù)和增量變更數(shù)據(jù)的采集是割裂的兩個階段,此外,需投入更多的時間去維護(hù)采集工具和消息隊列,運(yùn)維成本較高。針對上述數(shù)據(jù)采集鏈路長、組件維護(hù)成本高等問題,設(shè)計并搭建了數(shù)據(jù)實時處理分析平臺,該平臺基于Apache Flink[3]構(gòu)建,提供基于Flink SQL的數(shù)據(jù)分析能力,一個Flink SQL即可完成數(shù)據(jù)的采集、計算和傳輸全流程開發(fā)?;贔link CDC[4],可替換傳統(tǒng)ETL中的采集工具和消息隊列,從?簡化數(shù)據(jù)傳輸鏈路,降低組件維護(hù)成本。

Part 02 什么是流批一體 

早期時候Apache Flink雖然是一個可以同時支持流處理和批處理的框架,但是它的流處理和批處理的實現(xiàn),不管是在API層,還是在底層的Shuffle、調(diào)度、算子層,都是單獨(dú)的兩套,這兩套實現(xiàn)是完全獨(dú)立的,沒有特別緊密的關(guān)聯(lián)。如圖1所示,流批一體早期架構(gòu)。

在流批一體這一目標(biāo)的引導(dǎo)下,Apache Flink 現(xiàn)在已經(jīng)對底層的算子、調(diào)度、Shuffle進(jìn)行了統(tǒng)一的抽象,以統(tǒng)一的方式向上支持 DataStream API 和 Table API兩套接口。DataStream API 是一種比較偏物理層的接口,Table API 是一種 Declearetive 的接口,這兩套接口對流和批來說都是統(tǒng)一的。如圖2所示,流批一體統(tǒng)一架構(gòu)。

2.1、流批一體架構(gòu)

圖1 流批一體早期架構(gòu)圖1 流批一體早期架構(gòu)


圖2 流批一體統(tǒng)一架構(gòu)圖2 流批一體統(tǒng)一架構(gòu)

2.2 流批一體架構(gòu)優(yōu)點(diǎn)

- 代碼復(fù)用

基于DataStream API和Table API,用戶可以寫同一套代碼來同時處理歷史的數(shù)據(jù)和實時的數(shù)據(jù);

- 易于開發(fā)

統(tǒng)一的Connector和算子實現(xiàn),減少開發(fā)和維護(hù)的成本;

- 易于學(xué)習(xí)

減少學(xué)習(xí)成本,避免學(xué)習(xí)兩套相似接口;

- 易于維護(hù)

使用同一系統(tǒng)支持流作業(yè)和批作業(yè),減少維護(hù)成本。

Part 03 數(shù)據(jù)實時處理分析平臺整體架構(gòu)介紹

該架構(gòu)自下而上包括數(shù)據(jù)源層、數(shù)據(jù)接入層、資源調(diào)度層、實時計算平臺、數(shù)據(jù)存儲層以及數(shù)據(jù)應(yīng)用層?;谠摷軜?gòu)可有效解決海量數(shù)據(jù)快速傳輸和秒級計算難題,助力政府、工業(yè)、金融等領(lǐng)域數(shù)字化建設(shè)。

圖片圖片

(1)數(shù)據(jù)源層:該分析平臺可支持采集數(shù)據(jù)庫中變更的數(shù)據(jù),例如,MySQL數(shù)據(jù)庫中Binlog日志完整記錄了數(shù)據(jù)變更,因此可以把 Binlog 文件當(dāng)作流的數(shù)據(jù)源;此外該分析平臺還支持采集推送至Kafka消息中間件的JSON格式數(shù)據(jù)。

(2)接入層:該分析平臺通過Connector對接外圍存儲系統(tǒng),主要包含F(xiàn)link Connector、Flink CDC Connector和用戶自定義Connector,基于這三類Connector,該分析平臺構(gòu)建起完備的外圍存儲系統(tǒng)生態(tài)。

(3)調(diào)度層:該分析平臺可支持基于K8S[4]的作業(yè)調(diào)度,借助其強(qiáng)大的能力,實現(xiàn)資源的彈性擴(kuò)縮容,確保不同作業(yè)之間相互隔離,互不影響,避免資源爭用搶占,提高作業(yè)并行運(yùn)行的可靠性。

(4)實時計算平臺:該平臺是整個架構(gòu)中的關(guān)鍵組成,其由配置中心、數(shù)據(jù)開發(fā)和運(yùn)維中心三個核心子模塊共同組成。其中,配置中心模塊主要承擔(dān)平臺配置管理工作,數(shù)據(jù)開發(fā)模塊主要承擔(dān)作業(yè)的開發(fā)和提交工作,運(yùn)維中心模塊主要承擔(dān)作業(yè)的監(jiān)控、告警和運(yùn)維工作。

(5)存儲層:用于存儲作業(yè)的計算結(jié)果,通過Flink Connector將計算結(jié)果輸出到目標(biāo)端,支持常見的MySQL、PostGreSQL等關(guān)系型數(shù)據(jù)庫,還可支持MPP數(shù)據(jù)庫Doris及消息中間件Kafka等。

(6)應(yīng)用層:該分析平臺可以支持各種流式數(shù)據(jù)分析需求,具備豐富的應(yīng)用領(lǐng)域和廣闊的使用前景,比如可應(yīng)用于可視化駕駛艙大屏、物聯(lián)網(wǎng)傳感器數(shù)據(jù)分析等。

Part 04 平臺特性

圖片圖片

數(shù)據(jù)實時處理分析平臺經(jīng)過長期的技術(shù)積累、業(yè)務(wù)沉淀,可以總結(jié)出以下5大特性:

1.易用的平臺,提供從SQL開發(fā)調(diào)試到上線下線的運(yùn)維監(jiān)控及SQL的查詢執(zhí)行能力,使數(shù)倉建設(shè)及數(shù)據(jù)治理一體化;

2.敏捷的平臺,支持與DevOps協(xié)同,一鍵部署線上作業(yè);

3.云化的平臺,支持K8S資源調(diào)度,借助其強(qiáng)大的能力,實現(xiàn)資源的彈性擴(kuò)縮容;

4.安全的平臺,采用多租戶隔離機(jī)制,在數(shù)據(jù)存儲、計算、調(diào)度等層面保障用戶數(shù)據(jù)安全;

5.開放的平臺,擁抱開放的生態(tài),開放的架構(gòu)。

Part 05 平臺功能介紹

該分析平臺由配置中心、數(shù)據(jù)開發(fā)和運(yùn)維中心三個核心子模塊共同組成。其中,配置中心模塊主要承擔(dān)平臺配置管理工作,數(shù)據(jù)開發(fā)模塊主要承擔(dān)作業(yè)的開發(fā)和提交工作,運(yùn)維中心模塊主要承擔(dān)作業(yè)的監(jiān)控、告警和運(yùn)維工作;

5.1 概覽頁

圖片圖片

5.2 可視化作業(yè)開發(fā)

該分析平臺提供基于可視化、沉浸式的作業(yè)開發(fā)界面,幫助用戶快速的構(gòu)建SQL作業(yè),具備自動提示、補(bǔ)全、高亮、美化等高級特性,可通過腳本模式去構(gòu)建SQL作業(yè),這種模式適合高級開發(fā)者,也可通過引導(dǎo)模式去構(gòu)建SQL作業(yè),通過選數(shù)據(jù)源、維表和目標(biāo)表一鍵生成SQL作業(yè),顯著提升SQL作業(yè)創(chuàng)建效率,還提供標(biāo)準(zhǔn)的SQL語法檢查,幫助用戶快速定位開發(fā)過程中碰到的問題,基于以上模式創(chuàng)建的SQL作業(yè),可一鍵提交部署到集群中去,不必關(guān)心作業(yè)提交細(xì)節(jié)。

5.2.1 腳本模式創(chuàng)建作業(yè)

圖片圖片

5.2.2 引導(dǎo)模式創(chuàng)建作業(yè)

圖片圖片

5.2.3 語法校驗

圖片圖片

5.3 作業(yè)運(yùn)維與監(jiān)控

該分析平臺提供通過Flink Web UI、錯誤日志等實時監(jiān)控作業(yè)的運(yùn)行狀態(tài),還提供對錯誤作業(yè)進(jìn)行郵件、短信提示,縮短發(fā)現(xiàn)作業(yè)問題時間,提升問題定位效率,還提供作業(yè)的啟動、停止等操作,還支持根據(jù)不同位點(diǎn)恢復(fù)作業(yè),確保數(shù)據(jù)不丟失。

5.3.1 作業(yè)運(yùn)維

圖片圖片

5.3.2 作業(yè)監(jiān)控

圖片圖片

5.3.3 作業(yè)告警

圖片圖片

Part 06 應(yīng)用實踐-可視化駕駛艙大屏

在Chrome數(shù)字政府建設(shè)的第一要素是數(shù)據(jù),數(shù)據(jù)在數(shù)字政府建設(shè)進(jìn)程中至關(guān)重要,做什么樣的上層應(yīng)用,呈現(xiàn)什么樣的指標(biāo),均需要數(shù)據(jù)來“說話”。以某市政務(wù)服務(wù)熱線12345數(shù)據(jù)為例,通過設(shè)計科學(xué)的指標(biāo)體系,整合不同來源數(shù)據(jù),基于該分析平臺、大數(shù)據(jù)分析挖掘和知識圖譜等核心技術(shù),通過實時高效的數(shù)據(jù)計算與人機(jī)交互能力,將核心數(shù)據(jù)指標(biāo)實時動態(tài)呈現(xiàn),構(gòu)建可視化駕駛艙大屏,幫助管理者掌握全局,提高決策的科學(xué)性和有效性,如圖3所示,可視化駕駛艙大屏數(shù)據(jù)流圖。

圖3 可視化駕駛艙大屏數(shù)據(jù)流圖圖3 可視化駕駛艙大屏數(shù)據(jù)流圖

6.1 數(shù)據(jù)源

圍繞數(shù)字政府建設(shè)要求,某市通過庫表的形式提供了政務(wù)服務(wù)熱線12345數(shù)據(jù),比如業(yè)務(wù)訴求表,業(yè)務(wù)評價表等,依據(jù)表業(yè)務(wù)數(shù)據(jù),設(shè)計科學(xué)的指標(biāo)體系。

6.2 實時計算平臺

該平臺通過Flink CDC技術(shù)采集數(shù)據(jù)庫變更日志,將數(shù)據(jù)高效的歸集到平臺中存儲,并將這些日志按發(fā)生的順序捕獲、解析,形成特定的數(shù)據(jù)格式,通過對數(shù)據(jù)的清洗、聚合和關(guān)聯(lián)等操作,將計算結(jié)果實時寫入MPP數(shù)據(jù)庫Doris中。

6.3 前端可視化展示

前端服務(wù)器定期輪詢MPP數(shù)據(jù)庫Doris中的數(shù)據(jù),結(jié)合酷炫的可視化組件,實現(xiàn)數(shù)據(jù)的動態(tài)實時呈現(xiàn),幫助管理者掌握全局,提高決策的科學(xué)性和有效性。

Part 07 未來展望

在數(shù)據(jù)實時處理分析平臺的探索過程中,性能、場景的支持度、穩(wěn)定性一直是推動我們平臺不斷升級的原動力。未來我們將從以下3個方向進(jìn)行探索:

首先,實時數(shù)倉,湖倉一體探索,基于Flink強(qiáng)大的流批一體能力,去構(gòu)建實時數(shù)倉,湖倉一體體系架構(gòu);

其次,F(xiàn)link與K8S 的深度結(jié)合探索,隨著云服務(wù)向算力服務(wù)的不斷引進(jìn),通過K8S的資源調(diào)度能力,提升作業(yè)運(yùn)行的穩(wěn)定性,并能進(jìn)行大規(guī)模運(yùn)行;

最后,數(shù)據(jù)高鐵探索,數(shù)據(jù)高鐵的建設(shè)主要是通過歸集模式的提升,從公共數(shù)據(jù)平臺、各個應(yīng)用系統(tǒng)里直接拉數(shù)據(jù),保證數(shù)據(jù)的及時性、完整性和準(zhǔn)確性。

??參考文獻(xiàn)

[1] 國務(wù)院辦公廳關(guān)于印發(fā)全國一體化政務(wù)大數(shù)據(jù)體系建設(shè)指南的通知 https://www.gov.cn/zhengce/content/2022-10/28/content_5722322.htm.

[2] https://blog.csdn.net/qq30211478/article/details/100690948.

[3] Apache Flink 官網(wǎng) https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/.

[4] Flink CDC 2.0 正式發(fā)布,詳解核心改進(jìn) https://developer.aliyun.com/article/786600.

[5] K8S:https://kubernetes.io/zh-cn/docs/home/.

責(zé)任編輯:龐桂玉 來源: 移動Labs
相關(guān)推薦

2022-06-30 09:30:36

FlinkSQL流批一體京東

2023-05-16 07:24:25

數(shù)據(jù)湖快手

2023-09-05 07:22:17

Hudi數(shù)據(jù)存儲

2023-03-30 07:40:03

FeatHub 項目特征工程開發(fā)

2020-01-13 14:39:06

FlinkSQL無限流

2021-08-02 10:19:08

Dataphin 數(shù)倉架構(gòu)存儲計算分離

2024-06-25 13:08:31

2019-07-01 15:40:53

大數(shù)據(jù)架構(gòu)流處理

2022-09-29 09:22:33

數(shù)據(jù)倉

2021-06-30 09:20:08

數(shù)倉FlinkHive

2021-11-18 21:09:50

流批場景引擎

2012-12-10 11:15:27

一體機(jī)

2023-03-27 21:24:18

架構(gòu)數(shù)據(jù)處理分析服務(wù)

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2020-11-24 10:26:08

2012-02-23 16:11:56

一體機(jī)推薦

2023-09-17 17:59:28

邊緣計算調(diào)度方案

2024-07-18 08:38:31

2019-11-28 20:51:10

阿里云Alink開源

2023-07-19 22:13:25

一體化推送平臺
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號