自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分布式及高可用元數(shù)據(jù)采集原理

數(shù)據(jù)庫 分布式
元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細(xì)斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢(shì)。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

引言:

元數(shù)據(jù)采集是元數(shù)據(jù)產(chǎn)品的核心部分,如何提升采集效率是需要仔細(xì)斟酌的事情,既要保持穩(wěn)定性也要保持跟上主流技術(shù)的發(fā)展趨勢(shì)。元數(shù)據(jù)產(chǎn)品從最初集中式WEB應(yīng)用系統(tǒng)到現(xiàn)在流行的分布式、微服務(wù)這種系統(tǒng)架構(gòu),原有元數(shù)據(jù)采集效率已不能滿足應(yīng)用的需求了。

[[279335]]

目錄:

1.元數(shù)據(jù)采集原理

2.分布式采集策略

3.分布式采集策略的應(yīng)用

1.元數(shù)據(jù)采集原理

我們要想采集元數(shù)據(jù)首先得明白,什么是元數(shù)據(jù),元數(shù)據(jù)都存在哪里,為什么采集元數(shù)據(jù)?

元數(shù)據(jù)MetaData通俗的解釋是用來描述數(shù)據(jù)的數(shù)據(jù),實(shí)際來看,除了業(yè)務(wù)邏輯直接讀寫處理的那些業(yè)務(wù)數(shù)據(jù),所有其它用來維持整個(gè)系統(tǒng)運(yùn)轉(zhuǎn)所需的信息/數(shù)據(jù)都可以叫作元數(shù)據(jù)。比如數(shù)據(jù)庫的Schema、Table、Column信息,任務(wù)的血緣關(guān)系,用戶和腳本/任務(wù)的權(quán)限映射關(guān)系信息等等。

以大數(shù)據(jù)平臺(tái)為例,元數(shù)據(jù)貫穿大數(shù)據(jù)平臺(tái)數(shù)據(jù)流動(dòng)的全過程,主要包括數(shù)據(jù)源元數(shù)據(jù)、數(shù)據(jù)加工處理過程元數(shù)據(jù)、數(shù)據(jù)主題庫專題庫元數(shù)據(jù)、服務(wù)層元數(shù)據(jù)、應(yīng)用層元數(shù)據(jù)等。

數(shù)據(jù)治理關(guān)鍵就是收集信息,很明顯,沒有數(shù)據(jù)就無從分析,也就無法有效的對(duì)平臺(tái)的數(shù)據(jù)鏈路進(jìn)行管理和改進(jìn)。所以元數(shù)據(jù)管理平臺(tái)很重要的一個(gè)功能就是信息的收集,至于收集哪些信息,取決于業(yè)務(wù)的需求和我們需要解決的目標(biāo)問題。

如何采集元數(shù)據(jù)?

元數(shù)據(jù)采集是指獲取數(shù)據(jù)生命周期中的元數(shù)據(jù),對(duì)元數(shù)據(jù)進(jìn)行組織,然后將元數(shù)據(jù)寫入數(shù)據(jù)庫中的過程。

分布式及高可用元數(shù)據(jù)采集原理

不同來源的元數(shù)據(jù)獲取獲取方式也不大相同,在采集方式上有使用包括數(shù)據(jù)庫直連、接口、日志文件等技術(shù)手段,對(duì)結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)字典、非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)信息、業(yè)務(wù)指標(biāo)、代碼、數(shù)據(jù)加工過程等元數(shù)據(jù)信息進(jìn)行自動(dòng)化和手動(dòng)采集,元數(shù)據(jù)采集完成后,被組織成符合CWM模型的結(jié)構(gòu),存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。

分布式及高可用元數(shù)據(jù)采集原理

2.分布式采集架構(gòu)

現(xiàn)在人們對(duì)元數(shù)據(jù)管理工具采集的元數(shù)據(jù)時(shí)效性越來越高,我們?cè)獢?shù)據(jù)管理工具會(huì)管理很多來源的元數(shù)據(jù),配置很多采集任務(wù)定時(shí)去采集,如何高效的完成采集任務(wù),影響著元數(shù)據(jù)管理工具存儲(chǔ)的元數(shù)據(jù)時(shí)效性。我們?cè)炔杉蝿?wù)策略是單一采集程序串行執(zhí)行采集任務(wù),這樣的策略采集效率是很低的,為了提高采集效率,我們就采用多個(gè)采集程序并發(fā)執(zhí)行采集任務(wù)。

常見的元數(shù)據(jù)管理工具架構(gòu)是傳統(tǒng)的集中式WEB應(yīng)用架構(gòu),所有的功能模塊都集中在一個(gè)應(yīng)用程序中。

分布式及高可用元數(shù)據(jù)采集原理

3.分布式采集架構(gòu)的應(yīng)用

我們?cè)谀骋蛔C券公司做數(shù)據(jù)治理時(shí),發(fā)現(xiàn)該客戶的網(wǎng)絡(luò)架構(gòu)比較復(fù)雜,它的網(wǎng)絡(luò)架構(gòu)大概分為三層業(yè)務(wù)系統(tǒng)層、數(shù)據(jù)采集層和數(shù)據(jù)存儲(chǔ)層。

業(yè)務(wù)系統(tǒng)分布業(yè)務(wù)系統(tǒng)層的不同地域,比如A業(yè)務(wù)系統(tǒng)在北京,B業(yè)務(wù)系統(tǒng)在上海,C業(yè)務(wù)系統(tǒng)在廣州等。我們要想訪問個(gè)各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫只能通過數(shù)據(jù)采集層的代理IP去訪問,不同地域的業(yè)務(wù)系統(tǒng)代理的IP地址網(wǎng)段也是不同的,數(shù)據(jù)采集層各個(gè)網(wǎng)段之間不能連通,數(shù)據(jù)存儲(chǔ)層是可以和數(shù)據(jù)采集層的所有網(wǎng)段直接連通的。

分布式及高可用元數(shù)據(jù)采集原理

我們現(xiàn)在元數(shù)據(jù)的架構(gòu)是分為應(yīng)用程序和采集服務(wù)兩部分,應(yīng)用程序和采集程序是一對(duì)一的關(guān)系,針對(duì)這種網(wǎng)絡(luò)情況,我們要對(duì)元數(shù)據(jù)產(chǎn)品的架構(gòu)做調(diào)整。

分布式及高可用元數(shù)據(jù)采集原理

一、將元數(shù)據(jù)的應(yīng)用程序與采集服務(wù)改為一對(duì)多模式,這樣我們得需要一個(gè)采集服務(wù)管理模塊,可以對(duì)采集服務(wù)的信息(IP,端口)進(jìn)行維護(hù)(增刪改),采集的目標(biāo)數(shù)據(jù)源與采集程序服務(wù)進(jìn)行映射,一個(gè)目標(biāo)數(shù)據(jù)源可以配置主備采集服務(wù),主采集服務(wù)發(fā)生故障后,可以通過備采集服務(wù)繼續(xù)采集工作。

采集服務(wù)管理模塊要考慮易操作性和適用性,如:查看采集服務(wù)運(yùn)行情況、設(shè)置默認(rèn)采集服務(wù)等等。

二、元數(shù)據(jù)采集任務(wù)調(diào)整為并行執(zhí)行,現(xiàn)在采集元數(shù)據(jù)步驟為獲取元數(shù)據(jù)>入臨時(shí)表>與正式表比對(duì),更新元數(shù)據(jù)ID,得到元數(shù)據(jù)的變更信息>將元數(shù)據(jù)和變更信息入正式表。

采集任務(wù)調(diào)整為并行執(zhí)行的主要的難點(diǎn)是如何取消臨時(shí)表,因?yàn)榕R時(shí)表在元數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫中只有一份,只有等待當(dāng)前采集任務(wù)執(zhí)行完畢,清空臨時(shí)表后,才能執(zhí)行下一次采集任務(wù)。

臨時(shí)表的作用是:

更新元數(shù)據(jù)ID和找出新增、修改和刪除的元數(shù)據(jù),采集元數(shù)據(jù)時(shí),都會(huì)給每一個(gè)元數(shù)據(jù)生成隨機(jī)的UUID當(dāng)作元數(shù)據(jù)ID,與正式表作比對(duì)時(shí),如果某一元數(shù)據(jù)之前已經(jīng)入庫,需要將該元數(shù)據(jù)的臨時(shí)表里的ID更新成正式表里的ID。

取消臨時(shí)表的舉措:

1、我們選擇將元數(shù)據(jù)編碼+元數(shù)據(jù)類型+元數(shù)據(jù)父級(jí)路徑這三項(xiàng)數(shù)據(jù)進(jìn)行MD5加密生成的字符串作為元數(shù)據(jù)的ID,這樣元數(shù)據(jù)的ID也就固定了,不需要和正式表里做比對(duì)了。

2、通過元數(shù)據(jù)ID去正式表里查詢就可得出哪些元數(shù)據(jù)是新增和刪除的。

我們將元數(shù)據(jù)的所有屬性值進(jìn)行MD5加密生成的字符串作為元數(shù)據(jù)的屬性ID,這樣通過比對(duì)元數(shù)據(jù)的屬性ID就可得知該元數(shù)據(jù)是否修改了。

這樣我們就可以取消臨時(shí)表,在采集服務(wù)程序中就可以將元數(shù)據(jù)和正式表數(shù)據(jù)作比對(duì),得到變化的元數(shù)據(jù),將元數(shù)據(jù)記錄直接寫入到數(shù)據(jù)庫中的正式表,元數(shù)據(jù)采集任務(wù)也就可以并行執(zhí)行了。

分布式及高可用元數(shù)據(jù)采集原理

我們?cè)跀?shù)據(jù)采集層各個(gè)網(wǎng)段都部署采集服務(wù),這樣就實(shí)現(xiàn)了高并發(fā)元數(shù)據(jù)采集,這種分布式采集策略優(yōu)點(diǎn)是:

1、采集元數(shù)據(jù)效率快

2、可以并行執(zhí)行采集任務(wù)

3、可以適應(yīng)復(fù)雜網(wǎng)絡(luò)環(huán)境的元數(shù)據(jù)采集。

責(zé)任編輯:華軒 來源: 今日頭條
相關(guān)推薦

2022-05-11 13:55:18

高可用性分布式彈性

2018-10-29 12:51:35

分布式存儲(chǔ)元數(shù)據(jù)

2022-05-09 09:42:24

高可用分布式數(shù)據(jù)庫

2023-09-14 15:44:46

分布式事務(wù)數(shù)據(jù)存儲(chǔ)

2020-11-26 09:38:19

分布式架構(gòu)系統(tǒng)

2021-09-23 12:14:50

Redis分布式優(yōu)化

2023-08-22 13:16:00

分布式數(shù)據(jù)庫架構(gòu)數(shù)據(jù)存儲(chǔ)

2013-06-14 14:17:36

分布式Hbase管理和監(jiān)控

2025-04-01 01:04:00

Redis集群緩存

2014-07-10 09:28:57

光纖

2022-10-24 09:56:09

seleniumGrid分布式

2017-04-17 09:54:34

分布式數(shù)據(jù)庫PhxSQL

2015-05-13 09:34:46

分布式存儲(chǔ)元數(shù)據(jù)設(shè)計(jì)公有云

2018-03-12 08:17:27

分布式存儲(chǔ)

2022-06-21 08:27:22

Seata分布式事務(wù)

2022-01-10 19:45:40

微服務(wù)GO系統(tǒng)

2022-05-11 22:10:05

分布式云云計(jì)算公共云

2021-08-26 00:23:14

分布式存儲(chǔ)高可用

2015-04-03 12:43:45

Redis分布式

2024-11-28 15:11:28

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)