自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OLTP類(lèi)系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)更優(yōu)實(shí)踐

大數(shù)據(jù)
本文著重介紹了京東數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái)的技術(shù)架構(gòu),及OLTP類(lèi)系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)最佳實(shí)踐,探討解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問(wèn)題。

本文著重介紹了京東數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái)的技術(shù)架構(gòu),及OLTP類(lèi)系統(tǒng)數(shù)據(jù)結(jié)轉(zhuǎn)更優(yōu)實(shí)踐,探討解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問(wèn)題。

一、 背景介紹

業(yè)務(wù)系統(tǒng)在長(zhǎng)期運(yùn)行的過(guò)程中會(huì)積累大量的數(shù)據(jù),這些數(shù)據(jù)有些是需要長(zhǎng)期保存的,例如一些訂單數(shù)據(jù),有些只需要短期保存,例如一些日志信息。業(yè)務(wù)數(shù)據(jù)一般都會(huì)有一個(gè)生命周期,生命周期內(nèi)的我們叫生產(chǎn)數(shù)據(jù),生命周期之外(即業(yè)務(wù)已經(jīng)關(guān)閉)的叫歷史數(shù)據(jù),我們這里提到的數(shù)據(jù)結(jié)轉(zhuǎn),指的是將需要長(zhǎng)期保存的歷史數(shù)據(jù)從生產(chǎn)庫(kù)遷移到歷史庫(kù)(轉(zhuǎn)),而將需要短期保存的數(shù)據(jù)定期刪除(結(jié))。

我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代,但在OLTP類(lèi)系統(tǒng)中,關(guān)系型數(shù)據(jù)庫(kù)依然占據(jù)主導(dǎo)地位,在關(guān)系型數(shù)據(jù)庫(kù)中,如果不及時(shí)進(jìn)行數(shù)據(jù)結(jié)轉(zhuǎn),會(huì)嚴(yán)重影響系統(tǒng)的性能。

關(guān)系型數(shù)據(jù)庫(kù)單機(jī)容量有限,因此業(yè)界普遍的做法是進(jìn)行垂直分庫(kù)和水平分片,一些大型互聯(lián)網(wǎng)企業(yè)由于業(yè)務(wù)量龐大,僅分片的集群規(guī)模就能達(dá)到上千節(jié)點(diǎn),再加上分庫(kù)的集群,規(guī)模非常巨大。傳統(tǒng)的數(shù)據(jù)歸檔方法往往針對(duì)單庫(kù)操作,難以處理如此大規(guī)模集群的數(shù)據(jù)歸檔。

同時(shí),在大型互聯(lián)網(wǎng)企業(yè),每日的數(shù)據(jù)增長(zhǎng)量非常大,數(shù)據(jù)結(jié)轉(zhuǎn)的頻率遠(yuǎn)大于傳統(tǒng)行業(yè),這些行業(yè)的IT系統(tǒng)往往是7*24小時(shí)不間斷提供服務(wù),而且全天24小時(shí)的并發(fā)量都很大,因此數(shù)據(jù)結(jié)轉(zhuǎn)操作必須盡量減少對(duì)生產(chǎn)庫(kù)的性能影響。

為此,我們自主研發(fā)了數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái),以解決大數(shù)據(jù)背景下的數(shù)據(jù)結(jié)轉(zhuǎn)問(wèn)題。

二、 技術(shù)架構(gòu)

2.1 設(shè)計(jì)要點(diǎn)

(1)盡量減少對(duì)生產(chǎn)庫(kù)的影響

數(shù)據(jù)結(jié)轉(zhuǎn)操作沒(méi)有復(fù)雜的業(yè)務(wù)邏輯,因此對(duì)數(shù)據(jù)庫(kù)性能的影響主要體現(xiàn)在IO方面,減少對(duì)生產(chǎn)庫(kù)的影響,最主要的就是減少對(duì)生產(chǎn)庫(kù)的IO操作。目前我們采用的方案是通過(guò)從庫(kù)查詢數(shù)據(jù),將數(shù)據(jù)插入歷史庫(kù),然后再?gòu)闹鲙?kù)中刪除,如圖1數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖所示,將查詢的IO操作轉(zhuǎn)嫁到從庫(kù)上,可以大大減輕對(duì)主庫(kù)的影響。為了保障數(shù)據(jù)庫(kù)的高可用,業(yè)內(nèi)基本都采用了主從部署模式,因此這個(gè)方案具有很高的通用性。 

 

 

數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖 

圖1 數(shù)據(jù)結(jié)轉(zhuǎn)邏輯圖

(2)支持分庫(kù)分片集群

我們希望數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái)的配置足夠簡(jiǎn)單并且易于理解。在和用戶的溝通過(guò)程中,我們發(fā)現(xiàn)他們最強(qiáng)烈的需求就是分庫(kù)分片集群的數(shù)據(jù)結(jié)轉(zhuǎn)。傳統(tǒng)的單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)操作可以抽象描述為:將數(shù)據(jù)庫(kù)實(shí)例A中表B的歷史數(shù)據(jù)結(jié)轉(zhuǎn)到歷史庫(kù)C,用戶的配置主要有4個(gè)元素:生產(chǎn)庫(kù)實(shí)例A、結(jié)轉(zhuǎn)表B、結(jié)轉(zhuǎn)條件和歷史庫(kù)。對(duì)于大規(guī)模的分庫(kù)分片集群規(guī)模,如果采用傳統(tǒng)單機(jī)數(shù)據(jù)結(jié)轉(zhuǎn)的配置方式,每一個(gè)數(shù)據(jù)庫(kù)實(shí)例都要配置4個(gè)元素,配置量非常大。

在我們的方案中,按照?qǐng)D2所示對(duì)數(shù)據(jù)庫(kù)集群進(jìn)行劃分,將主庫(kù)、從庫(kù)、歷史庫(kù)作為一個(gè)結(jié)轉(zhuǎn)單元,對(duì)于分片的數(shù)據(jù)庫(kù)集群,表結(jié)構(gòu)相同,我們將其作為一個(gè)分組,對(duì)于分庫(kù)的集群,表結(jié)構(gòu)不同則劃分為不同的分組。用戶進(jìn)行配置的時(shí)候不是面向一個(gè)數(shù)據(jù)庫(kù)實(shí)例,而是面向一個(gè)分組,數(shù)據(jù)結(jié)轉(zhuǎn)操作抽象為:結(jié)轉(zhuǎn)分組X中表B的歷史數(shù)據(jù),用戶的配置元素有3個(gè):分組X、結(jié)轉(zhuǎn)表B和結(jié)轉(zhuǎn)條件。分組信息僅需配置一次。這樣大大簡(jiǎn)化了用戶的配置工作。

(3)支持水平擴(kuò)展

由于數(shù)據(jù)庫(kù)集群規(guī)模較大,數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái)應(yīng)該具備水平擴(kuò)展能力。我們采用的方案是將數(shù)據(jù)結(jié)轉(zhuǎn)最核心的組件定時(shí)任務(wù)和數(shù)據(jù)庫(kù)操作(數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器)獨(dú)立出來(lái),進(jìn)行分布式部署。如下圖3所示, 

 

 

數(shù)據(jù)庫(kù)集群模型 

圖2 數(shù)據(jù)庫(kù)集群模型

配置中心為用戶的入口,用戶通過(guò)配置中心定義數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù),任務(wù)的關(guān)鍵屬性包括:觸發(fā)條件、執(zhí)行條件、目標(biāo)分組等,配置中心將結(jié)轉(zhuǎn)任務(wù)分發(fā)給代理程序,同時(shí)對(duì)代理程序的執(zhí)行狀態(tài)進(jìn)行監(jiān)控。結(jié)轉(zhuǎn)任務(wù)的觸發(fā)條件配置在代理程序中的定時(shí)任務(wù)中,而執(zhí)行條件和目標(biāo)分組則作為數(shù)據(jù)結(jié)轉(zhuǎn)執(zhí)行器的執(zhí)行參數(shù)。通過(guò)水平擴(kuò)展代理程序,我們對(duì)更多的數(shù)據(jù)庫(kù)進(jìn)行結(jié)轉(zhuǎn)。 

 

 

數(shù)據(jù)結(jié)轉(zhuǎn)組件關(guān)系圖 

圖3 數(shù)據(jù)結(jié)轉(zhuǎn)組件關(guān)系圖

2.2 總體架構(gòu)

綜合上面提到的3個(gè)設(shè)計(jì)要點(diǎn),我們得到圖4所示的總體架構(gòu),需要特別說(shuō)明的是,對(duì)于水平分片的分組,我們采用的是多線程結(jié)轉(zhuǎn),對(duì)于不同結(jié)轉(zhuǎn)單元不存在數(shù)據(jù)共享問(wèn)題,所以無(wú)需考慮并發(fā)鎖等問(wèn)題。

三、 一些經(jīng)驗(yàn)總結(jié)

a) 配置中心與代理程序之間的信息同步 

 

 

數(shù)據(jù)結(jié)轉(zhuǎn)總體架構(gòu)圖 

圖4 數(shù)據(jù)結(jié)轉(zhuǎn)總體架構(gòu)圖

配置中心和代理程序在我們的方案中被設(shè)計(jì)為一種松耦合結(jié)構(gòu):在系統(tǒng)的運(yùn)行過(guò)程中,代理程序宕機(jī)不會(huì)影響配置中心的運(yùn)行,同樣配置中心短暫的不可用也不會(huì)影響代理程序的運(yùn)行。松耦合結(jié)構(gòu)可以大大增強(qiáng)系統(tǒng)的可用性,而且配置中心、代理程序升級(jí)的時(shí)候不會(huì)影響整個(gè)系統(tǒng)的正常運(yùn)行。

為了實(shí)現(xiàn)松耦合的結(jié)構(gòu),配置中心與代理程序之間的信息同步我們都是采用的異步處理,比如配置中心向代理程序分發(fā)結(jié)轉(zhuǎn)任務(wù),實(shí)際處理的時(shí)候我們采用的是拉的方式,而不是推的方式,我們?cè)谂渲弥行暮痛沓绦蛑g維持了一個(gè)心跳,心跳的內(nèi)容是代理程序負(fù)載的所有結(jié)轉(zhuǎn)任務(wù)的校驗(yàn)碼(該校驗(yàn)碼在代理程序向配置中心發(fā)送心跳信息時(shí)由配置中心計(jì)算),當(dāng)代理程序發(fā)現(xiàn)從配置中心得到的校驗(yàn)碼和本地校驗(yàn)碼不同時(shí),則說(shuō)明用戶對(duì)結(jié)轉(zhuǎn)任務(wù)進(jìn)行了修改(包括新增、修改、刪除),此時(shí)代理程序主動(dòng)向配置中心發(fā)起同步結(jié)轉(zhuǎn)任務(wù)的請(qǐng)求。這樣做的好處是,代理程序在發(fā)生宕機(jī)重啟后,會(huì)自動(dòng)進(jìn)行任務(wù)的同步。

b) 進(jìn)度可視化

結(jié)轉(zhuǎn)任務(wù)的進(jìn)度在我們的方案中是實(shí)時(shí)匯總到配置中心的,我們稱(chēng)為進(jìn)度可視化,代理程序通過(guò)一個(gè)獨(dú)立的線程來(lái)異步處理進(jìn)度可視化,一方面這樣可以降低對(duì)結(jié)轉(zhuǎn)任務(wù)性能的干擾,另一方面可以避免由于網(wǎng)絡(luò)問(wèn)題、配置中心暫時(shí)不可用等問(wèn)題導(dǎo)致結(jié)轉(zhuǎn)任務(wù)異常。進(jìn)度可視化對(duì)于用戶來(lái)說(shuō)非常重要,用戶在第一次定義結(jié)轉(zhuǎn)任務(wù)并執(zhí)行該任務(wù)的時(shí)候,進(jìn)度可視化信息是用戶和系統(tǒng)互動(dòng)的唯一窗口,對(duì)用戶來(lái)說(shuō)是莫大的心理安慰。

c) 異??梢暬?/p>

代理程序在執(zhí)行數(shù)據(jù)結(jié)轉(zhuǎn)任務(wù)時(shí),會(huì)遇到各種異常信息,比如數(shù)據(jù)庫(kù)URL配置錯(cuò)誤,歷史庫(kù)生產(chǎn)庫(kù)表結(jié)構(gòu)不一致等,對(duì)于這些異常信息,除了在本地記錄日志外,我們還將它們發(fā)送到了配置中心。將這些異常可視化,而不是讓用戶在大量的日志中去檢索,這種方式非常便于在線問(wèn)題的診斷。

d) 事務(wù)一致性

將生產(chǎn)庫(kù)數(shù)據(jù)轉(zhuǎn)到歷史庫(kù)本身是一個(gè)分布式的事務(wù),在我們的方案中,不能保證數(shù)據(jù)的強(qiáng)一致性,比如在歷史數(shù)據(jù)Insert到歷史庫(kù)的瞬間,用戶修改了生產(chǎn)庫(kù)的數(shù)據(jù),我們的方案不會(huì)檢測(cè)這種變化,會(huì)導(dǎo)致用戶的修改并不會(huì)反映到歷史庫(kù)中,造成數(shù)據(jù)不一致。雖然在生產(chǎn)庫(kù)中刪除歷史數(shù)據(jù)時(shí),可以增加強(qiáng)一致性的校驗(yàn),以解決這種問(wèn)題,但是這樣會(huì)對(duì)生產(chǎn)庫(kù)造成一定的壓力,同時(shí)考慮到這種情況發(fā)生的概率極低,因此并沒(méi)有進(jìn)行特殊處理。

歷史數(shù)據(jù)Insert到歷史庫(kù)后,可能由于某種異常導(dǎo)致生產(chǎn)庫(kù)執(zhí)行Delete操作時(shí)失敗,此時(shí)會(huì)造成數(shù)據(jù)冗余(生產(chǎn)庫(kù)和歷史庫(kù)存在相同數(shù)據(jù))。對(duì)于這種問(wèn)題,我們的方案是利用Redo Log(重做日志)機(jī)制,在結(jié)轉(zhuǎn)任務(wù)重新執(zhí)行時(shí)根據(jù)Redo Log恢復(fù)異?,F(xiàn)場(chǎng),糾正異常數(shù)據(jù)。

e) 結(jié)轉(zhuǎn)數(shù)據(jù)的回滾

我們提供了一個(gè)數(shù)據(jù)回滾功能,可以將已經(jīng)結(jié)轉(zhuǎn)到歷史庫(kù)的數(shù)據(jù)逆向回滾到生產(chǎn)庫(kù),用戶可以配置Where條件精確指定需要回滾的數(shù)據(jù)。有些特殊情況,業(yè)務(wù)上需要對(duì)已經(jīng)結(jié)轉(zhuǎn)的歷史數(shù)據(jù)進(jìn)行修改,該功能主要用于處理這種情況。同時(shí)在測(cè)試階段,我們可以通過(guò)該功能快速恢復(fù)測(cè)試數(shù)據(jù),方便對(duì)數(shù)據(jù)結(jié)轉(zhuǎn)平臺(tái)的測(cè)試。

f) 代理程序的自動(dòng)升級(jí)

代理程序和配置中心本質(zhì)上是一種典型的C/S(客戶端/服務(wù)端)結(jié)構(gòu),客戶端是多實(shí)例部署,服務(wù)器端是集群部署,為了系統(tǒng)能夠平滑地進(jìn)行升級(jí),我們需要對(duì)客戶端的版本進(jìn)行統(tǒng)一管理,同時(shí)我們提供了代理程序的自動(dòng)升級(jí)功能,系統(tǒng)管理員可以通過(guò)配置中心對(duì)代理程序部署實(shí)例進(jìn)行升級(jí)。自動(dòng)升級(jí)功能,統(tǒng)一了代理程序的版本,使得我們可以不用被兼容性問(wèn)題羈絆,是我們能夠進(jìn)行快速迭代開(kāi)發(fā)有力支撐。 

責(zé)任編輯:龐桂玉 來(lái)源: CSDN大數(shù)據(jù)
相關(guān)推薦

2017-01-23 21:05:00

AndroidApp啟動(dòng)優(yōu)化

2017-05-17 15:50:34

開(kāi)發(fā)前端react

2017-05-25 10:58:08

HBase數(shù)據(jù)庫(kù)操作系統(tǒng)

2016-08-23 10:50:50

WebJavascript緩存

2021-03-13 07:49:27

OLTPOLAP數(shù)據(jù)庫(kù)

2017-06-02 10:25:26

Java異常處理

2017-07-12 12:29:54

2020-06-11 08:56:34

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)庫(kù)數(shù)據(jù)

2017-01-12 13:26:38

大數(shù)據(jù)深度學(xué)習(xí)大數(shù)據(jù)技術(shù)

2022-08-30 07:39:37

GPFSSAN存儲(chǔ)

2016-10-08 18:02:21

SQL Server安裝設(shè)置與實(shí)踐

2016-10-12 10:18:53

Java字符串源碼分析

2009-01-19 14:22:58

OLTP數(shù)據(jù)倉(cāng)庫(kù)區(qū)別

2011-07-15 10:28:18

OLTP數(shù)據(jù)倉(cāng)庫(kù)

2024-11-25 06:45:00

數(shù)據(jù)庫(kù)OLAPOLTP

2023-12-07 14:03:06

系統(tǒng)設(shè)計(jì)ETL系統(tǒng)

2017-05-10 12:30:42

MySQL高可用架構(gòu)網(wǎng)易

2015-09-23 10:00:47

OLTPOLAP

2017-03-17 11:00:01

WindowsLinux發(fā)行版

2010-04-29 08:52:29

Oracle數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)