分庫分表后復(fù)雜查詢:基于DTS實(shí)時(shí)性ES寬表構(gòu)建技術(shù)實(shí)踐
1 問題域
業(yè)務(wù)發(fā)展的初期,我們的數(shù)據(jù)庫架構(gòu)往往是單庫單表,外加讀寫分離來快速的支撐業(yè)務(wù),隨著用戶量和訂單量的增加,數(shù)據(jù)庫的計(jì)算和存儲(chǔ)往往會(huì)成為我們系統(tǒng)的瓶頸,業(yè)界的實(shí)踐多數(shù)采用分而治之的思想:分庫分表,通過分庫分表應(yīng)對(duì)存系統(tǒng)讀寫性能瓶頸和存儲(chǔ)瓶頸;分庫分表幫我們解決問題的同時(shí),也帶來了復(fù)雜性;比如多條件的分頁查詢,多條件的聯(lián)表查詢變得復(fù)雜起來,通過調(diào)研我們發(fā)現(xiàn)針對(duì)這些分頁,聯(lián)表的復(fù)雜查詢,業(yè)界常用的解決方案有以下兩種:1 構(gòu)建ES寬表,2 構(gòu)建查詢條件到表主鍵Mapping映射表;本表文章介紹我們的實(shí)踐:基于公司的中間件DTS構(gòu)建實(shí)時(shí)性的ES寬表。所謂的寬表是通過主鍵將多張表關(guān)聯(lián)成一張表,比如訂單維度的寬表字段包含:訂單主表,訂單明細(xì)表,商品表,用戶表等表字段。
2 ES寬表構(gòu)建解決方案域
2.1 同步雙寫
應(yīng)用在接收到寫請(qǐng)求后,同步寫DB成功,然后再同步寫ES。
2.2 異步雙寫
應(yīng)用在接收到寫請(qǐng)求后,同步寫DB成功,異步發(fā)送MQ,消費(fèi)MQ異步寫ES。
2.3 基于Binlog的實(shí)時(shí)同步
2.3.1 Binlog作為消息
將Binlog作為消息,或者驅(qū)動(dòng)的Event,接收到消息后,RPC調(diào)取下游的業(yè)務(wù)系統(tǒng),獲取業(yè)務(wù)數(shù)據(jù)進(jìn)行數(shù)組的組裝,寫入ES。
2.3.2 Binlog作為數(shù)據(jù)
解析Binlog中的數(shù)據(jù),獲取庫表,字段變更前后的內(nèi)容,INSERT, UPDATE, DELETE事件,基于Binlog中的數(shù)據(jù)去構(gòu)建寬表,寫入ES。
3 解決方案優(yōu)缺點(diǎn)對(duì)比
4 我們的實(shí)踐
4.1 Binlog作為數(shù)據(jù)構(gòu)建ES寬表
4.1.1 順序性的保證
上游DTS監(jiān)聽的binlog是有序的;發(fā)送消息時(shí),業(yè)務(wù)方可以配置業(yè)務(wù)主鍵例如uep_order_no,DTS可以根據(jù)業(yè)務(wù)主鍵進(jìn)行hash,將該條消息發(fā)送到對(duì)應(yīng)的隊(duì)列保證局部有序性;消費(fèi)者消費(fèi)時(shí),同一個(gè)訂單號(hào)uep_order_no映射到同一個(gè)分區(qū),保證順序消費(fèi);
4.1.2 冪等性的保證
DTS可以保證消息不丟失,但不保證消息不重復(fù),可能發(fā)送重復(fù)的消息需要業(yè)務(wù)方保證冪等性,
UPDATE/DELETE操作天然具有冪等性
INSERT操作在進(jìn)行操作前需要先判斷下數(shù)據(jù)是否存在,不存在則插入,存在則更新
4.1.3 數(shù)據(jù)一致性的保證
由于數(shù)據(jù)存儲(chǔ)在Mysql和ES兩種存儲(chǔ)媒介,可以采用定時(shí)任務(wù)對(duì)賬機(jī)制保證數(shù)據(jù)的一致性,如果數(shù)據(jù)不一致采用補(bǔ)償任務(wù)進(jìn)行補(bǔ)償操作
4.1.4 存量數(shù)據(jù)遷移
采用定時(shí)任務(wù)分頁將數(shù)據(jù)從Mysql遷移到ES
4.2 ES復(fù)雜檢索
4.2.1 檢索的分類
多條件的復(fù)雜查詢,采用Bool查詢;