手把手帶你用數(shù)據(jù)庫(kù)中間件Mycat+SpringBoot完成分庫(kù)分表
一、背景
隨著時(shí)間和業(yè)務(wù)的發(fā)展,數(shù)據(jù)庫(kù)中的數(shù)據(jù)量增長(zhǎng)是不可控的,庫(kù)和表中的數(shù)據(jù)會(huì)越來(lái)越大,隨之帶來(lái)的是更高的磁盤(pán)、IO、系統(tǒng)開(kāi)銷,甚至性能上的瓶頸,而一臺(tái)服務(wù)的資源終究是有限的,因此需要對(duì)數(shù)據(jù)庫(kù)和表進(jìn)行拆分,從而更好的提供數(shù)據(jù)服務(wù)。
當(dāng)用戶表達(dá)到千萬(wàn)級(jí)別,在做很多操作的時(shí)候都會(huì)很吃力,所以當(dāng)數(shù)據(jù)增長(zhǎng)到1000萬(wàn)以上就需要分庫(kù)分表來(lái)緩解單庫(kù)(表)的壓力。
二、什么是分庫(kù)分表[1]
簡(jiǎn)單來(lái)說(shuō),就是指通過(guò)某種特定的條件,將我們存放在同一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)分散存放到多個(gè)數(shù)據(jù)庫(kù)(主機(jī))上面,以達(dá)到分散單臺(tái)設(shè)備負(fù)載的效果。
數(shù)據(jù)的切分(Sharding)根據(jù)其切分規(guī)則的類型,可以分為兩種切分模式。一種是按照不同的表(或者Schema)來(lái)切分到不同的數(shù)據(jù)庫(kù)(主機(jī))之上,這種切可以稱之為數(shù)據(jù)的垂直(縱向)切分;另外一種則是根據(jù)表中的數(shù)據(jù)的邏輯關(guān)系,將同一個(gè)表中的數(shù)據(jù)按照某種條件拆分到多臺(tái)數(shù)據(jù)庫(kù)(主機(jī))上面,這種切分稱之為數(shù)據(jù)的水平(橫向)切分。
垂直切分的最大特點(diǎn)就是規(guī)則簡(jiǎn)單,實(shí)施也更為方便,尤其適合各業(yè)務(wù)之間的耦合度非常低,相互影響很小,業(yè)務(wù)邏輯非常清晰的系統(tǒng)。在這種系統(tǒng)中,可以很容易做到將不同業(yè)務(wù)模塊所使用的表分拆到不同的數(shù)據(jù)庫(kù)中。根據(jù)不同的表來(lái)進(jìn)行拆分,對(duì)應(yīng)用程序的影響也更小,拆分規(guī)則也會(huì)比較簡(jiǎn)單清晰。
水平切分于垂直切分相比,相對(duì)來(lái)說(shuō)稍微復(fù)雜一些。因?yàn)橐獙⑼粋€(gè)表中的不同數(shù)據(jù)拆分到不同的數(shù)據(jù)庫(kù)中,對(duì)于應(yīng)用程序來(lái)說(shuō),拆分規(guī)則本身就較根據(jù)表名來(lái)拆分更為復(fù)雜,后期的數(shù)據(jù)維護(hù)也會(huì)更為復(fù)雜一些。
三、垂直切分 [1]
個(gè)數(shù)據(jù)庫(kù)由很多表的構(gòu)成,每個(gè)表對(duì)應(yīng)著不同的業(yè)務(wù),垂直切分是指按照業(yè)務(wù)將表進(jìn)行分類,分布到不同的數(shù)據(jù)庫(kù)上面,這樣也就將數(shù)據(jù)或者說(shuō)壓力分擔(dān)到不同的庫(kù)上面,如下圖:
系統(tǒng)被切分成了,用戶,訂單交易,支付幾個(gè)模塊。一個(gè)架構(gòu)設(shè)計(jì)較好的應(yīng)用系統(tǒng),其總體功能肯定是由很多個(gè)功能模塊所組成的,而每一個(gè)功能模塊所需要的數(shù)據(jù)對(duì)應(yīng)到數(shù)據(jù)庫(kù)中就是一個(gè)或者多個(gè)表。而在架構(gòu)設(shè)計(jì)中,各個(gè)功能模塊相互之間的交互點(diǎn)越統(tǒng)一越少,系統(tǒng)的耦合度就越低,系統(tǒng)各個(gè)模塊的維護(hù)性以及擴(kuò)展性也就越好。這樣的系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)的垂直切分也就越容易。
但是往往系統(tǒng)之有些表難以做到完全的獨(dú)立,存在這擴(kuò)庫(kù) join 的情況,對(duì)于這類的表,就需要去做平衡,是數(shù)據(jù)庫(kù)讓步業(yè)務(wù),共用一個(gè)數(shù)據(jù)源,還是分成多個(gè)庫(kù),業(yè)務(wù)之間通過(guò)接口來(lái)做調(diào)用。在系統(tǒng)初期,數(shù)據(jù)量比較少,或者資源有限的情況下,會(huì)選擇共用數(shù)據(jù)源,但是當(dāng)數(shù)據(jù)發(fā)展到了一定的規(guī)模,負(fù)載很大的情況,就需要必須去做分割。
一般來(lái)講業(yè)務(wù)存在著復(fù)雜 join 的場(chǎng)景是難以切分的,往往業(yè)務(wù)獨(dú)立的易于切分。如何切分,切分到何種程度是考驗(yàn)技術(shù)架構(gòu)的一個(gè)難題。下面來(lái)分析下垂直切分的優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
拆分后業(yè)務(wù)清晰,拆分規(guī)則明確;
系統(tǒng)之間整合或擴(kuò)展容易;
數(shù)據(jù)維護(hù)簡(jiǎn)單。
缺點(diǎn):
部分業(yè)務(wù)表無(wú)法 join,只能通過(guò)接口方式解決,提高了系統(tǒng)復(fù)雜度;
受每種業(yè)務(wù)不同的限制存在單庫(kù)性能瓶頸,不易數(shù)據(jù)擴(kuò)展跟性能提高;
事務(wù)處理復(fù)雜。
由于垂直切分是按照業(yè)務(wù)的分類將表分散到不同的庫(kù),所以有些業(yè)務(wù)表會(huì)過(guò)于龐大,存在單庫(kù)讀寫(xiě)與存儲(chǔ)瓶頸,所以就需要水平拆分來(lái)做解決。
四、水平切分 [1]
相對(duì)于垂直拆分,水平拆分不是將表做分類,而是按照某個(gè)字段的某種規(guī)則來(lái)分散到多個(gè)庫(kù)之中,每個(gè)表中包含一部分?jǐn)?shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),我們可以將數(shù)據(jù)的水平切分理解為是按照數(shù)據(jù)行的切分,就是將表中的某些行切分到一個(gè)數(shù)據(jù)庫(kù),而另外的某些行又切分到其他的數(shù)據(jù)庫(kù)中,如圖:
拆分?jǐn)?shù)據(jù)就需要定義分片規(guī)則。關(guān)系型數(shù)據(jù)庫(kù)是行列的二維模型,拆分的第一原則是找到拆分維度。比如:從會(huì)員的角度來(lái)分析,商戶訂單交易類系統(tǒng)中查詢會(huì)員某天某月某個(gè)訂單,那么就需要按照會(huì)員結(jié)合日期來(lái)拆分,不同的數(shù)據(jù)按照會(huì)員 ID 做分組,這樣所有的數(shù)據(jù)查詢 join 都會(huì)在單庫(kù)內(nèi)解決;如果從商戶的角度來(lái)講,要查詢某個(gè)商家某天所有的訂單數(shù),就需要按照商戶 ID 做拆分;但是如果系統(tǒng)既想按會(huì)員拆分,又想按商家數(shù)據(jù),則會(huì)有一定的困難。如何找到合適的分片規(guī)則需要綜合考慮衡。幾種典型的分片規(guī)則包括:
按照用戶 ID 求模,將數(shù)據(jù)分散到不同的數(shù)據(jù)庫(kù),具有相同數(shù)據(jù)用戶的數(shù)據(jù)都被分散到一個(gè)庫(kù)中;
按照日期,將不同月甚至日的數(shù)據(jù)分散到不同的庫(kù)中;
按照某個(gè)特定的字段求摸,或者根據(jù)特定范圍段分散到不同的庫(kù)中。
如圖,切分原則都是根據(jù)業(yè)務(wù)找到適合的切分規(guī)則分散到不同的庫(kù),下面用用戶 ID 求模舉
既然數(shù)據(jù)做了拆分有優(yōu)點(diǎn)也就優(yōu)缺點(diǎn)。
優(yōu)點(diǎn):
拆分規(guī)則抽象好,join 操作基本可以數(shù)據(jù)庫(kù)做;
不存在單庫(kù)大數(shù)據(jù),高并發(fā)的性能瓶頸;
應(yīng)用端改造較少;
提高了系統(tǒng)的穩(wěn)定性跟負(fù)載能力。
缺點(diǎn):
拆分規(guī)則難以抽象;
分片事務(wù)一致性難以解決;
數(shù)據(jù)多次擴(kuò)展難度跟維護(hù)量極大;
跨庫(kù) join 性能較差
五、什么是Mycat
它是一個(gè)開(kāi)源的分布式數(shù)據(jù)庫(kù)系統(tǒng),是一個(gè)實(shí)現(xiàn)了 MySQL 協(xié)議的的Server,前端用戶可以把它看作是一個(gè)數(shù)據(jù)庫(kù)代理,用 MySQL 客戶端工具和命令行訪問(wèn),而其后端可以用MySQL 原生(Native)協(xié)議與多個(gè) MySQL 服務(wù)器通信,也可以用 JDBC 協(xié)議與大多數(shù)主流數(shù)據(jù)庫(kù)服務(wù)器通信,其核心功能是分表分庫(kù),即將一個(gè)大表水平分割為 N 個(gè)小表,存儲(chǔ)在后端 MySQL 服務(wù)器里或者其他數(shù)據(jù)庫(kù)里。
常見(jiàn)應(yīng)用場(chǎng)景:
單純的讀寫(xiě)分離,此時(shí)配置最為簡(jiǎn)單,支持讀寫(xiě)分離,主從切換;
分表分庫(kù),對(duì)于超過(guò) 1000 萬(wàn)的表進(jìn)行分片,最大支持 1000 億的單表分片;
多租戶應(yīng)用,每個(gè)應(yīng)用一個(gè)庫(kù),但應(yīng)用程序只連接 Mycat,從而不改造程序本身,實(shí)現(xiàn)多租戶化;
報(bào)表系統(tǒng),借助于 Mycat 的分表能力,處理大規(guī)模報(bào)表的統(tǒng)計(jì); 替代 Hbase,分析大數(shù)據(jù);
作為海量數(shù)據(jù)實(shí)時(shí)查詢的一種簡(jiǎn)單有效方案,比如 100 億條頻繁查詢的記錄需要在 3 秒內(nèi)查詢出來(lái)結(jié)果,除了基于主鍵的查詢,還可能存在范圍查詢或其他屬性查詢,此時(shí) Mycat 可能是最簡(jiǎn)單有效的選
六、SpringBoot+Mycat+MySQL實(shí)現(xiàn)分表分庫(kù)案例
關(guān)于分庫(kù)分表,Mycat已經(jīng)幫我們?cè)趦?nèi)部實(shí)現(xiàn)了路由的功能,我們只需要在Mycat中配置以下切分規(guī)則即可,對(duì)于開(kāi)發(fā)者來(lái)說(shuō),我們就可以把Mycat看做是一個(gè)數(shù)據(jù)庫(kù),接下來(lái)我們開(kāi)始搭建環(huán)境:
步驟一:
Mycat是使用java寫(xiě)的數(shù)據(jù)庫(kù)中間件,所以要運(yùn)行Mycat前要準(zhǔn)備要jdk的環(huán)境,要求是jdk1.7以上的環(huán)境。所以需要在系統(tǒng)中配置JAVA_HOME的環(huán)境變量.
步驟二:
從官網(wǎng)下載Mycat,http://dl.mycat.io/1.6-RELEASE/我們是基于CentOS7來(lái)搭建Mycat環(huán)境的,所以下載版本:Mycat-server-1.6-RELEASE-20161028204710-linux.tar.gz
步驟三:
將下載好的安裝包上傳到服務(wù)器上并解壓.解壓之后目錄結(jié)構(gòu)如下:

步驟四:
配置切分規(guī)則:將如下配置復(fù)制粘貼覆蓋mycat/conf/schema.xml的內(nèi)容。
- <?xml version="1.0"?>
- <!DOCTYPE mycat:schema SYSTEM "schema.dtd">
- <mycat:schema xmlns:mycat="http://io.mycat/">
- <schema name="TESTDB" checkSQLschema="false" sqlMaxLimit="100">
- <table name="user" primaryKey="id" dataNode="dn01,dn02" rule="rule1" />
- </schema>
- <!-- 設(shè)置dataNode 對(duì)應(yīng)的數(shù)據(jù)庫(kù),及 mycat 連接的地址dataHost -->
- <dataNode name="dn01" dataHost="dh01" database="db01" />
- <dataNode name="dn02" dataHost="dh01" database="db02" />
- <!-- mycat 邏輯主機(jī)dataHost對(duì)應(yīng)的物理主機(jī).其中也設(shè)置對(duì)應(yīng)的mysql登陸信息 -->
- <dataHost name="dh01" maxCon="1000" minCon="10" balance="0" writeType="0" dbType="mysql" dbDriver="native">
- <heartbeat>select user()</heartbeat>
- <writeHost host="server1" url="127.0.0.1:3306" user="root" password="WolfCode_2017"/>
- </dataHost>
- </mycat:schema>
<schema>:表示的是在mycat中的邏輯庫(kù)配置,邏輯庫(kù)名稱為:TESTDB
<table>:表示在mycat中的邏輯表配置,邏輯表名稱為:user,映射到兩個(gè)數(shù)據(jù)庫(kù)節(jié)點(diǎn)dataNode中,切分規(guī)則為:rule1(在rule.xml配置)
<dataNode>:表示數(shù)據(jù)庫(kù)節(jié)點(diǎn),這個(gè)節(jié)點(diǎn)不一定是單節(jié)點(diǎn),可以配置成讀寫(xiě)分離.
<dataHost>:真實(shí)的數(shù)據(jù)庫(kù)的地址配置
<heartbeat>:用戶心跳檢測(cè)
<writeHost>:寫(xiě)庫(kù)的配置
將如下配置復(fù)制粘貼覆蓋mycat/conf/rule.xml的內(nèi)容。
這里定義的是切分規(guī)則,是按照id列進(jìn)行切分,切分規(guī)則是采取取模的方式,<property name="count">2</property>:這里配置了我們有拆分了多個(gè)庫(kù)(表),需要和前面配置<table name="user" primaryKey="id" dataNode="dn01,dn02" rule="rule1" />中的dataNode個(gè)數(shù)一致,否則會(huì)出錯(cuò).
步驟五:
在數(shù)據(jù)庫(kù)中創(chuàng)建兩個(gè)數(shù)據(jù)庫(kù)db01,db02.每個(gè)庫(kù)中執(zhí)行如下建表語(yǔ)句:
- CREATE TABLE `user` (
- `id` bigint(20) NOT NULL,
- `name` varchar(255) DEFAULT NULL,
- PRIMARY KEY (`id`)
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
步驟六:
啟動(dòng)mycat,執(zhí)行mycat/bin/startup_nowrap.sh
步驟七:
項(xiàng)目已經(jīng)上傳到githubhttps://github.com/javalanxiongwei/springboot-mycat搭建SpringBoot環(huán)境,執(zhí)行插入語(yǔ)句.application.properties配置如下:
步驟八:
測(cè)試:在地址欄輸入:http://localhost:8080/user/save?id=1&name=tomhttp://localhost:8080/user/save?id=2&name=jack查看數(shù)據(jù)庫(kù)發(fā)現(xiàn):id為1的數(shù)據(jù)插入到數(shù)據(jù)庫(kù)db02中的user表。id為2的數(shù)據(jù)插入到數(shù)據(jù)庫(kù)db01中的user表。在地址欄輸入:http://localhost:8080/user/list是可以看到剛剛插入的兩條記錄.
好到這一步,我們就已經(jīng)完成了分表分庫(kù)了。