Web架構(gòu)之路:MongoDB集群及高可用實(shí)踐
MongoDB集群有副本集及主從復(fù)制兩種模式,不過主從模式在MongoDB 3.6已經(jīng)徹底廢棄,今天主要探討副本集的搭建和使用,以及分片。
副本集介紹
副本集(Replica Set)即副本的集合,在MongoDB中通過先定義一個副本集合,然后將多個節(jié)點(diǎn)(副本)加入到這個集合中。簡單來說就是集群中包含了多份數(shù)據(jù),保證主節(jié)點(diǎn)掛掉,備節(jié)點(diǎn)能夠繼續(xù)提供數(shù)據(jù)服務(wù),實(shí)現(xiàn)MongoDB的數(shù)據(jù)備份及高可用。
副本集具有以下特征:
- N 個節(jié)點(diǎn)的集群
- 任何節(jié)點(diǎn)可作為主節(jié)點(diǎn)
- 所有寫入操作都在主節(jié)點(diǎn)上
- 自動故障轉(zhuǎn)移
- 自動恢復(fù)
副本集搭建
條件有限,我們在單機(jī)上,通過三個不同的MongoD線程來搭副本集。

主節(jié)點(diǎn)配置如下:
- # 指定數(shù)據(jù)庫路徑
- dbpath=/usr/local/mongodb/data/db
- # 使用追加的方式寫日志
- logpath=/usr/local/mongodb/log/mongodb.log
- # 使用追加的方式寫日志
- logappend = true
- # 綁定服務(wù)IP
- bind_ip=127.0.0.1
- # 服務(wù)器端口
- port = 27017
- # 以守護(hù)進(jìn)程的方式運(yùn)行MongoDB,創(chuàng)建服務(wù)器進(jìn)程
- fork = true
- # PID File 的完整路徑
- pidfilepath=/usr/local/mongodb/var/mongod.pid
- # 不啟用驗(yàn)證
- noauth=true
- # 最大同時連接數(shù),默認(rèn)2000
- maxConns=2000
- # 同步復(fù)制的日志大小設(shè)置,單位MB
- oplogSize=10
- # 副本集名稱
- replSet=rs0
副本節(jié)點(diǎn)的配置和主節(jié)點(diǎn)的基本一致,需要修改一下數(shù)據(jù)庫/日志/PID路徑和端口號,副本集名稱需一致:
- # 指定數(shù)據(jù)庫路徑
- dbpath=/usr/local/mongodb/node/2/data/db
- # 使用追加的方式寫日志
- logpath=/usr/local/mongodb/node/2/log/mongodb.log
- # 使用追加的方式寫日志
- logappend = true
- # 綁定服務(wù)IP
- bind_ip=127.0.0.1
- # 服務(wù)器端口
- port = 27018
- # 以守護(hù)進(jìn)程的方式運(yùn)行MongoDB,創(chuàng)建服務(wù)器進(jìn)程
- fork = true
- # PID File 的完整路徑
- pidfilepath=/usr/local/mongodb/var/mongod2.pid
- # 不啟用驗(yàn)證
- noauth=true
- # 最大同時連接數(shù),默認(rèn)2000
- maxConns=2000
- # 副本集
- replSet=rs0
依次啟動三個mongod進(jìn)程:
- gitlib@devops:/usr/local/mongodb$ ps -aux | grep mongod
- root 14293 0.8 2.3 1588812 92700 ? Sl 08:06 0:01 bin/mongod -f mongod.conf
- root 14652 3.5 2.2 1583180 89364 ? Sl 08:08 0:00 bin/mongod -f mongod2.conf
- root 14723 6.4 2.2 1583180 89172 ? Sl 08:08 0:00 bin/mongod -f mongod3.conf
在主節(jié)點(diǎn)中,先使用rs.initiate()方法進(jìn)行副本集初始化操作,再使用rs.add()方法來添加副本集的成員:
- > rs.initiate()
- {
- "info2" : "no configuration specified. Using a default configuration for the set",
- "me" : "127.0.0.1:27017",
- "ok" : 1,
- "$clusterTime" : {
- "clusterTime" : Timestamp(1569457173, 1),
- "signature" : {
- "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
- "keyId" : NumberLong(0)
- }
- },
- "operationTime" : Timestamp(1569457173, 1)
- }
- rs0:OTHER> rs.add('127.0.0.1:27018');
- {
- "ok" : 1,
- "$clusterTime" : {
- "clusterTime" : Timestamp(1569457214, 2),
- "signature" : {
- "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
- "keyId" : NumberLong(0)
- }
- },
- "operationTime" : Timestamp(1569457214, 2)
- }
- rs0:PRIMARY> rs.add('127.0.0.1:27019');
- {
- "ok" : 1,
- "$clusterTime" : {
- "clusterTime" : Timestamp(1569457219, 1),
- "signature" : {
- "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
- "keyId" : NumberLong(0)
- }
- },
- "operationTime" : Timestamp(1569457219, 1)
- }
- rs0:PRIMARY>
到此,MongoDB副本集部署完成,我們可以通過rs.status()命令查看副本集狀態(tài)。
- gitlib@devops:~$ mongo 127.0.0.1:27018
- rs0:SECONDARY> rs.status()
- {
- "set" : "rs0",
- "date" : ISODate("2019-09-26T12:09:48.818Z"),
- "myState" : 2,
- "term" : NumberLong(1),
- "syncingTo" : "127.0.0.1:27017",
- "syncSourceHost" : "127.0.0.1:27017",
- "syncSourceId" : 0,
- "heartbeatIntervalMillis" : NumberLong(2000),
- "optimes" : {
- "lastCommittedOpTime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "lastCommittedWallTime" : ISODate("2019-09-26T12:09:46.038Z"),
- "readConcernMajorityOpTime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "readConcernMajorityWallTime" : ISODate("2019-09-26T12:09:46.038Z"),
- "appliedOpTime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "durableOpTime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "lastAppliedWallTime" : ISODate("2019-09-26T12:09:46.038Z"),
- "lastDurableWallTime" : ISODate("2019-09-26T12:09:46.038Z")
- },
- "lastStableRecoveryTimestamp" : Timestamp(1569499726, 1),
- "lastStableCheckpointTimestamp" : Timestamp(1569499726, 1),
- "members" : [
- {
- "_id" : 0,
- "name" : "127.0.0.1:27017",
- "ip" : "127.0.0.1",
- "health" : 1,
- "state" : 1,
- "stateStr" : "PRIMARY",
- "uptime" : 42574,
- "optime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "optimeDurable" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "optimeDate" : ISODate("2019-09-26T12:09:46Z"),
- "optimeDurableDate" : ISODate("2019-09-26T12:09:46Z"),
- "lastHeartbeat" : ISODate("2019-09-26T12:09:47.119Z"),
- "lastHeartbeatRecv" : ISODate("2019-09-26T12:09:47.667Z"),
- "pingMs" : NumberLong(0),
- "lastHeartbeatMessage" : "",
- "syncingTo" : "",
- "syncSourceHost" : "",
- "syncSourceId" : -1,
- "infoMessage" : "",
- "electionTime" : Timestamp(1569457173, 2),
- "electionDate" : ISODate("2019-09-26T00:19:33Z"),
- "configVersion" : 3
- },
- {
- "_id" : 1,
- "name" : "127.0.0.1:27018",
- "ip" : "127.0.0.1",
- "health" : 1,
- "state" : 2,
- "stateStr" : "SECONDARY",
- "uptime" : 43284,
- "optime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "optimeDate" : ISODate("2019-09-26T12:09:46Z"),
- "syncingTo" : "127.0.0.1:27017",
- "syncSourceHost" : "127.0.0.1:27017",
- "syncSourceId" : 0,
- "infoMessage" : "",
- "configVersion" : 3,
- "self" : true,
- "lastHeartbeatMessage" : ""
- },
- {
- "_id" : 2,
- "name" : "127.0.0.1:27019",
- "ip" : "127.0.0.1",
- "health" : 1,
- "state" : 2,
- "stateStr" : "SECONDARY",
- "uptime" : 42569,
- "optime" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "optimeDurable" : {
- "ts" : Timestamp(1569499786, 1),
- "t" : NumberLong(1)
- },
- "optimeDate" : ISODate("2019-09-26T12:09:46Z"),
- "optimeDurableDate" : ISODate("2019-09-26T12:09:46Z"),
- "lastHeartbeat" : ISODate("2019-09-26T12:09:47.646Z"),
- "lastHeartbeatRecv" : ISODate("2019-09-26T12:09:47.036Z"),
- "pingMs" : NumberLong(0),
- "lastHeartbeatMessage" : "",
- "syncingTo" : "127.0.0.1:27018",
- "syncSourceHost" : "127.0.0.1:27018",
- "syncSourceId" : 1,
- "infoMessage" : "",
- "configVersion" : 3
- }
- ],
- "ok" : 1,
- "$clusterTime" : {
- "clusterTime" : Timestamp(1569499786, 1),
- "signature" : {
- "hash" : BinData(0,"AAAAAAAAAAAAAAAAAAAAAAAAAAA="),
- "keyId" : NumberLong(0)
- }
- },
- "operationTime" : Timestamp(1569499786, 1)
- }
副本集高可用
集群中的各節(jié)點(diǎn)還會通過傳遞心跳信息來檢測各自的健康狀況。當(dāng)主節(jié)點(diǎn)故障時,多個從節(jié)點(diǎn)會觸發(fā)一次 新的選舉操作,并選舉其中的一個成為新的主節(jié)點(diǎn)(通常誰的優(yōu)先級更高,誰就是新的主節(jié)點(diǎn)),心跳信息默認(rèn)每 2 秒傳遞一次。

客戶端連接到副本集后,不關(guān)心具體哪一臺機(jī)器是否掛掉。主服務(wù)器負(fù)責(zé)整個副本集的讀寫,副本集定期同步數(shù)據(jù)備份。一旦主節(jié)點(diǎn)掛掉,副本節(jié)點(diǎn)就會選舉一個新的主服務(wù)器。這一切對于應(yīng)用服務(wù)器不需要關(guān)心。

我們可以通過關(guān)閉主節(jié)點(diǎn),測試是否會選舉新的主節(jié)點(diǎn):
- gitlib@devops:~$ ps -aux | grep mongod
- root 14293 0.6 2.5 1888584 99504 ? Sl 08:06 4:39 bin/mongod -f mongod.conf
- root 14652 0.6 2.6 1923896 102200 ? Sl 08:08 4:59 bin/mongod -f mongod2.conf
- root 14723 0.6 2.5 1886124 98984 ? Sl 08:08 4:47 bin/mongod -f mongod3.conf
- gitlib@devops:~$ sudo kill -9 14293
- [sudo] password for zhoufei:
- zhoufei@devops:~$ ps -aux | grep mongod
- root 14652 0.6 2.6 1932092 102200 ? Sl 08:08 4:59 bin/mongod -f mongod2.conf
- root 14723 0.6 2.5 1894320 99064 ? Sl 08:08 4:47 bin/mongod -f mongod3.conf
我們直接kill掉主節(jié)點(diǎn),進(jìn)入節(jié)點(diǎn)1,看一下當(dāng)前節(jié)點(diǎn)是否是主節(jié)點(diǎn):
- gitlib@devops:~$ mongo 127.0.0.1:27018
- rs0:SECONDARY> rs.isMaster()
- {
- "hosts" : [
- "127.0.0.1:27017",
- "127.0.0.1:27018",
- "127.0.0.1:27019"
- ],
- "setName" : "rs0",
- "setVersion" : 3,
- "ismaster" : false,
- "secondary" : true,
- "primary" : "127.0.0.1:27019",
- "me" : "127.0.0.1:27018",
- ...
可以看到當(dāng)主節(jié)點(diǎn)(127.0.0.1:27017)掛掉之后,主節(jié)點(diǎn)自動切換到從節(jié)點(diǎn)2(127.0.0.1:27019)上。
副本集選舉機(jī)制
副本集中的從節(jié)點(diǎn)在主節(jié)點(diǎn)掛掉后通過心跳機(jī)制檢測到后,就會在集群內(nèi)發(fā)起主節(jié)點(diǎn)的選舉機(jī)制,自動選舉出一位新的主服務(wù)器。
副本集包括三種節(jié)點(diǎn):主節(jié)點(diǎn)、從節(jié)點(diǎn)、仲裁節(jié)點(diǎn)。
- 主節(jié)點(diǎn)負(fù)責(zé)處理客戶端請求,讀、寫數(shù)據(jù), 記錄在其上所有操作的oplog;
- 從節(jié)點(diǎn)定期輪詢主節(jié)點(diǎn)獲取這些操作,然后對自己的數(shù)據(jù)副本執(zhí)行這些操作,從而保證從節(jié)點(diǎn)的數(shù)據(jù)與主節(jié)點(diǎn)一致。默認(rèn)情況下,從節(jié)點(diǎn)不支持外部讀取,但可以設(shè)置,副本集的機(jī)制在于主節(jié)點(diǎn)出現(xiàn)故障的時候,余下的節(jié)點(diǎn)會選舉出一個新的主節(jié)點(diǎn),從而保證系統(tǒng)可以正常運(yùn)行。
- 仲裁節(jié)點(diǎn)不復(fù)制數(shù)據(jù),僅參與投票。由于它沒有訪問的壓力,比較空閑,因此不容易出故障。由于副本集出現(xiàn)故障的時候,存活的節(jié)點(diǎn)必須大于副本集節(jié)點(diǎn)總數(shù)的一半,否則無法選舉主節(jié)點(diǎn),或者主節(jié)點(diǎn)會自動降級為從節(jié)點(diǎn),整個副本集變?yōu)橹蛔x。因此,增加一個不容易出故障的仲裁節(jié)點(diǎn),可以增加有效選票,降低整個副本集不可用的風(fēng)險(xiǎn)。仲裁節(jié)點(diǎn)可多于一個。也就是說只參與投票,不接收復(fù)制的數(shù)據(jù),也不能成為活躍節(jié)點(diǎn)。
官方推薦MongoDB副本節(jié)點(diǎn)最少為3臺, 建議副本集成員為奇數(shù),最多12個副本節(jié)點(diǎn),最多7個節(jié)點(diǎn)參與選舉。限制副本節(jié)點(diǎn)的數(shù)量,主要是因?yàn)橐粋€集群中過多的副本節(jié)點(diǎn),增加了復(fù)制的成本,反而拖累了集群的整體性能。 太多的副本節(jié)點(diǎn)參與選舉,也會增加選舉的時間。而官方建議奇數(shù)的節(jié)點(diǎn),是為了避免腦裂 的發(fā)生。
選舉過程
副本集的選舉過程大致如下:
得到每個服務(wù)器節(jié)點(diǎn)的最后操作時間戳。每個 mongodb都有oplog機(jī)制會記錄本機(jī)的操作,方便和主服務(wù)器進(jìn)行對比數(shù)據(jù)是否同步還可以用于錯誤恢復(fù)。
如果集群中大部分服務(wù)器down機(jī)了,保留活著的節(jié)點(diǎn)都為secondary狀態(tài)并停止,不選舉了。
如果集群中選舉出來的主節(jié)點(diǎn)或者所有從節(jié)點(diǎn)最后一次同步時間看起來很舊了,停止選舉等待人來操作。
如果上面都沒有問題就選擇最后操作時間戳最新(保證數(shù)據(jù)是最新的)的服務(wù)器節(jié)點(diǎn)作為主節(jié)點(diǎn)。
MongoDB 同步延遲問題
在MongoDB中,所有寫操作都會產(chǎn)生 oplog,oplog 是每修改一條數(shù)據(jù)都會生成一條,如果你采用一個批量update命令更新了 N 多條數(shù)據(jù),那么oplog 會有很多條,而不是一條。所以同步延遲就是寫操作在主節(jié)點(diǎn)上執(zhí)行完后,從節(jié)點(diǎn)還沒有把 oplog 拿過來再執(zhí)行一次。而這個寫操作的量越大,主節(jié)點(diǎn)與從節(jié)點(diǎn)的差別也就越大,同步延遲也就越大了。
分片
當(dāng)MongoDB存儲海量的數(shù)據(jù)時,一臺機(jī)器可能不足以存儲數(shù)據(jù),也可能不足以提供可接受的讀寫吞吐量。這時我們就可以通過在多臺機(jī)器上分割數(shù)據(jù),使得數(shù)據(jù)庫系統(tǒng)能存儲和處理更多的數(shù)據(jù)。
分片集群結(jié)構(gòu)分布:

三個主要組件:
- Shard:數(shù)據(jù)存儲位置,以chunk為單位存數(shù)據(jù),實(shí)際生產(chǎn)環(huán)境中一個shard server角色可由幾臺機(jī)器組個一個replica set承擔(dān),防止主機(jī)單點(diǎn)故障;
- Config Server:mongod實(shí)例,存儲了整個ClusterMetadata,其中包括 chunk信息,默認(rèn)需要配置3個Config Server節(jié)點(diǎn);
- Query Routers:(Mongos) 前端路由,客戶端由此接入,且讓整個集群看上去像單一數(shù)據(jù)庫,前端應(yīng)用可以透明使用。
Mongos本身并不持久化數(shù)據(jù),Sharded Cluster所有的元數(shù)據(jù)都會存儲到Config Server,而用戶的數(shù)據(jù)會議分散存儲到各個shard。Mongos啟動后,會從配置服務(wù)器加載元數(shù)據(jù),開始提供服務(wù),將用戶的請求正確路由到對應(yīng)的碎片。
Mongos的路由功能:
- 當(dāng)數(shù)據(jù)寫入時,MongoDB Cluster根據(jù)分片鍵設(shè)計(jì)寫入數(shù)據(jù)。
- 當(dāng)外部語句發(fā)起數(shù)據(jù)查詢時,MongoDB根據(jù)數(shù)據(jù)分布自動路由至指定節(jié)點(diǎn)返回?cái)?shù)據(jù)。
分片部署
條件有限,我們還是在單機(jī)上,用不同MongoDB線程來部署分片。

分片服務(wù)器
Shard Server和普通Mongod程序一樣,不同的是需要在配置文件中添加shardsvr=true標(biāo)記為Shard Server,配置參考如下:
- # 指定數(shù)據(jù)庫路徑
- dbpath=/usr/local/mongodb/share/1/data/db
- # 使用追加的方式寫日志
- logpath=/usr/local/mongodb/share/1/log/mongodb.log
- # 使用追加的方式寫日志
- logappend = true
- # 綁定服務(wù)IP
- bind_ip=127.0.0.1
- # 服務(wù)器端口
- port = 27020
- # 以守護(hù)進(jìn)程的方式運(yùn)行MongoDB,創(chuàng)建服務(wù)器進(jìn)程
- fork = true
- # PID File 的完整路徑
- pidfilepath=/usr/local/mongodb/var/mongod27020.pid
- # 不啟用驗(yàn)證
- noauth=true
- # 最大同時連接數(shù),默認(rèn)2000
- maxConns=2000
- # 同步復(fù)制的日志大小設(shè)置,單位MB
- oplogSize=10
- # 設(shè)置為shared server
- shardsvr=true
以上配置復(fù)制4份,修改一下數(shù)據(jù)庫路徑/日志路徑/服務(wù)器IP和端口/PID路徑,啟動4個Shard Server:
- sudo bin/mongod -f shard1.conf
- sudo bin/mongod -f shard2.conf
- sudo bin/mongod -f shard3.conf
- sudo bin/mongod -f shard4.conf
配置服務(wù)器
4.0版本的MongoDB中配置服務(wù)器(Config Server)需要設(shè)置副本集,同時設(shè)置configsvr=true,配置參考如下:
- # 指定數(shù)據(jù)庫路徑
- dbpath=/usr/local/mongodb/share/5/data/db
- # 使用追加的方式寫日志
- logpath=/usr/local/mongodb/share/5/log/mongodb.log
- # 使用追加的方式寫日志
- logappend = true
- # 綁定服務(wù)IP
- bind_ip=127.0.0.1
- # 服務(wù)器端口
- port = 27100
- # 以守護(hù)進(jìn)程的方式運(yùn)行MongoDB,創(chuàng)建服務(wù)器進(jìn)程
- fork = true
- # PID File 的完整路徑
- pidfilepath=/usr/local/mongodb/var/mongod27100.pid
- # 不啟用驗(yàn)證
- noauth=true
- # 最大同時連接數(shù),默認(rèn)2000
- maxConns=2000
- # 同步復(fù)制的日志大小設(shè)置,單位MB
- oplogSize=10
- # 配置為config server
- configsvr=true
- # 副本集名稱
- replSet=rs0
啟動Config Server,并初始化副本集:
- sudo bin/mongod -f shard-config.conf
- mongo 127.0.0.1:27100
- > rs.initiaze()
新版本MongoDB建議設(shè)置多個Config Server,采用副本集形式設(shè)置集群,為了搭建方便,這里我們只采用單個Config Server。
路由服務(wù)器
Router Server不存放數(shù)據(jù),配置參考如下:
- # 使用追加的方式寫日志
- logpath=/usr/local/mongodb/share/6/log/mongodb.log
- # 使用追加的方式寫日志
- logappend = true
- # 綁定服務(wù)IP
- bind_ip=127.0.0.1
- # 服務(wù)器端口
- port = 4000
- # 以守護(hù)進(jìn)程的方式運(yùn)行MongoDB,創(chuàng)建服務(wù)器進(jìn)程
- fork = true
- # PID File 的完整路徑
- pidfilepath=/usr/local/mongodb/var/mongod4000.pid
- # 設(shè)置監(jiān)聽的config服務(wù)器
- configdb=rs0/127.0.0.1:27100
啟動Router Server,路由服務(wù)器是由mongos命令啟動,與分片服務(wù)器及配置服務(wù)器不同。
- sudo bin/mongos -f shard-router.conf
啟動后,需要通過sh.addShard()命令添加分片服務(wù)器:
- sh.addShard('127.0.0.1:27020')
- sh.addShard('127.0.0.1:27021')
- sh.addShard('127.0.0.1:27022')
- sh.addShard('127.0.0.1:27023')
配置完成后,可以通過sh.status()命令,查看分片情況:
- mongos> sh.status()
- --- Sharding Status ---
- sharding version: {
- "_id" : 1,
- "minCompatibleVersion" : 5,
- "currentVersion" : 6,
- "clusterId" : ObjectId("5d8ddd1d94796dc650e29f67")
- }
- shards:
- { "_id" : "shard0000", "host" : "127.0.0.1:27020", "state" : 1 }
- { "_id" : "shard0001", "host" : "127.0.0.1:27021", "state" : 1 }
- { "_id" : "shard0002", "host" : "127.0.0.1:27022", "state" : 1 }
- { "_id" : "shard0003", "host" : "127.0.0.1:27023", "state" : 1 }
- active mongoses:
- "4.2.0" : 1
- autosplit:
- Currently enabled: yes
- balancer:
- Currently enabled: yes
- Currently running: no
- Failed balancer rounds in last 5 attempts: 0
- Migration Results for the last 24 hours:
- No recent migrations
- databases:
- { "_id" : "config", "primary" : "config", "partitioned" : true }
- config.system.sessions
- shard key: { "_id" : 1 }
- unique: false
- balancing: true
- chunks:
- shard0000 1
- { "_id" : { "$minKey" : 1 } } -->> { "_id" : { "$max