一、概述
1.MongoDB是什么?用一句話總結(jié)
MongoDB是一款為web應(yīng)用程序和互聯(lián)網(wǎng)基礎(chǔ)設(shè)施設(shè)計的數(shù)據(jù)庫管理系統(tǒng)。沒錯MongoDB就是數(shù)據(jù)庫,是NoSQL類型的數(shù)據(jù)庫。
2.為什么要使用MongoDB?
(1)MongoDB提出的是文檔、集合的概念,使用BSON(類JSON)作為其數(shù)據(jù)模型結(jié)構(gòu),其結(jié)構(gòu)是面向?qū)ο蟮亩皇嵌S表,存儲一個用戶在MongoDB中是這樣子的。
- {
- username:'123',
- password:'123'
- }
使用這樣的數(shù)據(jù)模型,使得MongoDB能在生產(chǎn)環(huán)境中提供高讀寫的能力,吞吐量較于mysql等SQL數(shù)據(jù)庫大大增強(qiáng)。
(2)易伸縮,自動故障轉(zhuǎn)移。易伸縮指的是提供了分片能力,能對數(shù)據(jù)集進(jìn)行分片,數(shù)據(jù)的存儲壓力分?jǐn)偨o多臺服務(wù)器。自動故障轉(zhuǎn)移是副本集的概念,MongoDB能檢測主節(jié)點(diǎn)是否存活,當(dāng)失活時能自動提升從節(jié)點(diǎn)為主節(jié)點(diǎn),達(dá)到故障轉(zhuǎn)移。
(3)數(shù)據(jù)模型因?yàn)槭敲嫦驅(qū)ο蟮?,所以可以表示豐富的、有層級的數(shù)據(jù)結(jié)構(gòu),比如博客系統(tǒng)中能把“評論”直接懟到“文章“的文檔中,而不必像myqsl一樣創(chuàng)建三張表來描述這樣的關(guān)系。
3.主要特性
(1)文檔數(shù)據(jù)類型
SQL類型的數(shù)據(jù)庫是正規(guī)化的,可以通過主鍵或者外鍵的約束保證數(shù)據(jù)的完整性與唯一性,所以SQL類型的數(shù)據(jù)庫常用于對數(shù)據(jù)完整性較高的系統(tǒng)。MongoDB在這一方面是不如SQL類型的數(shù)據(jù)庫,且MongoDB沒有固定的Schema,正因?yàn)镸ongoDB少了一些這樣的約束條件,可以讓數(shù)據(jù)的存儲數(shù)據(jù)結(jié)構(gòu)更靈活,存儲速度更加快。
(2)即時查詢能力
MongoDB保留了關(guān)系型數(shù)據(jù)庫即時查詢的能力,保留了索引(底層是基于B tree)的能力。這一點(diǎn)汲取了關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn),相比于同類型的NoSQL redis 并沒有上述的能力。
(3)復(fù)制能力
MongoDB自身提供了副本集能將數(shù)據(jù)分布在多臺機(jī)器上實(shí)現(xiàn)冗余,目的是可以提供自動故障轉(zhuǎn)移、擴(kuò)展讀能力。
(4)速度與持久性
MongoDB的驅(qū)動實(shí)現(xiàn)一個寫入語義 fire and forget ,即通過驅(qū)動調(diào)用寫入時,可以立即得到返回得到成功的結(jié)果(即使是報錯),這樣讓寫入的速度更加快,當(dāng)然會有一定的不安全性,完全依賴網(wǎng)絡(luò)。
MongoDB提供了Journaling日志的概念,實(shí)際上像mysql的bin-log日志,當(dāng)需要插入的時候會先往日志里面寫入記錄,再完成實(shí)際的數(shù)據(jù)操作,這樣如果出現(xiàn)停電,進(jìn)程突然中斷的情況,可以保障數(shù)據(jù)不會錯誤,可以通過修復(fù)功能讀取Journaling日志進(jìn)行修復(fù)。
(5)數(shù)據(jù)擴(kuò)展
MongoDB使用分片技術(shù)對數(shù)據(jù)進(jìn)行擴(kuò)展,MongoDB能自動分片、自動轉(zhuǎn)移分片里面的數(shù)據(jù)塊,讓每一個服務(wù)器里面存儲的數(shù)據(jù)都是一樣大小。
4.C/S服務(wù)模型
MongoDB核心服務(wù)器主要是通過mongod程序啟動的,而且在啟動時不需對MongoDB使用的內(nèi)存進(jìn)行配置,因?yàn)槠湓O(shè)計哲學(xué)是內(nèi)存管理最好是交給操作系統(tǒng),缺少內(nèi)存配置是MongoDB的設(shè)計亮點(diǎn),另外,還可通過mongos路由服務(wù)器使用分片功能。
MongoDB的主要客戶端是可以交互的js shell 通過mongo啟動,使用js shell能使用js直接與MongoDB進(jìn)行交流,像使用sql語句查詢mysql數(shù)據(jù)一樣使用js語法查詢MongoDB的數(shù)據(jù),另外還提供了各種語言的驅(qū)動包,方便各種語言的接入。
5.完善的命令行工具
mongodump和mongorestore,備份和恢復(fù)數(shù)據(jù)庫的標(biāo)準(zhǔn)工具。輸出BSON格式,遷移數(shù)據(jù)庫。
mongoexport和mongoimport,用來導(dǎo)入導(dǎo)出JSON、CSV和TSV數(shù)據(jù),數(shù)據(jù)需要支持多格式時有用。mongoimport還能用與大數(shù)據(jù)集的初始導(dǎo)入,但是在導(dǎo)入前順便還要注意一下,為了能充分利用好mongoDB通常需要對數(shù)據(jù)模型做一些調(diào)整。
mongosniff,網(wǎng)絡(luò)嗅探工具,用來觀察發(fā)送到數(shù)據(jù)庫的操作?;揪褪前丫W(wǎng)絡(luò)上傳輸?shù)腂SON轉(zhuǎn)換為易于人們閱讀的shell語句。
因此,可以總結(jié)得到,MongoDB結(jié)合鍵值存儲和關(guān)系數(shù)據(jù)庫的最好特性。因?yàn)楹唵?,所以?shù)據(jù)極快,而且相對容易伸縮還提供復(fù)雜查詢機(jī)制的數(shù)據(jù)庫。MongoDB需要跑在64位的服務(wù)器上面,且最好單獨(dú)部署,因?yàn)槭菙?shù)據(jù)庫,所以也需要對其進(jìn)行熱備、冷備處理。
二、進(jìn)入MongoDB shell
因?yàn)楸酒恼虏皇茿PI手冊,所有這里對shell的使用也是基礎(chǔ)的介紹什么功能可以用什么語句,主要是為了展示使用MongoDB shell的方便性,如果需要知道具體的MongoDB shell語法可以查閱官方文檔。
1.切換數(shù)據(jù)庫
- use dba
創(chuàng)建數(shù)據(jù)庫并不是必須的操作,數(shù)據(jù)庫與集合只有在第一次插入文檔時才會被創(chuàng)建,與對數(shù)據(jù)的動態(tài)處理方式是一致的。簡化并加速開發(fā)過程,而且有利于動態(tài)分配命名空間。如果擔(dān)心數(shù)據(jù)庫或集合被意外創(chuàng)建,可以開啟嚴(yán)格模式。
2.插入語法
- db.users.insert({username:"smith"})
- db.users.save({username:"smith"})
- 區(qū)別: 若新增的數(shù)據(jù)中存在主鍵 ,insert() 會提示錯誤,而save() 則更改原來的內(nèi)容為新內(nèi)容。如:
- 已存在數(shù)據(jù): {_id : 1, " name " : " n1 " },再次進(jìn)行插入操作時,insert({_id : 1, " name " : " n2 " }) 會報主鍵重復(fù)的錯誤提示,save({ _id : 1, " name " : " n2 " }) 會把 n1 修改為 n2 。
- 相同點(diǎn): 若新增的數(shù)據(jù)中沒有主鍵時,會增加一條記錄。已存在數(shù)據(jù): { _id : 1, " name " : " n1 " },再次進(jìn)行插入操作時,insert({ " name " : " n2 " }) 插入的數(shù)據(jù)因?yàn)闆]有主鍵,所以會增加一條數(shù)據(jù),save({ " name " : " n2 " }) 增加一條數(shù)據(jù)。
3.查找語法
- db.users.find()
- db.users.count()
4.更新語法
- db.users.update({username:"smith"},{$set:{country:"Canada"}})
- //把用戶名為smith的用戶的國家改成Canada
- db.users.update({username:"smith"},{$unset:{country:1}})
- //把用戶名為smith的用戶的國家字段給移除
- db.users.update({username:"jones"},{$set:{favorites:{movies:["casablance","rocky"]}}})
- //這里主要體現(xiàn)多值修改,在favorties字段中添加多個值
- db.users.update({"favorites.movies":"casablance"},{$addToSet:{favorites.movies:"the maltese"}},false,true)
- //多項(xiàng)更新
5.刪除語法
- db.foo.remove() //刪除所有數(shù)據(jù)
- db.foo.remove({favorties.cities:"cheyene"}) //根據(jù)條件進(jìn)行刪除
- db.drop() //刪除整個集合
6.索引相關(guān)語法
- db.numbers.ensureIndex({num:1})
- //創(chuàng)建一個升序索引
- db.numbers.getIndexes()
- //獲取全部索引
7.基本管理語法
- show dbs
- //查詢所有數(shù)據(jù)庫
- show collections
- //顯示所有表
- db.stats()
- //顯示數(shù)據(jù)庫狀態(tài)信息
- db.numbers.stats()
- //顯示集合表狀態(tài)信息
- db,shutdownServer()
- //停止數(shù)據(jù)庫
- db.help()
- //獲取數(shù)據(jù)庫操作命令
- db.foo.help()
- //獲取表操作命令
- tab 鍵 //能自動幫我們補(bǔ)全命令
以上的命令只是簡單實(shí)例,假設(shè)如果你之前沒有學(xué)習(xí)過任何數(shù)據(jù)庫語法,同時開始學(xué)sql查詢語法和MongoDB 查詢語法,你會發(fā)現(xiàn)哪一個更簡單呢?如果你使用的是java驅(qū)動去操作MongoDB,你會發(fā)現(xiàn)任何的查詢都像Hibernate提供出來的查詢方式一樣,只要構(gòu)建好一個查詢條件對象,便能輕松查詢(接下來會給出示例),博主之前熟悉ES6,所以入手MongoDB js shell完成沒問題,也正因?yàn)檫@樣簡潔,完善的查詢機(jī)制,深深的愛上了MongoDB。
三、使用java驅(qū)動
使用java驅(qū)動鏈接MongoDB是一件非常簡單的事情,簡單的引用,簡單的做增刪改查。在使用完java驅(qū)動后我才發(fā)現(xiàn)spring 對MongoDB 的封裝還不如官方自身提供出來的東西好用,下面簡單的展示一下使用。
1.使用maven引入jar包
- <dependency>
- <groupId>org.mongodb</groupId>
- <artifactId>mongodb-driver-sync</artifactId>
- <version>3.8.0-beta3</version>
- </dependency>
2.創(chuàng)建一個訪問客戶端
- MongoClient client = MongoClients.create(“mongodb://10.201.76.94:27017”);
3.獲取集合數(shù)量
- public long count() {
- MongoClient client = this.getClient();
- MongoCollection<Document> collections= client.getDatabase("mongodb_db_name").getCollection("mongodb_collection_name");
- return collections.count();
- }
4.查詢集合
- public List<Document> find(Document params,Bson sort,int skip,int limit) {
- MongoClient client = this.getClient();
- MongoCollection<Document> collections= client.getDatabase("mongodb_db_name").getCollection("mongodb_collection_name");
- List<Document> list = new ArrayList<Document>(Integer.valueOf(config.getPro("sync_limit")));
- collections.find(params).sort(sort).skip(skip).limit(limit).forEach(new Block<Document>() {
- @Override
- public void apply(Document document) {
- list.add(document);
- }
- });
- return list;
- }
這里只舉例了簡單的鏈接與簡單的MongoDB操作,可見其操作的容易性。使用驅(qū)動時是基于TCP套接字與MongoDB進(jìn)行通信的,如果查詢結(jié)果較多,恰好無法全部放進(jìn)第一服務(wù)器中,將會向服務(wù)器發(fā)送一個getmore指令獲取下一批查詢結(jié)果。
插入數(shù)據(jù)到服務(wù)器時間,不會等待服務(wù)器的響應(yīng),驅(qū)動會假設(shè)寫入是成功的,實(shí)際是使用客戶端生成對象id,但是該行為可以通過配置配置,可以通過安全模式開啟,安全模式可以校驗(yàn)服務(wù)器端插入的錯誤。
四、schema 設(shè)計原則
1.需要關(guān)注MongoDB的自身的特性
要清楚了解MongoDB的基本數(shù)據(jù)單元。在關(guān)系型數(shù)據(jù)庫中有帶列和行的數(shù)據(jù)表。而MongoDB數(shù)據(jù)的基本單元是BSON文檔,在鍵值中有指向不定類型值的鍵,MongoDB擁有即時查詢,但不支持聯(lián)結(jié)操作,簡單的鍵值存儲只能根據(jù)單個鍵來獲取值,不支持事務(wù),但支持多種原子更新操作。
2.需要關(guān)注系統(tǒng)本身的讀寫特性
如讀寫比是怎樣的,需要何種查詢,數(shù)據(jù)是如何更新的,會不會存在什么并發(fā)問題,數(shù)據(jù)結(jié)構(gòu)化的程度是要求高還是低。系統(tǒng)本身的需求決定mysql還是MongoDB。
3.關(guān)注MongoDB schema 的設(shè)計模式
- 內(nèi)嵌與引用 :當(dāng)子對象總是出現(xiàn)在父對象的上下文中時,使用內(nèi)嵌文檔;否則將子對象單獨(dú)存一個集合。
- 一對多的關(guān)系 :在“多”的集合關(guān)系中添加id指向依賴的id。
- 多對多 :在其中一種對應(yīng)關(guān)系中使用對象數(shù)組指向另外一個對象。
- 樹 :具化路徑,在樹中的每個節(jié)點(diǎn)都包含一個path字段,該字段具體保存了每個節(jié)點(diǎn)祖先的id。
- 動態(tài)屬性 :可以為不同的動態(tài)屬性添加索引,如果需要將屬性圈在一個范圍,那么可以通過key-value的方式,然后在統(tǒng)一的key上面加索引。
- 關(guān)于事務(wù) :如果需要事務(wù)支持,那么只能選擇另一種數(shù)據(jù)庫,或者提供補(bǔ)償性事務(wù)來解決事務(wù)的問題。
在關(guān)于schema 的設(shè)計中要注意一些原則,比如:
- 不能創(chuàng)建沒用的索引
- 不能在同一個字段中存不同的類型
- 不能把多類實(shí)體都放在一個集合里 不能創(chuàng)建體積大、嵌套深的文檔
- 不能過多的創(chuàng)建集合,集合、索引、數(shù)據(jù)庫的命名空間都是有限的
- 不能創(chuàng)建無法分片的集合
4.關(guān)注MongoDB里面一些具體細(xì)節(jié)
(1)關(guān)注數(shù)據(jù)庫的概念
數(shù)據(jù)庫是集合的邏輯與物理分組,MongoDB沒有提供創(chuàng)建數(shù)據(jù)庫的語法,只有在插入集合時,數(shù)據(jù)庫才開始建立。創(chuàng)建數(shù)據(jù)庫后會在磁盤分配一組數(shù)據(jù)文件,所有集合、索引和數(shù)據(jù)庫的其他元數(shù)據(jù)都保存在這些文件中,查閱數(shù)據(jù)庫使用磁盤狀態(tài)可通過。
- db.stats()
(2)關(guān)注集合概念
集合是結(jié)構(gòu)上或概念上相似得文檔的容器,集合的名稱可以包含數(shù)字、字母或 . 符號,但必須以字母或數(shù)字開頭,完全。
限定集合名不能超過128個字符,實(shí)際上 . 符號在集合中很有用,能提供某種虛擬命名空間,這是一種組織上的原則,和其他集合是一視同仁的。在集合中可以使用。
- system.namespaces //查詢當(dāng)前數(shù)據(jù)庫中定義的所有命名空間
- system.indexes //存儲當(dāng)前數(shù)據(jù)庫的所有索引定義
(3)關(guān)注文檔
其次是鍵值,在MongoDB里面所有的字符串都是UTF-8類型。數(shù)字類型包括double、int、long。日期類型都是UTC格式,所以在MongoDB里面看到的時間會比北京時間慢8小時。整個文檔大小會限制在16m以內(nèi),因?yàn)檫@樣可以防止創(chuàng)建難看的數(shù)據(jù)類型,且小文檔可以提升性能,批量插入文檔理想數(shù)字范圍是10~200,大小不能超過16MB。
五、索引與查詢優(yōu)化
1.索引的經(jīng)驗(yàn)法則
(1)索引能顯著減少獲取文檔的所需工作量,具體的對比可以通過 .explain()方法進(jìn)行對比
(2)解析查詢時MongoDB通過最優(yōu)計劃選擇一個索引進(jìn)行查詢,當(dāng)沒有最適合索引時,會先不同的使用各個索引進(jìn)行查詢,最終選出一個最優(yōu)索引做查詢
(3)如果有一個a-b的復(fù)合索引,那么僅針對a的索引是冗余的
(4)復(fù)合索引里的鍵的順序是很重要的
2.索引類型
(1)單鍵索引
(2)復(fù)合索引
(3)唯一性索引
(4)稀疏索引
如索引的字段會出現(xiàn)null的值,或是大量文檔都不包含被索引的鍵。
3.索引的構(gòu)建問題
如果數(shù)據(jù)集很大時,構(gòu)建索引將會花費(fèi)很長的時間,且會影響程序性能,可通過
- db.currentOp() //查看索引的構(gòu)建時間
當(dāng)使用 mongorestore 時會重新構(gòu)建索引。當(dāng)曾經(jīng)執(zhí)行過大規(guī)模的刪除時,可使用
- db.values.reIndex()
對索引進(jìn)行壓縮,重建。
4.識別慢查詢
(1)查閱慢查詢?nèi)罩?/p>
- grep -E '([0-9])+ms' mongod.log //使用grep 命令 識別命令信息
- db.setProfillingLevel(2) //使用解刨器,將記錄每次的讀寫到日志
- db.setProfillingLevel(1) //只記錄慢(100ms)操作
(2)分析慢查詢
- db.values.find({}).sort({close:-1}).limit(1).explain()
- scanOrder 字段表明沒有使用索引
- cursor當(dāng)沒有索引時,用的是BasicCursor,當(dāng)使用索引時使用的是BtreeCursor
- n 表示需要返回的結(jié)果集
- nscanned表示需要遍歷的文檔數(shù) indexBounds 表示索引邊界
注意新版本的MongoDB 的explain方法是需要參數(shù)的,不然只顯示普通的信息。
六、MongoDB副本集
本節(jié)同樣主要簡單呈現(xiàn)MongoDB副本集搭建的簡易性,與副本集的強(qiáng)壯性,監(jiān)控容易性
1.為什么要使用副本集
提供主從復(fù)制能力,熱備能力,故障轉(zhuǎn)移能力
2.構(gòu)建方式
- rs.initiate()
- rs.add("localhost:40001")
- rs.add("localhost:40002",{arbiterOnly:true})
3.監(jiān)控
- db.isMasrter()
- rs.status()
4.副本集的工作原理
實(shí)際上MongoDB對副本集的操作跟mysql主從操作是差不多的,先看一下mysql的主從數(shù)據(jù)流動過程
- 主binlog -> 從relay.log -> 從bin.log -> 從數(shù)據(jù)庫
而MongoDB主要依賴的日志文件是oplog
- 主oplog -> 從oplog
寫操作先被記錄下來,添加到主節(jié)點(diǎn)的oplog里。與此同時,所有從結(jié)點(diǎn)復(fù)制oplog。首先,查看自己oplog里最后一條的時間戳;其次,查詢主節(jié)點(diǎn)oplog里所有大于此時間戳的條目;最后,把那些條目添加到自己的oplog里并應(yīng)用到自己的庫里。從節(jié)點(diǎn)使用長輪詢立即應(yīng)用來自主結(jié)點(diǎn)oplog的新條目。
當(dāng)遇到以下情況,從節(jié)點(diǎn)會停止復(fù)制
- 如果從節(jié)點(diǎn)在主節(jié)點(diǎn)的oplog里找不到它所同步的點(diǎn),那么會永久停止復(fù)制
- 一旦某個從節(jié)點(diǎn)沒能 在主節(jié)點(diǎn)的oplog里找到它已經(jīng)同步的點(diǎn),就無法再保證這個從結(jié)點(diǎn)的完美副本
local數(shù)據(jù)庫保存了所有副本集元素?fù)?jù)和oplog日志
- replset.minvalid 包含指定副本集成員的初始化同步信息
- system.replset 保存在副本集配置文檔
- system.indexes 標(biāo)準(zhǔn)索引說明容器
- me slaves 主要用于寫關(guān)注
可以使用以下命令查看復(fù)制情況
- db.oplog.rs.findOne()
- ts 保存了該條目的BSON時間戳
- t 是從紀(jì)元開始的描述
- i是計數(shù)器
- op 表示操作碼
- ns 標(biāo)明了有關(guān)的命名空間
5.心跳檢測
每個副本集成員每秒鐘ping一次其他所有成員,可以通過rs.status()看到節(jié)點(diǎn)上次的心跳檢測時間戳和健康狀況。
6.故障轉(zhuǎn)移
這個點(diǎn)沒必要過多描述,但是有一個特殊場景,如果從節(jié)點(diǎn)和仲裁節(jié)點(diǎn)都被殺了,只剩下主節(jié)點(diǎn),他會把自己降級成為從節(jié)點(diǎn)。
7.提交與回滾
如果主節(jié)點(diǎn)的數(shù)據(jù)還沒有寫到從庫,那么數(shù)據(jù)不能算提交,當(dāng)該主節(jié)點(diǎn)變成從節(jié)點(diǎn)時,便會觸發(fā)回滾,那些沒寫到從庫的數(shù)據(jù)將會被刪除,可以通過rollback子目錄中的BSON文件恢復(fù)回滾的內(nèi)容。
8.驅(qū)動與復(fù)制
(1)使用單節(jié)點(diǎn)鏈接
只能鏈接到主節(jié)點(diǎn),如果鏈接到從節(jié)點(diǎn)的話,會被拒絕寫入操作,但是如果沒有使用安全模式,因?yàn)閙ongo的fire and forget 特性,會把拒絕寫入的異常給吃掉。
(2)使用副本集方式鏈接
能根據(jù)寫入的情況自動進(jìn)行故障轉(zhuǎn)移,但是當(dāng)副本集進(jìn)行新的選舉時,還是會出現(xiàn)故障,如果不使用安全模式,依舊會出現(xiàn)寫不進(jìn)去,但現(xiàn)實(shí)成功的情況。
(3)寫關(guān)注
可以使用寫關(guān)注來關(guān)注數(shù)據(jù)是否已經(jīng)被寫入MongoDB的庫中,使用寫關(guān)注會消耗性能,需要在速度和持久性之間做出權(quán)衡。
七、分片
分片是數(shù)據(jù)庫切分的一個概念實(shí)現(xiàn),這里也是簡單總結(jié)為什么要使用分片以及分片的原理,操作。
1.為什么需要分片
當(dāng)數(shù)據(jù)量過大,索引和工作數(shù)據(jù)集占用的內(nèi)存就會越來越多,所以需要通過分片負(fù)載來解決這個問題
2.分片的工作原理
(1)分片組件
- 分片:每個分片都是一個副本集
- mongos路由器:是一個路由器,將讀寫請求指引到合適的分片上
- 配置服務(wù)器config:持久化分片集群的元數(shù)據(jù),包括:全局集群配置;每個數(shù)據(jù)庫、集合和特定范圍數(shù)據(jù)位置;一份變更記錄,保存了數(shù)據(jù)在分片之間進(jìn)行遷移的歷史信息。配置服務(wù)器之間不是副本集形式存在,mongos向配置服務(wù)器提交信息時是兩階段提交,保證配置服務(wù)器之間的一致性。
(2)分片的核心操作
分片一個集合:分片是根據(jù)一個屬性的范圍進(jìn)行劃分的,MongoDB使用所謂的分片鍵讓每個文檔在這些范圍里找到自己的位置
塊:是位于一個分片中的一段連續(xù)的分片鍵范圍,可以理解為若干個塊組成分片,分片組成MongoDB的全部數(shù)據(jù)
(3)拆分與遷移
塊的拆分:初始化時只有一個塊,達(dá)到最大塊尺寸64MB或100000個文檔就會觸發(fā)塊的拆分。把原來的范圍一分為二,這樣就有了兩個塊,每個塊都有相同數(shù)量的文檔。
遷移:當(dāng)分片中的數(shù)據(jù)大小不一時會產(chǎn)生遷移的動作,比如分片A的數(shù)據(jù)比較多,會將分片A里面的一些塊轉(zhuǎn)移到分片B里面去。分片集群通過在分片中移動塊來實(shí)現(xiàn)均衡,是由名為均衡器的軟件進(jìn)程管理的,任務(wù)是確保數(shù)據(jù)在各個分片中保持均勻分布,當(dāng)集群中擁有塊最多的分片與擁有塊最少分片的塊差大于8時,均衡器就會發(fā)起一次均衡處理。
3.分片實(shí)戰(zhàn)
啟動兩個副本集、三個配置服務(wù)器、一個mongos進(jìn)程
配置分片
- sh.help() //查看分片相關(guān)幫助
- sh.addShard() //添加分片
- db,getSiblingDB("config").shards.find() //查看分片列表
- sh.status() //分片詳情
- sh.enableSharding("cloud-docs") //開啟一個數(shù)據(jù)庫上的分片
- db.getSiblingDB("config").databases,find() //查看數(shù)據(jù)庫列表
- sh.shardCollection("cloud-docs.spreadsheets",{username:1,_id:1}) //使用一個分片鍵定義一個分片集合spreadsheets,根據(jù)用戶名進(jìn)行切分
- sh.getSiiblingDB("config").collections.findOne() //查看集合列表
- db.chunks.count() //查看塊的個數(shù)
- db.chunks.findOne() //查看塊的信息
- db.changelog.count(}what:"split"|) //查看塊切分日志
- db.changelog.find({what:"moveChunk.commit"}).count() //查看日志遷移記錄
4.分片的查詢與索引
(1)分片查詢類型
- 針對性查詢:查詢包含分片鍵
- 全局查詢或分散/聚集查:查詢不包含分片鍵
- 查詢過程:通過分片鍵將查詢路由給指定分片,一旦到了某個分片上,由分片自行決定使用哪個索引來執(zhí)行該查詢
(2)索引
每個分片都維護(hù)了自己的索引,當(dāng)在分片集合上聲明索引時,每個分片都會為它那部分集合構(gòu)建獨(dú)立的索引,每個分片上的分片集合都應(yīng)該擁有相同的索引。
分片集合只允許在_id字段和分片鍵上添加唯一性索引,其他地方不行,因?yàn)檫@需要在分片間進(jìn)行通信,實(shí)施起來很復(fù)雜。
當(dāng)創(chuàng)建分片時,會根據(jù)分片鍵創(chuàng)建一個索引。
5.選擇分片鍵
(1)分片鍵是不可修改的、分片鍵的選擇非常重要
(2)低效的分片鍵
- 分布性差:如使用BSON對象ID,那么會導(dǎo)致所有最新插入的文檔都會落到某個很小的連續(xù)范圍,無法分散插入
- 缺乏局部性:升序分片鍵有明確的方向,完全隨機(jī)的分片鍵則根本沒有方向。前者無法分散插入,后者插入分散,如使用MD5作為分片鍵
(3)理想的分片鍵
- 將插入數(shù)據(jù)均勻分布到各個分片上
- 保證CRUD操作能夠利用局部性 有足夠的粒度進(jìn)行塊拆分
- 滿足這些要求的分片鍵通常由兩個字段組成,第一個是粗粒度的,第二個粒度較細(xì)
6.生產(chǎn)環(huán)境中的分片
(1)部署拓?fù)?/strong>
- 復(fù)制mongod:需要獨(dú)立的部署服務(wù)器
- 配置服務(wù)器:配置服務(wù)器不需要有自己的機(jī)器
根據(jù)不同的數(shù)據(jù)中心劃分
這里寫圖片描述
(2)最低要求
- 副本集每個成員,無論是完整的副本集節(jié)點(diǎn)還是仲裁節(jié)點(diǎn),都需要放在不同的機(jī)器上 每個用于復(fù)制的副本集成員都需要有自己的機(jī)器
- 副本集仲裁節(jié)點(diǎn)很輕量級,和其他進(jìn)程共用一臺機(jī)器即可
- 配置服務(wù)器也可以選擇與其他進(jìn)程共用一臺機(jī)器
(3)配置的注意事項(xiàng)
需要估計集群大小,可使用以下命令對現(xiàn)有集合進(jìn)行分片處理
- sh.splitAt("cloud-docs.spreadsheets",{"username":"chen","_id":ObjectId("")})
- //手動拆分塊
- sh.moveChunk("cloud-docs.spreadsheets",{username:"chen"},"shardB")
- //手動將某分塊移至分片B
- db.runCommand({removeshard:"shard-1/arete:30100,arete:30101"})
- //刪除分片
- db.runCommand({moveprimary:"test",to:"shard-0-test-rs"});
- //移動主分片
(4)備份分片集群
備份分片時需要停止均衡器
- db.settings.update({_id:"ba;ancer"},{$set:{stopped:true},true});
- sh.setBalancerState(false);
- //停止均衡器,此時均衡器將進(jìn)行最后一輪均衡
- db.locks.find({_id:"balancer"});
- sh.isBalancerRunning();
- //查看均衡器狀態(tài),任何狀態(tài)大于0 的狀態(tài)值都說明均衡器仍在進(jìn)行中
八、部署與管理
1.部署
(1)部署架構(gòu)
使用64位機(jī)器、32位機(jī)器會制約mongodb的內(nèi)存,使其最大值為1.5GB
(2)cpu
mongodb 只有當(dāng)索引和工作集都可放入內(nèi)存時,才會遇到CPU瓶頸,CPU在mongodb使用中的作用是用來檢索數(shù)據(jù),如果看到CPU使用飽和的情況,可以通過查詢慢查詢?nèi)罩荆挪槭遣皇遣樵兊膯栴}導(dǎo)致的,如果是可以通過添加索引來解決問題
mongodb寫入數(shù)據(jù)時會使用到CPU,但是mongodb寫入時間一次只用到一個核,如果有頻繁的寫入行為,可以通過分片來解決這個問題
(3)內(nèi)存
大內(nèi)存是mongodb的保障,如果工作集大小超過內(nèi)存,將會導(dǎo)致性能下降,因?yàn)檫@將會增加數(shù)據(jù)加載入內(nèi)存的動作
(4)硬盤
mongodb默認(rèn)每60s會與磁盤強(qiáng)制同步一次,稱為后臺刷新,會產(chǎn)生I/O操作。在重啟時mongodb會將磁盤里面的數(shù)據(jù)加載至內(nèi)存,高速磁盤將會減少同步的時間
(5)文件系統(tǒng)
使用ext4 和 xfs 文件系統(tǒng)
禁用最后訪問時間
- vim /etc/fstab
(6)文件描述符
linux 默認(rèn)文件描述符是1024,需要大額度的提升這個額度
(7)時鐘
mongodb各個節(jié)點(diǎn)服務(wù)器之間使用ntp服務(wù)器
2.安全
(1)綁定IP
啟動時使用 - -bind_ip 命令
(2)身份驗(yàn)證
啟動時使用 - -auth 命令
- db.addUser("","",true)
- //創(chuàng)建用戶,最后一個參數(shù)指定是否只讀
(3)副本集身份認(rèn)證
使用keyFile,注意keyFile文件的權(quán)限必須是600,不然會啟動不起來
3.數(shù)據(jù)的導(dǎo)入與導(dǎo)出
- mongoimport
- mongoexport
4.服務(wù)器配置
(1)拓?fù)浣Y(jié)構(gòu)
搭建副本集至少需要兩個節(jié)點(diǎn),其中仲裁結(jié)點(diǎn)不需要有自己的服務(wù)器
(2)Journaling日志
寫數(shù)據(jù)時會先寫入日志,而此時的數(shù)據(jù)也不是直接寫入硬盤,而是寫入內(nèi)存
但是Journaling日志會消耗內(nèi)存,所以可以在主庫上面關(guān)閉,在從庫上面啟動
可以單獨(dú)為Journaling日志使用一塊固態(tài)硬盤
在插入時,可以通過驅(qū)動確保Journaling插入后再反饋,但是會非常影響性能。
5.日志
logpath 選項(xiàng)指定日志存儲地址
-vvvvv 選項(xiàng)(v越多,輸出越詳細(xì))
db.runCommand({logrotare:1}) 開啟滾動日志
6.數(shù)據(jù)庫監(jiān)控命令
(1)serverStatus
這里寫圖片描述
- globalLock 表示服務(wù)器花在寫鎖上面的總時間
- mem顯示了如何使用內(nèi)存
- bits 表明這臺機(jī)器的位長
- resident 表示占用物理內(nèi)存數(shù)量
- virtual 表示使用的虛擬內(nèi)存
(2)top
(3)db.currentOp()
7.mongostat
動態(tài)展示mongodb活動數(shù)據(jù)
8.web控制臺
占用當(dāng)前mongodb監(jiān)聽端口往上1000號的端口
9.備份與恢復(fù)
(1)mongodump
把數(shù)據(jù)庫內(nèi)容導(dǎo)出成BSON文件,而mongorestore能讀取并還原這些文件
(2)mongorestore
把導(dǎo)出的BSON文件還原到數(shù)據(jù)庫
(3)備份原始數(shù)據(jù)文件
可以這么做,但是,操作之前需要進(jìn)行鎖庫處理 db.runCommand({fsync:1,lock:true})
db.$cmd.sys.unlock.findOne() 請求解鎖操作,但是數(shù)據(jù)庫不會立刻解鎖,需要使用db.currentOp()驗(yàn)證。
10.壓緊與修復(fù)
(1)修復(fù)
mongd --repair 修復(fù)所有數(shù)據(jù)庫
db.runCommand({repairDatabase:1}) 修復(fù)單個數(shù)據(jù)庫
修復(fù)就是根據(jù)Jourling文件讀取和重寫所有數(shù)據(jù)文件并重建各個索引
(2)壓緊
- db.spreadsheets.reIndex() //重建索引
- db.runCommand({compact:"spreadsheets"})
壓緊,會重寫數(shù)據(jù)文件,并重建集合的全部索引,需要停機(jī)或者在從庫上面運(yùn)行,如果需要在主庫上面運(yùn)行,需要添加force參數(shù) 保證加寫鎖。
11.性能調(diào)優(yōu)
(1)監(jiān)控磁盤狀態(tài)
- iostat
(2)為提升性能檢查索引和查詢
總的來說,掃描盡可能少的文檔。
保證沒有冗余的索引,冗余的索引會占用磁盤空間、消耗更多的內(nèi)存,在每次寫入時還需做更多工作
(3)添加內(nèi)存
- db.stats() //查看數(shù)據(jù)庫數(shù)據(jù)占用大小狀態(tài)
dataSize 數(shù)據(jù)大小 和 indexSize 索引大小,如果兩者的和大于內(nèi)存,那么將會影響性能。