《一起學(xué)mongodb》之第四卷 索引
前言
索引的重要性在數(shù)據(jù)庫中是不言而喻的,mysql 中使用了 B+ 數(shù)來當(dāng)做索引的數(shù)據(jù)結(jié)構(gòu),為 mysql 性能提升做了很大的貢獻(xiàn),那么在 mongoDB 中又使用了什么數(shù)據(jù)結(jié)構(gòu)呢?今天就和大家聊聊 mongoDB 的索引
- mongoDB 的索引數(shù)據(jù)結(jié)構(gòu)是什么?
- mongoDB 支持哪些索引類型?
- 索引奇淫技巧 ?
- 怎么查看我到有沒有用到索引?
mongo 的索引數(shù)據(jù)結(jié)構(gòu)是什么
網(wǎng)上對 mongoDB 的數(shù)據(jù)結(jié)構(gòu)有很多種說法,有說 B- 樹的,有說 B 樹的,還有說 B+ 樹的
這里先說一個(gè)常識性的誤區(qū),「沒有 B 減樹」,B-tree 其實(shí)就是 B 樹,中間的破折號只是用來連接而已,「只有 B 樹和 B+ 樹」
官方文檔明確說到,在 WiredTiger 存儲引擎當(dāng)中,可以支持 B-Tree 和 LSM 兩種結(jié)構(gòu)組織數(shù)據(jù),「默認(rèn)使用 B+ 樹」的數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中維護(hù)表的數(shù)據(jù),說 B 樹也沒錯(cuò),因?yàn)?B+ 樹就是 B 樹的子集
對于 WiredTiger 存儲引擎來說,集合所在的數(shù)據(jù)文件和相應(yīng)的索引文件都是按 B-Tree 結(jié)構(gòu)來組織的,不同之處在于數(shù)據(jù)文件對應(yīng)的 B 樹葉子結(jié)點(diǎn)上除了存儲鍵名外(keys),還會存儲真正的集合數(shù)據(jù)(values),所以數(shù)據(jù)文件的存儲結(jié)構(gòu)也可以認(rèn)為是一種 B+Tree
mongo 中支持哪些索引類型
單個(gè)索引
簡而言之就是單個(gè)字段的索引,比如
db.children.createIndex({ age : 1 })
就相當(dāng)于給 children 表的 age 字段建立了一個(gè)升序索引 (升序 ( 1) 或降序 ( -1) )
復(fù)合索引
符合索引其實(shí)就是多個(gè)字段自合成一個(gè)索引,比如
db.children.createIndex({ age : 1,height : 1 })
就相當(dāng)于給 children 表 以 age 字段升序 height 字段升序建立了一個(gè)索引
多鍵索引
在MongoDB中可以「基于數(shù)組來創(chuàng)建索引」。MongoDB為數(shù)組每一個(gè)元素創(chuàng)建索引值。多鍵索引支持?jǐn)?shù)組字段的高效查詢,比如
([{ _id: 1, name: "xiaohong", age: "1", ratings: [ 1, 2, 3 ] })
db.children.createIndex( { ratings: 1 } )
但是對于一個(gè)復(fù)合多鍵索引,「每個(gè)索引最多可以包含一個(gè)數(shù)組」。比如以下情況就無法建立索引
([{ _id: 1, name: "xiaohong", age: "1", ratings: [ 1, 2, 3 ],teams:[ 1 , 3 , 4] })
db.children.createIndex( { ratings: 1 ,teams : -1} )
地理空間索引
為了支持對地理空間坐標(biāo)數(shù)據(jù)的高效查詢,MongoDB提供了兩個(gè)特殊的索引:在返回結(jié)果時(shí)使用平面幾何的2d索引和使用球面幾何返回結(jié)果的2dsphere索引。有關(guān)地理空間索引的高級介紹,請參見2d Index Internals。
文本索引
MongoDB提供了一種文本索引類型,它支持搜索集合中的字符串內(nèi)容。這些文本索引不存儲特定于語言的停止詞(例如**“the”,“a”,“or”**),并且在一個(gè)集合中只存儲根詞的詞干。有關(guān)文本索引和搜索的更多信息,請參見文本索引。
Hashed索引
為了支持基于Hashed的分片,MongoDB提供了Hashed索引類型,該索引類型對字段值的Hashed進(jìn)行索引。這些索引在其范圍內(nèi)具有更隨機(jī)的值分布,但只支持相等匹配,而不支持基于范圍的查詢。
索引特性
唯一索引
在創(chuàng)建集合期間,MongoDB 在_id字段上創(chuàng)建唯一索引,這也是默認(rèn)的唯一索引。該索引主要是為了區(qū)分文檔并且不能刪除。創(chuàng)建方式就是加上 unique: true
db.children.createIndex( { age : 1 }, { unique: true } )
部分索引
部分索引僅索引集合中符合指定過濾器表達(dá)式的文檔。
比如 children 表中,將 age 大于 5 數(shù)據(jù)創(chuàng)建一個(gè)升序索引
db.children.createIndex(
{age:1},
{partialFilterExpression: {age: {$gt:5}}})
建立部分索引可以節(jié)省存儲空間,提升索引查詢效率。比如該文檔 2000 年前的數(shù)據(jù)為垃圾數(shù)據(jù),不常用,那就可以根據(jù)時(shí)間大于 2000 年創(chuàng)建索引
稀疏索引
索引的稀疏屬性可確保索引僅包含具有索引字段的文檔的條目。索引會跳過沒有索引字段的文檔。創(chuàng)建方式就是加上 sparse: true
db.children.createIndex( { "age": 1 }, { sparse: true } )
TTL索引
TTL 索引是 MongoDB 可以使用的特殊索引,它可以在一定時(shí)間后自動從集合中刪除文檔。
db.children.createIndex( { "lastModifiedDate": 1 }, { expireAfterSeconds: 5 } )
以上案例就是設(shè)置 5 秒后過去,使用方式只需要創(chuàng)建索引時(shí)加上 expireAfterSeconds: 5
覆蓋索引
所有需要查詢的數(shù)據(jù)都在索引當(dāng)中,不需要從數(shù)據(jù)頁中再去尋找數(shù)據(jù)
比如我此時(shí)為 children 表的時(shí)間創(chuàng)建了一個(gè)索引
db.children.createIndex({ age : 1 })
在此時(shí)我查找年齡為兩歲的孩子時(shí),就不需要從數(shù)據(jù)頁中去尋找數(shù)據(jù)了
db.children.find({ age : 2 })
前綴索引
所有的前綴索引都可以被這條索引所覆蓋,不需要再去針對這些前綴建立額外的索引,避免額外的開銷
比如我此時(shí)為 children 表的時(shí)間創(chuàng)建了「一個(gè)復(fù)合索引(多字段索引)」
db.children.createIndex({ age : 1,name : 1,address : 1})
「那么其實(shí)這條索引等價(jià)于三條索引」,分別是
db.children.createIndex({ age : 1 })
db.children.createIndex({ age : 1,name : 1 })
db.children.createIndex({ age : 1,name : 1,address : 1})
使用索引的奇淫技巧
組合索引的最佳方式 ESR 原則
- 1.精準(zhǔn)匹配(Equal)的放前面
- 2.排序(Sort)的放中間
- 3.范圍匹配(Range)的方最后
比如一條查詢語句
db.largeClass.find({className:"a",age:{$gte:5}}).sort(time:1)
最好的索引建立就應(yīng)該是 {className:1,time:1,age:1}
E 放在最前面大家應(yīng)該都能理解,用等值匹配去過濾掉大量數(shù)據(jù),「那為什么是 ESR 不是 ERS 呢?」
原因就是因?yàn)槿绻秶ヅ浞旁谥虚g,那么后續(xù)我們排序的時(shí)候只能進(jìn)行「內(nèi)存排序」,而內(nèi)存排序又是很消耗資源的,數(shù)據(jù)量大時(shí)可能會「面對著多次的磁盤讀取刷內(nèi)存操作」,非常的消耗時(shí)間
合理使用部分索引
對于有些比較大的文檔,可能很多數(shù)據(jù)都是無用的,比如文檔中有三年的數(shù)據(jù),但是業(yè)務(wù)只需要最近一年的數(shù)據(jù),那么就可以只根據(jù)時(shí)間對最近一年的數(shù)據(jù)建立索引
后臺創(chuàng)建索引
記得在創(chuàng)建索引時(shí)加上 {background: true},在后臺創(chuàng)建索引,防止影響 mongoDB 的正常工作,讓其自動調(diào)配創(chuàng)建時(shí)間
怎么查看我到有沒有用到索引?
在 mongoDB 中提供了 「explain 執(zhí)行計(jì)劃」,可以清晰的看到你當(dāng)前的查詢語句時(shí)候有使用到索引,使用方式也很簡單,只要在查詢語句右面加上 .explain 就可以了,有幾個(gè)「比較重要的屬性」在這里說下
「executionTimeMillis」:指的是我們這條語句的執(zhí)行時(shí)間
「docsExamined」:文檔掃描數(shù)
「totalDocsExamined」:文檔掃描條目
「totalKeysExamined」:索引掃描條目
「stage」:掃描類型,主要有
COLLSCAN:全表掃描
IXSCAN:索引掃描
FETCH:根據(jù)索引去檢索指定document
SHARD_MERGE:將各個(gè)分片返回?cái)?shù)據(jù)進(jìn)行merge
SORT:表明在內(nèi)存中進(jìn)行了排序
LIMIT:使用limit限制返回?cái)?shù)
SKIP:使用skip進(jìn)行跳過
IDHACK:針對_id進(jìn)行查詢
SHARDING_FILTER:通過mongos對分片數(shù)據(jù)進(jìn)行查詢
COUNT:利用db.coll.explain().count()之類進(jìn)行count運(yùn)算
COUNTSCAN:count不使用Index進(jìn)行count時(shí)的stage返回
COUNT_SCAN:count使用了Index進(jìn)行count時(shí)的stage返回
SUBPLA:未使用到索引的$or查詢的stage返回
TEXT:使用全文索引進(jìn)行查詢時(shí)候的stage返回
PROJECTION:限定返回字段時(shí)候stage的返回
所以當(dāng) 「stage 為 IXSCAN」 的時(shí)候就是使用到了索引掃描