MongoDB中強大的聚合工具

作者：refactor 2012-08-06 15:59:17

MongoDB除了基本的查詢功能,還提供了很多強大的聚合工具,其中簡單的可計算集合中的文檔個數(shù),復(fù)雜的可利用MapReduce做復(fù)雜數(shù)據(jù)分析。

1.count

count返回集合中的文檔數(shù)量

db.refactor.count()

不管集合有多大,都能很快的返回文檔數(shù)量.

可以傳遞查詢,MongoDB會計算查詢結(jié)果的數(shù)量

db.refactor.count({"username":"refactor"})

但是增加查詢條件會使count變慢.

2.distinct

distinct用來找出給定鍵的所有不同值.使用時必須指定集合和鍵.

如:

db.runCommand({"distinct":"refactor","key":"username"})

3.group

group先選定分組所依據(jù)的鍵,MongoDB將會將集合依據(jù)選定鍵值的不同分成若干組.然后可以通過聚合每一組內(nèi)的文檔,

產(chǎn)生一個結(jié)果文檔.

如：

db.runCommand( 
{ 
"group": 
{ 
"ns":"refactor", 
"key":{"username":true}, 
"initial":{"count":0}, 
"$reduce":function(doc,prev) 
{ 
prev.count++; 
}, 
"condition":{"age":{"$gt":40}} 
} 
} 
)

"ns":"refactor",

指定要進(jìn)行分組的集合
"key":{"username":true},

指定文檔分組的依據(jù),這里是username鍵,所有username鍵的值相等的被劃分到一組,true為返回鍵username的值
"initial":{"count":0},

每一組reduce函數(shù)調(diào)用的初始個數(shù).每一組的所有成員都會使用這個累加器.
"$reduce":function(doc,prev){...}

每個文檔都對應(yīng)的調(diào)用一次.系統(tǒng)會傳遞兩個參數(shù):當(dāng)前文檔和累加器文檔.

"condition":{"age":{"$gt":40}}

這個age的值大于40的條件

4.使用完成器

完成器用于精簡從數(shù)據(jù)庫傳到用戶的數(shù)據(jù).group命令的輸出一定要能放在單個數(shù)據(jù)庫相應(yīng)中.

"finalize"附帶一個函數(shù),在數(shù)組結(jié)果傳遞到客戶端之前被調(diào)用一次.

db.runCommand( 
{ 
"group": 
{ 
"ns":"refactor", 
"key":{"username":true}, 
"initial":{"count":0}, 
"$reduce":function(doc,prev) 
{ 
prev.count++; 
}, 
"finalize":function(doc) 
{ 
doc.num=doc.count; 
delete doc.count; 
} 
} 
} 
)

finalize能修改傳遞的參數(shù)也能返回新值.

5.將數(shù)組作為鍵使用

有些時候分組所依據(jù)的條件很復(fù)雜,不僅是一個鍵.比如要使用group計算每個類別有多篇博客文章.由于有很多作者,

給文章分類時可能不規(guī)律的使用了大小寫.所以,如果要是按類別名來分組,***"MongoDB"和"mongodb"就是不同的組.

為了消除這種大小寫的影響,就要定義一個函數(shù)來確定文檔所依據(jù)的鍵.

定義分組要用到$keyf

db.runCommand( 
 { 
  "group": 
   { 
    "ns":"refactor", 
    "$keyf":function(doc){return {"username":doc.username.toLowerCase()}}, 
    "initial":{"count":0}, 
    "$reduce":function(doc,prev) 
       { 
        prev.count++; 
       } 
   } 
 } 
)

6.MapReduce

count,distinct,group能做的事情MapReduce都能做.它是一個可以輕松并行化到多個服務(wù)器的聚合方法.它會

拆分問題,再將各個部分發(fā)送到不同機器上,讓每臺機器完成一部分.當(dāng)所有機器都完成時候,再把結(jié)果匯集起來形成

最終完整的結(jié)果.

MapReduce需要幾個步驟:

1.映射,將操作映射到集合中的每個文檔.這個操作要么什么都不做,要么產(chǎn)生一個鍵和n個值.

2.洗牌,按照鍵分組,并將產(chǎn)生的鍵值組成列表放到對應(yīng)鍵中.

3.化簡,把列表中的值化簡成一個單值,這個值被返回.

4.重新洗牌,直到每個鍵的列表只有一個值為止,這個值就是最終結(jié)果.

MapReduce的速度比group慢,group也很慢.在應(yīng)用程序中,***不要用MapReduce,可以在后臺運行MapReduce

創(chuàng)建一個保存結(jié)果的集合,可以對這個集合進(jìn)行實時查詢.

找出集合中的所有鍵

MongoDB沒有模式,所以并不知曉每個文檔有多少個鍵.通常找到集合的所有鍵的做好方式是用MapReduce.

在映射階段,想得到文檔中的每個鍵.map函數(shù)使用emit 返回要處理的值.emit會給MapReduce一個鍵和一個值.

這里用emit將文檔某個鍵的記數(shù)(count)返回({count:1}).我們?yōu)槊總€鍵單獨記數(shù),所以為文檔中的每一個鍵調(diào)用一次emit,

this是當(dāng)前文檔的引用:

map=function(){ 
for(var key in this) 
{ 
emit(key,{count:1}) 
} 
};

這樣返回了許許多多的{count:1}文檔,每一個都與集合中的一個鍵相關(guān).這種有一個或多個{count:1}文檔組成的數(shù)組,

會傳遞給reduce函數(shù).reduce函數(shù)有兩個參數(shù),一個是key,也就是emit返回的***個值,另一個參數(shù)是數(shù)組,由一個或者多個

對應(yīng)鍵的{count:1}文檔組成.

reduce=function(key,emits){ 
total=0; 
for(var i in emits){ 
total+=emits[i].count;  
} 
return {count:total}; 
}

reduce要能被反復(fù)被調(diào)用,不論是映射環(huán)節(jié)還是前一個化簡環(huán)節(jié).reduce返回的文檔必須能作為reduce的

第二個參數(shù)的一個元素.如x鍵映射到了3個文檔{"count":1,id:1},{"count":1,id:2},{"count":1,id:3}

其中id鍵用于區(qū)別.MongoDB可能這樣調(diào)用reduce:

>r1=reduce("x",[{"count":1,id:1},{"count":1,id:2}]) 
{count:2} 
>r2=reduce("x",[{"count":1,id:3}]) 
{count:1} 
>reduce("x",[r1,r2]) 
{count:3}

reduce應(yīng)該能處理emit文檔和其他reduce結(jié)果的各種集合.

如:

mr=db.runCommand( 
{ 
"mapreduce":"refactor", 
"map":map, 
"reduce":reduce, 
"out":{inline:1} 
} 
)

或:

db.refactor.mapReduce(map,reduce,{out:{inline:1}})

"timeMillis" : 5,//操作花費的時間
"counts" : {
"input" : 10,//發(fā)往到map函數(shù)的文檔個數(shù)
"emit" : 40,//在map函數(shù)中emit被調(diào)用的次數(shù)
"reduce" : 4,//在map函數(shù)中reduce被調(diào)用的次數(shù)
"output" : 4//結(jié)果集合中創(chuàng)建的文檔數(shù)量.
},

1.mapreduce是根據(jù)map函數(shù)里調(diào)用的emit函數(shù)的***個參數(shù)來進(jìn)行分組的

2.僅當(dāng)根據(jù)分組鍵分組后一個鍵匹配多個文檔，才會將key和文檔集合交由reduce函數(shù)處理

注意MongoDB 1.8版本以上,必須指明 out 參數(shù)

否則會報如下錯誤:

"assertion" : "'out' has to be a string or an object",
"assertionCode" : 13606,

MapReduce中的其他鍵

mapreduce,map,reduce這三個鍵是必須的,MapReduce命令還有其他的可選鍵

finalize:函數(shù)

將reduce的結(jié)果發(fā)送給這個鍵,這是處理過程的***一步

keeptemp:布爾值

連接關(guān)閉時,臨時結(jié)果是否保存

output:字符串

結(jié)果集合的名字,設(shè)定該項則隱含著keeptemp:true

query:文檔

會在發(fā)往map函數(shù)前,先用指定條件過濾文檔

sort:文檔

會在發(fā)往map函數(shù)前先給文檔排序

limit:整數(shù)

發(fā)往map函數(shù)文檔的***數(shù)量

scope:文檔

javascript代碼中要用到的變量

verbose:布爾值

是否產(chǎn)生更加信息的服務(wù)器日志

原文鏈接：http://www.cnblogs.com/refactor/archive/2012/08/06/2592734.html

【編輯推薦】

MongoDB 2.0 正式版發(fā)布
MongoDB 2.0新功能逐個看之Compact Command
主流NoSQL數(shù)據(jù)庫全方位評測之MongoDB
教你如何利用MySQL學(xué)習(xí)MongoDB
在Windows環(huán)境下MongoDB搭建和簡單操作

責(zé)任編輯：彭凡來源：博客園

MongoDB

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MongoDB中強大的聚合工具