MongoDB出新招,增加對(duì)Hive的支持
MongoDB的所有者10gen宣布其Hadoop連接器將會(huì)在本周二進(jìn)行更新升級(jí)。新版本中將包括一些非常重要的新功能并且加入了對(duì)Hive(類似SQL框架和Hadoop的查詢語(yǔ)言)的支持,它能夠把本地MongoDB文件存儲(chǔ)到Hadoop上,還能在MongoDB的同一的數(shù)據(jù)集合中運(yùn)行增量的MapReduce作業(yè)。
公司的產(chǎn)品營(yíng)銷總監(jiān)Kelly Stirman表示,MongoDB的Hadoop連接器已經(jīng)上市了一段時(shí)間,而且被許多企業(yè)機(jī)構(gòu)廣泛的運(yùn)用。不過(guò)周二的更新將會(huì)是MongoDB自2012年4月發(fā)布以來(lái)最為重要的一次升級(jí)。
也許大多數(shù)人并沒(méi)有注意到,MongoDB和Hadoop在過(guò)去的幾年已經(jīng)變得非常的流行。Stirman表示,由于支持JSON類型文件,在很多Web和手機(jī)應(yīng)用中,MongoDB都是被作為操作數(shù)據(jù)庫(kù),而Hadoop也是被很多公司選作大數(shù)據(jù)處理和分析平臺(tái)。特別是在大型網(wǎng)絡(luò)公司和世界500強(qiáng)企業(yè),通常都并排部署了MongoDB和Hadoop。
MongoDB連接器現(xiàn)在已經(jīng)非常的流行,因?yàn)樗试S用戶可以在數(shù)據(jù)庫(kù)中預(yù)先處理MongoDB數(shù)據(jù),而無(wú)需把數(shù)據(jù)發(fā)送到Hadoop中處理。在現(xiàn)有支持MapReduce 和Pig的基礎(chǔ)上增加對(duì)Hive的支持,由于Hive中類似SQL的特性,使用MongoDB連接器來(lái)連接Hadoop數(shù)據(jù),已經(jīng)被很多企業(yè)廣泛使用。
在Hadoop分布式文件系統(tǒng)上支持MongoDB本地BSON文件意味著用戶可以備份他們的數(shù)據(jù)庫(kù)資料到Hadoop中,同時(shí)用戶也可以處理這些數(shù)據(jù)資料,這樣就避免了在MongoDB集群上添加撤銷負(fù)載。
Stirman把在MongoDB集合上運(yùn)行增量MapReduce作業(yè)的能力稱為近似 “濃縮進(jìn)程”。 用戶以前只能在數(shù)據(jù)庫(kù)中一個(gè)新的集合上才可以運(yùn)行MapReduce作業(yè),但是MongoUpdateWriteable這種新的技術(shù)特性可以讓用戶在現(xiàn)有的集合上運(yùn)行MapReduce作業(yè)。
數(shù)據(jù)庫(kù)行業(yè)觀察人士可能會(huì)質(zhì)疑MongoDB的新特性,它是不是僅僅會(huì)改善MongoDB-Hadoop開(kāi)發(fā)環(huán)境的現(xiàn)有功能,或者它是否能以某種方式來(lái)影響市場(chǎng)份額,這似乎是Stirman未來(lái)需要考慮的問(wèn)題,至少目前已經(jīng)考慮到那些使用Hadoop的公司了。Stirman指出10gen在營(yíng)銷上可能會(huì)遇到像Cassandra和HBase這樣有競(jìng)爭(zhēng)力的對(duì)手,不過(guò)目前而言, “從本質(zhì)上來(lái)說(shuō),這三者(Cassandra、HBase以及MongoDB)相對(duì)于Hadoop,都是對(duì)等的。”
對(duì)等?也許吧——至少在某種程度上用戶還是愿意擴(kuò)展Hadoopde 的規(guī)模來(lái)彌補(bǔ)數(shù)據(jù)庫(kù)擴(kuò)展性的欠缺。當(dāng)然,也有很多用戶選擇其他的NoSQL數(shù)據(jù)庫(kù)產(chǎn)品而非MongoDB,這是源于所選的應(yīng)用程序不同。