MongoDB迎來原生數(shù)據(jù)分析功能
譯文【51CTO經(jīng)典譯文】為了讓大家更輕松地將分析機(jī)制引入自己的大數(shù)據(jù)存儲體系當(dāng)中,Pentaho公司今天公布了其業(yè)務(wù)分析與數(shù)據(jù)集成平臺的最新版本已經(jīng)正式進(jìn)入通用階段。
Pentaho 5.1版本的設(shè)計目的在于為“數(shù)據(jù)與分析兩個獨(dú)立領(lǐng)域”架起一道往來的橋梁,從而為全部Pentaho用戶——從開發(fā)人員到數(shù)據(jù)科學(xué)家再到商務(wù)分析師——提供支持。Pentaho 5.1為直接為MongoDB數(shù)據(jù)存儲體系帶來了運(yùn)行無需使用代碼的分析機(jī)制,并利用新的數(shù)據(jù)科學(xué)工具包作為相關(guān)專業(yè)人士的“個人助手”。除此之外,新版本還能夠全面支持用于進(jìn)行資源管理的Apache Hadoop 2.0 YARN架構(gòu)。
“Pentaho 5.1當(dāng)中的新能力可以支持我們下一步的戰(zhàn)略規(guī)劃,包括難度最高的大數(shù)據(jù)分析速度提升、簡化以及訪問性改進(jìn)等等,”Pentaho公司執(zhí)行副總裁兼首席產(chǎn)品官Christopher Dziekan指出。“隨著5.1版本的發(fā)布,Pentaho得以進(jìn)一步實(shí)現(xiàn)大規(guī)模響應(yīng)分析功能,這不僅能夠滿足以數(shù)據(jù)驅(qū)動為目標(biāo)的大型企業(yè)的實(shí)際需求、同時也能為中小型企業(yè)以及新興廠商帶來能夠與傳統(tǒng)巨頭進(jìn)行競爭的公平環(huán)境——即使沒有專業(yè)開發(fā)團(tuán)隊(duì),大家也完全可以在大數(shù)據(jù)舞臺上一試身手。”
Pentaho平臺的前續(xù)版本已經(jīng)允許使用者將其與MongoDB相集成,將后者作為數(shù)據(jù)源并針對MongoDB數(shù)據(jù)提供報告。現(xiàn)在Pentaho新版本則更進(jìn)一步,直接為MongoDB中的數(shù)據(jù)帶來原生分析機(jī)制,而且無需涉及電子傳輸層處理或者進(jìn)行編碼操作。MongoDB數(shù)據(jù)集能夠在源頭處直接交付分析,從而降低了獲取結(jié)論的時間消耗以及對用戶專業(yè)技能的要求。
Dziekan指出,醫(yī)療成本解決方案供應(yīng)商MultiPlan公司目前已經(jīng)擁有約90萬家醫(yī)療供應(yīng)商作為其合作伙伴,每年需要處理的事務(wù)超過4000萬項(xiàng)。Dziekan指出,MultiPlan公司從自己的門戶網(wǎng)站中獲取JSON源文件并將其保存在MongoDB當(dāng)中。他們使用的正是Pentaho Analyzer插件,這是一套拖拽操作式OLAP查看工具,以MongoDB為基礎(chǔ)、旨在將數(shù)據(jù)進(jìn)行拆分細(xì)化并創(chuàng)建起相關(guān)儀表板與報告。
“傳統(tǒng)RDBMS(即關(guān)系型數(shù)據(jù)庫管理系統(tǒng))分析機(jī)制往往非常復(fù)雜,而且在處理半或者非結(jié)構(gòu)化數(shù)據(jù)時顯得詭異而笨拙,”MultiPlan公司首席軟件架構(gòu)工程師Chris Palm表示。“Pentaho 5.1平臺能夠滿足這類市場需求,允許用戶直接在MongoDB內(nèi)部實(shí)現(xiàn)數(shù)據(jù)分析工作。我們已經(jīng)見識到了新版本帶來的更為準(zhǔn)確的分析結(jié)果,而且這一切不再受到無法處理全部數(shù)據(jù)的嚴(yán)重局限。我們現(xiàn)在可以將更為完整的數(shù)據(jù)集納入分析范疇,從而讓我們的記錄系統(tǒng)獲得更加全面的分析結(jié)論。”
Pentaho公司還在Pentaho 5.1當(dāng)中納入了新的數(shù)據(jù)科學(xué)工具包,從而讓使用者更輕松地完成數(shù)據(jù)分析任務(wù),并幫助數(shù)據(jù)科學(xué)家快速建立起360度全方位客戶視角與數(shù)據(jù)源混合機(jī)制,其中包括社交網(wǎng)絡(luò)與MongoDB。這套工具包為Pentaho數(shù)據(jù)集成(簡稱PDI)功能新增了R腳本執(zhí)行器,允許用戶將R腳本作為PDI轉(zhuǎn)換流程的組成部分,從而大大簡化了數(shù)據(jù)準(zhǔn)備所面臨的負(fù)擔(dān)。工具包還引入了Weka評分工具,允許用戶在其中使用分類、聚類以及回歸模型。除此之外,它還加入了Weka預(yù)測,幫助用戶利用預(yù)測模型在Weka中創(chuàng)建出時間序列分析以及預(yù)測環(huán)境。
“數(shù)據(jù)科學(xué)家相當(dāng)于獲得了自己的個人助手,”Dziekan表示。“這套數(shù)據(jù)科學(xué)工具包當(dāng)中提供大量可直接使用而且為數(shù)據(jù)科學(xué)家們所熟悉的工具,我們現(xiàn)在已經(jīng)能夠操作它們?yōu)樽约悍?wù)。”
Pentaho 5.1平臺還加入了完整的YARN集成能力,從而讓開發(fā)人員更輕松地利用Pentaho數(shù)據(jù)集成功能充分發(fā)揮Hadoop的強(qiáng)大計算能力,同時無需編寫復(fù)雜的MapReduce代碼。Dziekan表示,YARN支持能力的加入讓PDI作業(yè)能夠以彈性方式使用Hadoop資源,根據(jù)數(shù)據(jù)規(guī)模與處理要求的變化自由進(jìn)行擴(kuò)展與收縮。他同時指出,對YARN高級資源管理功能的支持能夠?qū)⒍喾N工作負(fù)載場景加以融合,從而帶來用戶渴望已久的持續(xù)性數(shù)據(jù)轉(zhuǎn)換與分析機(jī)制。
原文鏈接:
http://www.cio.com/article/2375115/business-intelligence/native-data-analysis-comes-to-mongodb.html
原文標(biāo)題:Native Data Analysis Comes to MongoDB