信息時代 大數(shù)據(jù)有用開源工具
這是個信息“泛濫”的時代,大數(shù)據(jù)量司空見慣,企業(yè)處理大數(shù)據(jù)的需求也越來越大。本文梳理一下“大數(shù)據(jù)”的解決方案。
首先,關(guān)系型數(shù)據(jù)庫和桌面分析或者虛擬化包不能處理大數(shù)據(jù),相反,運行在數(shù)千臺服務(wù)器上的大量并行軟件需要做這個工作。許多機構(gòu)轉(zhuǎn)向開源工具,比如Apache的 Hadoop來處理大數(shù)據(jù)。比如Twitter發(fā)送登陸信息到Hadoop,并直接寫入HDFS,Hadoop文件系統(tǒng)。
Hadoop支持?jǐn)?shù)據(jù)密集的應(yīng)用部署在數(shù)千節(jié)點和數(shù)個PB, David Hill, Mesabi Group 主席表示。但是,大數(shù)據(jù)在針對不同類型的應(yīng)用時,確不能一概而論。比如Hadoop并不一定適合所有的案例,Hill警告說。
大數(shù)據(jù)的捕捉、存儲、分析,依靠特殊的應(yīng)用的特性,Hill強調(diào)。舉例scale-out網(wǎng)絡(luò)連接的存儲EMC Isilon或IBM的SONAS,可能對于使用非結(jié)構(gòu)化的數(shù)據(jù)比如圖片、視頻,會更好。
大數(shù)據(jù)處理的類型
大數(shù)據(jù)的處理,可以歸為3個基本類型,Revolution Analytics的執(zhí)行副總Mike Minelli表示,信息管理、商業(yè)智能,以及智能分析。信息管理捕捉和存儲信息,BI分析數(shù)據(jù),看過去發(fā)生的情況,智能分析則是對于數(shù)據(jù)的預(yù)測。Minelli說。
Revolution analytics提供開源R語言和 Revolution R Enterprise,提供TB量級數(shù)據(jù)的高級分析。Revolution Analytics正在開發(fā)Hadoop連接器和R語言在Google的Map/Reduce框架上的能力。
處理大數(shù)據(jù)的工具
提供了處理大數(shù)據(jù)分析能力的專有軟件包括 AsterData;IBM的專有軟件Netezza ; Datameer, 建立在Apache的Hadoop上的專有軟件,以及Paraccel。IBM的Netezza,在它的InfoSphere產(chǎn)品中。Oracle 的Exadata,,以及EMC的Greenplum也是處理大數(shù)據(jù)量的專有工具。
EMC引入了Greenplum數(shù)據(jù)庫的免費社區(qū)版本,該社區(qū)版本只是軟件。Greenplum社區(qū)報表包括3個協(xié)作模塊Greenplum DB, MADlib, 和Alpine Miner。處理大數(shù)據(jù)量的開源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了報告、分析、ETLETL (解壓、轉(zhuǎn)換、加載) ,針對大量的并行分析數(shù)據(jù)庫,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告,通過Hadoop和各種類型的NoSQL數(shù)據(jù)庫包括MongoDB, Riak, CouchDB and Infinispan的開源連接。
開源工具VS專有工具
開源工具可以查看代碼,這樣開發(fā)者可以找到他們整合時里面是什么。在幾乎所有的案例中,開源分析都更具性價比和靈活性。Revolution Analytics的Minelli表示。
數(shù)據(jù)量在持續(xù)的增長,公司將被迫增加基礎(chǔ)設(shè)施的部署。專利費用將一直增加,而開源技術(shù),則省了這筆一直持續(xù)的專利費。Twitter選擇Hadoop,其中重要的原因是專有工具的費用太高。
更長遠的來看,開源工具使企業(yè)創(chuàng)建新的分析技術(shù),更好的處理非結(jié)構(gòu)化的語言,比如圖片等。而不能寄托于傳統(tǒng)廠商發(fā)展新的分析技術(shù)。開源工具給了企業(yè)創(chuàng)新的機會。
另外一個領(lǐng)域就是開源與專有工具的混合使用。
短期來講,開源分析將越來越廣泛的使用,并且增長迅速。長期來看,混合技術(shù)的應(yīng)用將在高度競爭的市場上出現(xiàn),兩者將同樣有巨大的需求。
【編輯推薦】