數(shù)據(jù)開源工具:Hadoop為企業(yè)帶來什么?
熟悉大數(shù)據(jù)的人一定不會對大名鼎鼎的Hadoop工具陌生,Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。這核心的兩點(diǎn)為其成為數(shù)據(jù)挖掘平臺打下基礎(chǔ)。
Hadoop為企業(yè)帶來什么?
隨著主存儲器成本的不斷下降,和過去相比,公司可以將更多的數(shù)據(jù)存到存儲器中。并且,將多臺計(jì)算機(jī)連到服務(wù)器集群也變得更容易了。大數(shù)據(jù)時(shí)代的來臨,讓數(shù)據(jù)挖掘也變得越來越重要。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。
大數(shù)據(jù)時(shí)代
#p#
而對于企業(yè)來說,要想讓大數(shù)據(jù)變?yōu)橹悄軘?shù)據(jù),首先要將這個“龐然大物”抽絲剝繭,也即數(shù)據(jù)挖掘。在這方面Hadoop平臺真是強(qiáng)項(xiàng),這也是眾多企業(yè)在大數(shù)據(jù)領(lǐng)域使用Hadoop的原因。之所以選擇Hadoop,是因?yàn)樗o企業(yè)帶來了價(jià)值。具體來講,又有哪些方面呢?
***,Hadoop具有成熟的生態(tài)圈
成熟的生態(tài)圈代表的未來的發(fā)展方向,代表著美好的市場前景,成熟的方案和系統(tǒng)可以讓公司或者企業(yè)節(jié)省大量探索的時(shí)間與經(jīng)歷。
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應(yīng)用程序分解為許多并行計(jì)算指令,跨大量的計(jì)算節(jié)點(diǎn)運(yùn)行非常巨大的數(shù)據(jù)集。使用該框架的一個典型例子就是在網(wǎng)絡(luò)數(shù)據(jù)上運(yùn)行的搜索算法。Hadoop最初只與網(wǎng)頁索引有關(guān),如今它已經(jīng)迅速發(fā)展成為分析大數(shù)據(jù)的領(lǐng)先平臺。
第二,成本低
企業(yè)項(xiàng)目投資一直需要考慮投入和產(chǎn)出的問題:有效控制成本,可以從另一個方面擴(kuò)大收益。
在軟件層面,與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會大大降低。
在硬件層面,Hadoop是架構(gòu)在廉價(jià)的硬件服務(wù)器上,不需要非常昂貴的硬件做支撐,隨之而來,其維護(hù)的成本也會降低。
第三,高效性
國內(nèi)外的企業(yè)都在收集大量的數(shù)據(jù)資料,當(dāng)數(shù)據(jù)量達(dá)到一個量級之后,其處理會變得十分困難,這真是數(shù)據(jù)挖掘的用武之地。Hadoop正是為了解決了這樣的問題而誕生的。其底層的分布式文件系統(tǒng)具有高拓展性,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提交計(jì)算效率,同時(shí)可以存儲各種格式的數(shù)據(jù)。
另外,Hadoop還支持多種計(jì)算框架,既可以進(jìn)行離線計(jì)算也可以進(jìn)行在線實(shí)時(shí)計(jì)算。
第四,低風(fēng)險(xiǎn)
Hadoop可以迅速監(jiān)測異常風(fēng)險(xiǎn),并在數(shù)據(jù)層放置自動化解決方案,可以***程度地預(yù)防和避免風(fēng)險(xiǎn)事件的發(fā)生。
另外,Hadoop有著比較高的容錯率,Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。