自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="jcu1m"></sub>

<cite id="jcu1m"><track id="jcu1m"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Spark與Hadoop兩大技術(shù)趨勢解

作者：佚名 2016-10-25 09:13:21

大數(shù)據(jù) Hadoop Spark

說到大數(shù)據(jù)分析，16年基本被Spark與Hadoop霸屏，到底是什么樣的魔力讓它們足以引起大數(shù)據(jù)世界的波動，未來又會如何發(fā)展呢?

開源數(shù)據(jù)集如今深受開發(fā)者喜愛，比如谷歌的Images dataset數(shù)據(jù)集，YouTube-8M數(shù)據(jù)集等。通過對數(shù)據(jù)集里的數(shù)據(jù)進行分析，可以發(fā)現(xiàn)許多隱藏信息，比如客戶喜好、未知相關(guān)性，市場趨勢以及其他有用的商業(yè)信息。大數(shù)據(jù)分析對企業(yè)降低成本，準(zhǔn)確掌握市場趨勢，更快完成產(chǎn)品迭代十分有用。說到大數(shù)據(jù)分析，16年基本被Spark與Hadoop霸屏，到底是什么樣的魔力讓它們足以引起大數(shù)據(jù)世界的波動，未來又會如何發(fā)展呢?

Apache Spark

Apache Spark起源于加州大學(xué)伯克利分校，對于復(fù)雜分析來說是一個十分不錯的開源處理引擎。Spark提供了一個全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。每一個Spark應(yīng)用程序，都由一個驅(qū)動程序組成，運行用戶的main函數(shù)，并且在一個集群上執(zhí)行各種并行操作。

Spark提供的主要的抽象概念是具備容錯能力的彈性分布式數(shù)據(jù)集，一個覆蓋整個集群的只讀多重數(shù)據(jù)項集。彈性分布式數(shù)據(jù)集(RDD)幫助實現(xiàn)交互式算法，通過多次訪問數(shù)據(jù)集，實現(xiàn)交互式數(shù)據(jù)分析，應(yīng)用延遲可以有不同程度上的減少，機器學(xué)習(xí)系統(tǒng)訓(xùn)練算法的交互性是使用Apache Spark的初始動力。以下是對Apache Spark的分析，看看是哪些特性使Apache Spark如此火熱吧。

1、快速處理

大數(shù)據(jù)的處理速度至關(guān)重要，Apache Spark通過減少磁盤讀寫次數(shù)，降低磁盤I/O，使Hadoop集群上的應(yīng)用程序操作比內(nèi)存中快一百倍，比磁盤快十倍。

2、易用，支持多種語言

Spark允許使用Java，Sacla甚至Python進行快速編寫。開發(fā)人員不僅可以使用熟悉的編程語言也可以運行這些應(yīng)用程序。Spark本身自帶了一個超過80個高階操作符集合。而且還可以用它在shell中以交互式地查詢數(shù)據(jù)。

3、支持復(fù)雜分析

除了Map和Reduce操作之外，Spark還支持SQL查詢，流數(shù)據(jù)，機器學(xué)習(xí)和圖表數(shù)據(jù)處理，此外，用戶可以把所有這些功能都放在一個工作流中使用也可以單獨使用。

4、實時流式處理

Apache Spark支持實時流式處理，它可以在進行數(shù)據(jù)操作的同時使用Spark Streaming。

5、與現(xiàn)有Hadoop及其上的數(shù)據(jù)整合

Spark可以在Hadoop Yarn集群管理器上獨立操作，包括讀取Hadoop上的數(shù)據(jù)。該特性使Spark十分適用于現(xiàn)有純Hadoop應(yīng)用程序的遷移。

6、基于Hadoop的多核服務(wù)器

大部分企業(yè)逐漸從昂貴的大型機和數(shù)據(jù)倉庫平臺向基于Hadoop的多核服務(wù)器轉(zhuǎn)型。Hadoop是一個由java語言編寫而成的開源分布式系統(tǒng)基礎(chǔ)架構(gòu)，其支持分布式環(huán)境中的大型數(shù)據(jù)集的存儲和處理操作。很多公司都將Hadoop作為其大數(shù)據(jù)平臺進行使用。

Hadoop

Hadoop是由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

1、低成本的數(shù)據(jù)存儲

與一體機、商用數(shù)據(jù)倉庫以及QlikView、Yonghong Z-Suite等數(shù)據(jù)集市相比，Hadoop是開源的，項目的軟件成本因此會大大降低。

2、高效

Hadoop可以運行分析算法,因為它被設(shè)計用來處理各種形式的大數(shù)據(jù)。在Hadoop上進行數(shù)據(jù)分析可以使分析更高效，Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù)，并保證各個節(jié)點的動態(tài)平衡，因此處理速度非?？?。

3、批量數(shù)據(jù)處理

Hadoop框架最核心的設(shè)計就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。HDFS是Hadoop的一大創(chuàng)舉，分布式存儲使文件存放在眾多節(jié)點上，只需要一個節(jié)點去記錄文件的元數(shù)據(jù)信息(主要是文件的位置)，訪問文件時先訪問元數(shù)據(jù)節(jié)點，獲取文件所在的位置，然后在獲取文件即可。此外，MapReduce也可以做大數(shù)據(jù)處理，即以價值為導(dǎo)向，對大數(shù)據(jù)加工、挖掘和優(yōu)化等各種處理。其思想就是“分而治之”，將大任務(wù)分成若干小任務(wù)處理。

4、與數(shù)據(jù)倉庫相輔相成

有很多數(shù)據(jù)集被從數(shù)據(jù)倉庫卸到Hadoop平臺上，或者一些新的數(shù)據(jù)會直接到Hadoop中。企業(yè)無非就是希望有一個好的平臺來存儲、處理、分析數(shù)據(jù)，以支持可以被集成在不同級別的不同用例。

5、物聯(lián)網(wǎng)和Hadoop

據(jù)預(yù)測,未來20年物聯(lián)網(wǎng)對全球GDP的貢獻將會增長10到15萬億美元左右。物聯(lián)網(wǎng)的核心是流和大數(shù)據(jù)。Hadoop被用來進行多事務(wù)數(shù)據(jù)存儲，數(shù)據(jù)，統(tǒng)計算法和機器學(xué)習(xí)指出基于歷史數(shù)據(jù)分析得到未來趨勢的可能性。對過去進行分析是了解未來很好的一個途徑，通過預(yù)測分析，未來的物聯(lián)網(wǎng)世界將更加純粹。

未來怎么走?

技術(shù)的變革、更新?lián)Q代，本身是好事，但很多時候，人才的培養(yǎng)跟不上技術(shù)變革的腳步。即便是最先進的學(xué)府可能都還未來得及更換教科書，這時對企業(yè)來說，新技術(shù)帶來的超高性價比就顯得毫無意義了，因為相應(yīng)的人力成本在上升。

有些人很喜歡及時更新知識儲備，認(rèn)為新技術(shù)的出現(xiàn)會取代舊技術(shù)。但各有各的好，新歡不一定敵得過舊愛，要看需求，別跟風(fēng)。不過，越是Spark、Hadoop炒得火熱，理性思考的人就越少，很多人只是浮于表面，這對技術(shù)的發(fā)展十分不利。

責(zé)任編輯：武曉燕來源： it168網(wǎng)站

Spark Hadoop 技術(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營