自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Spark Streaming精進(jìn)之前必須了解的基本概念

作者：花括號MC 2021-07-09 10:27:12

開發(fā) 架構(gòu) Spark

Spark是一個快速的，多用途的計(jì)算系統(tǒng)。這是來自官網(wǎng)的自我介紹。一般敢自稱系統(tǒng)的都是有兩把刷子的，況且還是多用途的計(jì)算系統(tǒng)。Spark計(jì)算系統(tǒng)包含如下功能組件。

[[410363]]

Spark整體介紹

Spark是一個快速的，多用途的計(jì)算系統(tǒng)。這是來自官網(wǎng)的自我介紹。一般敢自稱系統(tǒng)的都是有兩把刷子的，況且還是多用途的計(jì)算系統(tǒng)。Spark計(jì)算系統(tǒng)包含如下功能組件

Spark Core: Spark的核心功能模塊。

Spark SQL: 用于處理結(jié)構(gòu)化數(shù)據(jù)。

MLlib：用于機(jī)器學(xué)習(xí)。

GraphX：用于圖像處理。

Spark Streaming：用于處理實(shí)時數(shù)據(jù)流。

包含如此多的功能，自稱多功能計(jì)算系統(tǒng)也是可以的。這篇文章幫大家梳理一下學(xué)習(xí)Spark Streaming過程中可能會讓你產(chǎn)生困惑的基本概念。

RDD

Spark Core 是 Spark的核心模塊，這個模塊提供了一個核心概念叫做RDD(resilient distributed dataset)。你可以簡單的把它理解成一個數(shù)據(jù)片段集合，你要處理的源數(shù)據(jù)文件可以分解成很多個RDD。Spark為RDD提供了兩種類型的操作，一種是transformations，一種是 action。

transformations：如果一個RDD經(jīng)過某種操作之后，生成一個新的RDD，那么這個操作就是transaction的。比如，map,flatMap,filter等。 action：對一個RDD進(jìn)行計(jì)算操作，以生成某種結(jié)果，比如reduce，count等操作。

注意：所有的transformations都是Lazy的，也就是說只有碰到action操作的時候才會執(zhí)行前面的transformations操作。

DStream

Spark Streaming 是用來處理流式數(shù)據(jù)的，假設(shè)我們規(guī)定每隔一秒鐘(通過duration設(shè)置)取一次數(shù)據(jù)，那么這段時間內(nèi)積贊的數(shù)據(jù)就稱為一個batch，里面的數(shù)據(jù)就用DStream表示。從編寫代碼的角度來看，你可以把DStream和RDD同等對待，因?yàn)樗麄兊乃阕硬僮鞫际且粯拥?。但是他們的?shù)據(jù)結(jié)構(gòu)還是有著本質(zhì)不同的，我們可以把DStream簡單的理解成是RDD加上了時間戳。如下圖

DAG

Spark 使用DAG 進(jìn)行數(shù)據(jù)建模，DAG 被稱為有向無環(huán)圖，有向無環(huán)圖的定義是這樣的 "在圖論中，如果一個有向圖從任意頂點(diǎn)出發(fā)無法經(jīng)過若干條邊回到該點(diǎn)，則這個圖是一個有向無環(huán)圖(DAG,directed acyclic graph)"，我們通過一個簡單的例子來感受一下，Spark是如何使用DAG建模的。

下面的代碼可以完成一段文本內(nèi)容的各個單詞的數(shù)量統(tǒng)計(jì)。

var textFile = sc.textFile(args[1]); 
var result = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b); 
result.saveAsTextFile(args[2]);

上面這段代碼可以用下面這個圖表示

這就是一個簡單的DAG模型，數(shù)據(jù)按照方向流動，再也回不到原點(diǎn)。Spark Streaming將這個DAG模型，不斷的應(yīng)用到每一個Batch里面的數(shù)據(jù)中。大家可以把DAG模型理解成類，它是數(shù)據(jù)處理的模版，而每個Batch里面的數(shù)據(jù)就是不同的實(shí)例對象。

Job,Stage,Task

Spark應(yīng)用程序啟動之后，我們會利用Spark提供的監(jiān)控頁面來查看程序的運(yùn)行情況。在頁面上會看到Job，Stage，Task等內(nèi)容展示，如果不理解他們代表什么意思，那么Spark好心好意提供的監(jiān)控頁面對我們來說就毫無意義。下面給大家簡單說一下這些概念到底什么意思，以及他們之間的關(guān)系。

先來看個圖

從圖中可以看出，一個Application被分解成多個Job，每個Job又分解成多個Stage，Stage又會分解成多個Task，而Task是任務(wù)運(yùn)行的最小單元，最終會被Executor執(zhí)行。

Application：簡單的說就是我們寫的應(yīng)用代碼，啟動起來之后就是一個Application。

Job：由Spark的action算子觸發(fā)。也就是每遇到一個action算子就會觸發(fā)一個Job任務(wù)，這個時候就會執(zhí)行前面的一系列transformations操作。

Stage：Job任務(wù)會繼續(xù)分解成Stage，Stage是根據(jù)DAG的寬窄依賴來劃分，也就是RDD之間的依賴關(guān)系。從后往前，每遇到一個寬依賴就劃分為一個Stage。

寬依賴(Shuffle/Wide Dependency)：父RDD的分區(qū)和子RDD的分區(qū)是一對多或者多對多的關(guān)系。比如groupByKey,reduceByKey,join等操作

窄依賴(Narrow Dependency)：父RDD的分區(qū)和子RDD的分區(qū)的關(guān)系是一對一或者多對一的關(guān)系,比如map,flatmap,filter等操作。

寬窄依賴的定義可以用如下圖，形象的展示。

拿文章開頭的單詞統(tǒng)計(jì)程序?yàn)槔琒tage劃分情況應(yīng)該是這樣的。

task：Stage包含很多Task，每個Task會執(zhí)行Stage中包含的算子。

以上就是Spark精進(jìn)之路上必須了解的基本概念，希望對各位有幫助。

責(zé)任編輯：武曉燕來源：今日頭條

Spark Streaming 系統(tǒng)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營