自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Cloud Dataflow比原生的Map-Reduce強在哪兒?

云計算
Google Cloud Dataflow是一種構建、管理和優(yōu)化復雜數(shù)據(jù)處理流水線的方法,集成了許多內(nèi)部技術,如用于數(shù)據(jù)高效并行化處理的Flume和具有良好容錯機制流處理的MillWheel。

Google Cloud Dataflow是一種構建、管理和優(yōu)化復雜數(shù)據(jù)處理流水線的方法,集成了許多內(nèi)部技術,如用于數(shù)據(jù)高效并行化處理的Flume和具有良好容錯機制流處理的MillWheel。Dataflow當前的API還只有Java版本(其實Flume本身是提供Java/C++/Python多種接口的,MillWheel也提供Java/C++的API)。

 

相比原生的map-reduce模型,Dataflow有幾個優(yōu)點:

1.可以構建復雜的pipeline,在這不妨引用Google云平臺的產(chǎn)品營銷總監(jiān)Brian Goldfarb的話:

   Cloud Dataflow可以用于處理批量數(shù)據(jù)和流數(shù)據(jù)兩種。在一個世界性事件(比如演講當中的世界杯事件)中,實時分析上百萬twitter數(shù)據(jù)。在流水線的一 個部階段責讀取tweet,下一個階段負責抽取標簽。另一個階段對tweet分類(基于情感,正面負面或者其他方面)。下一個階段過濾關鍵詞等等。相比之 下,Map/Reduce這個用來處理大數(shù)據(jù)的較早模型,處理這種實時數(shù)據(jù)已經(jīng)力不從心,而且也很難應用到這種很長很復雜的數(shù)據(jù)流水線上。

 

2.不需手工配置和管理MapReduce集群。自動進行代碼優(yōu)化和資源調(diào)度,使得開發(fā)者的主要精力可以放在業(yè)務邏輯本身。

 

3.支持從Batch到Streaming模式的無縫切換:

假設我們要根據(jù)用戶在twitter上產(chǎn)生的內(nèi)容,來實現(xiàn)一個hashtags自動補全的功能:

  1.  Example: Auto completing hashtags 
  2. Prefix Suggestions 
  3. ar #argentina, #arugularocks, #argylesocks 
  4. arg #argentina, #argylesocks, #argonauts 
  5. arge #argentina, #argentum, #argentine 

4.Dashboard:

 

5.生態(tài)系統(tǒng):

BigQuery作為存儲系統(tǒng)是Dataflow的一個補充,經(jīng)過Dataflow清洗和處理過的數(shù)據(jù),可以在 BigQuery中存下來,同時Dataflow也可以讀取BigQuery以進行表連接等操作。如果想在Dataflow上使用一些開源資源(比如說 Spark中的機器學習庫),也是很方便的

 

為了配合Dataflow,Google Cloud Platform還為開發(fā)者提供了一系列工具,包括云保存,云調(diào)試,云追蹤和云監(jiān)控。

比較

1.Cascading/Twitter Scalding:

  1. 傳統(tǒng)Map-reduce只能處理單一的流,而Dataflow可以構建整個pipeline,自動優(yōu)化和調(diào)度,Dataflow乍一聽感覺非常像Hadoop上的Cascading(Java)/Scalding(Scala)。
  2. 它們的編程模型很像,Dataflow也可以很方便做本地測試,可以傳一個模擬集合,在上面去迭代計算結果,這一點是傳統(tǒng)Map-reduce望塵莫及的。

2.Twitter Summingbird:

將批處理和流處理無縫連接的思想又聽起來很像把Scalding和Strom無縫連接起來的twitter summingbird(Scala).

3.Spark:

  1. Spark也有可以構建復雜的pipeline做一代碼優(yōu)化和任務調(diào)度的好處,但目前還需要程序員來配置資源分配。
  2. Spark在設計分布式數(shù)據(jù)集API時,模擬了Scala集合的操作API,使得額外的語法學習成本比Dataflow要低。
  3. 不過Dataflow似乎并沒有提內(nèi)存計算的事兒,而這一點可以說是Spark最本質(zhì)的特征。不過它支持將parSk作為Open Source工具,連入Cloud框架作為補充。
  4. 分布式計算中除了Batch和Streaming,Graph也是一個重要的問題,Spark在這方面有GraphX,Dataflow在未來也會將處理Graph處理(Pregel)這塊整合進去。

原文鏈接:http://www.open-open.com/lib/view/open1420689003765.html

責任編輯:Ophira 來源: open經(jīng)驗庫
相關推薦

2020-06-28 07:49:06

WiFi 6WiFi 5網(wǎng)絡技術

2010-06-03 16:46:23

Hadoop Map-

2022-07-01 06:03:08

WiFi 7WiFi 6

2014-03-18 10:16:58

SVM

2011-12-12 13:09:45

云計算

2015-08-27 13:45:25

2023-09-12 11:38:18

2019-07-23 16:00:36

區(qū)塊鏈存儲5G

2022-02-25 10:03:11

對象數(shù)據(jù)算法

2010-06-23 09:41:17

Amazon Simp

2021-12-01 07:26:12

AIOps企業(yè)

2013-12-04 09:33:15

軟件成本

2014-04-17 10:16:50

2013-05-10 10:58:56

ERP

2020-02-11 17:15:09

開發(fā)者拋棄 Executors

2020-02-13 09:14:16

Executors開發(fā)Java

2017-10-11 11:17:16

SaaS出路中國式

2020-04-21 16:01:13

自動駕駛新基建工信部

2012-10-25 16:40:11

WOT高效數(shù)據(jù)中心數(shù)據(jù)中心

2020-03-25 09:20:21

自然語言處理
點贊
收藏

51CTO技術棧公眾號