自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里為什么要拿下Flink?

新聞 大數(shù)據(jù)
據(jù)歐洲外媒 Deutsche Startups 報道,阿里巴巴集團以 1.033 億美元(9000 萬歐元)的價格收購了總部位于柏林的初創(chuàng)公司 Data Artisans。此消息之后得到了多家媒體從阿里處的證實。

  如果這不是因為阿里新年消費的大單,更多人知道 Flink 或許還會晚一點。據(jù)歐洲外媒 Deutsche Startups 報道,阿里巴巴集團以 1.033 億美元(9000 萬歐元)的價格收購了總部位于柏林的初創(chuàng)公司 Data Artisans。此消息之后得到了多家媒體從阿里處的證實。

  由于 Data Artisans 擁有著一種代表當今大數(shù)據(jù)流處理引擎的前沿技術,讓阿里這一收購舉動引起了相關業(yè)界不小的反響。尤其是,在阿里集團剛剛進行一次大規(guī)模組織架構調整后,需要依靠更加智能化的云計算技術融合到阿里系更為多元化的發(fā)展格局中,收購 Data Artisans 不失為面向新戰(zhàn)略的一次有力布局。

[[255422]]

  阿里的 Flink 血液

  不熟悉的 Data Artisans 的讀者,會很容易錯過那些因標題為“阿里巴巴收購德國數(shù)據(jù)公司”這種平淡表述下的很多信息。即使那約 1 億美元的收購額表述,在有著近 4000 多億美元體量的的阿里賣賣賣的歷程中,對比之前收購餓了么的 95 億美元、36.7 億美元拿下優(yōu)酷土豆等等,也實在是難入法眼。

  但其實,Data Artisans 手里握著一項當今大數(shù)據(jù)流處理引擎為數(shù)不多的前沿技術,叫做 Flink。Flink 核心是一個流式的數(shù)據(jù)流執(zhí)行引擎,其針對數(shù)據(jù)流的分布式計算提供了數(shù)據(jù)分布、數(shù)據(jù)通信以及容錯機制等功能。企業(yè)依托 Flink 技術體系建立的大數(shù)據(jù)流處理引擎解決方案,可以更合理更快速地獲得計算結果投入到企業(yè)決策。Data Artisans 在 2015 年初將 Flink 貢獻給 Apache 社區(qū)并成為該社區(qū)的項目,Data Artisans 此后持有多個并行流的 data Artisans Platform 成為 Flink 的商業(yè)版本。

  據(jù) Data Artisans 官網(wǎng)介紹,其 dA 平臺由 Apache Flink 和 dA Application Manager 組成,“包括與容器編排、持續(xù)集成/持續(xù)交付(CI/CD)、日志記錄、度量指標和狀態(tài)存儲整合的隨時可用的功能,為公司客戶提供了單一視圖,以便了解所有的數(shù)據(jù)流處理應用。”其客戶包括阿里巴巴、荷蘭國際集團(ING)、Netflix、優(yōu)步、Lyft、、eBay、yelp、華為和 Capital One 等。

  在 Data Artisans 的客戶名單里我們輕而易舉的發(fā)現(xiàn)了阿里,其中他每年雙十一時讓我們在阿里總部盯著的那個大屏幕上顯示實時成交數(shù)字,其背后就是依賴 Flink 技術。那塊屏幕顯示的數(shù)字,需要通過巨大的網(wǎng)絡流量匯總各個地方的報表、數(shù)據(jù)庫等的數(shù)據(jù),并需要在毫秒級別的時間延遲之內進行計算,并將計算結果匯總為單一的視圖,即我們可以通過一塊屏幕觀察到的結果,這樣的技術實現(xiàn)正是大數(shù)據(jù)流處理引擎技術在當今成為 AI 時代頂梁柱的核心原因。

  如果說 Flink 建立的技術體系對 AI 時代是強需求,對阿里就是核心需求。為此,阿里在 Flink 引入內部團隊后打造了 Blink。據(jù)透露,目前阿里巴巴所有的業(yè)務,包括阿里巴巴所有子公司都采用了基于 Flink 搭建的實時計算平臺。另外,阿里巴巴集團副總裁周靖人之前宣布,阿里巴巴內部 Flink 版本 Blink 將于 2019 年 1 月正式開源,這就意味著阿里未來將會主要以 Blink 的身份來投入 Flink 的社區(qū)貢獻了。

[[255423]]

阿里巴巴集團副總裁周靖人

  可以說,一路下來,對 Flink 的投入,阿里已經證明了自己在大數(shù)據(jù)計算領域的戰(zhàn)略眼光。

  首先,阿里較早地看到了業(yè)務發(fā)展需要在大數(shù)據(jù)時代里需求解決方案。有著十年服務中國企業(yè)云計算從業(yè)歷史的阿里,已經到了大數(shù)據(jù)量爆發(fā)帶給企業(yè)的業(yè)務壓力,需要有高吞吐、低延遲的大數(shù)據(jù)計算解決方案服務自己的大規(guī)模數(shù)據(jù)業(yè)務場景。早在 2004 的時候,谷歌自己就放棄了自己創(chuàng)立的大數(shù)據(jù)離線計算鼻祖,PB 規(guī)模數(shù)據(jù)同時計算是 MapReduce 難以逾越的瓶頸。此后 Spark 發(fā)展至今,用批處理方式將大數(shù)據(jù)計算帶入分鐘級的反應延遲。如今,流式主導的分布式計算正在主導大數(shù)據(jù)計算引擎將企業(yè)帶入近乎實時數(shù)據(jù)環(huán)境。為此,阿里巴巴計算平臺事業(yè)部資深技術專家莫問在云棲大會上指出,2014 年 Flink 憑借高吞吐、低延遲等其它高級功能而在開源大數(shù)據(jù)引擎界展露頭角,在 2015 年則將 Flink 引入團隊研發(fā),期望將來可服務于自己的超大規(guī)模數(shù)據(jù)業(yè)務場景。

  第二,阿里認識到 Flink 的開源技術基因與自己業(yè)務融合的落地空間。作為 Apache 的大數(shù)據(jù)流式計算引擎,F(xiàn)link 并不孤獨。這兩年谷歌支持的 Beam、DataTorrent 支持 Apache Apex 都成了開源在這領域里的佼佼者。同時,來自 twitter 的 Storm、LinkedIn 的 Samza 也憑借獨特的優(yōu)勢各領風騷。對此,阿里看到了其可以在 Flink 上發(fā)展的“非共識”空間,莫問認為用戶需要有一套統(tǒng)一的大數(shù)據(jù)引擎技術,只需要根據(jù)自己的業(yè)務邏輯開發(fā)一套代碼,在各種不同的場景下,不管是全量數(shù)據(jù)還是增量數(shù)據(jù),亦或者實時處理,一套方案即可全部支持。“這就是阿里選擇 Flink 的背景和初衷。”莫問表示。

  第三,將 Flink 引入阿里全線業(yè)務,從而用場景優(yōu)勢拓展了 Flink 技術棧前進空間。Flink的成就顯然是以其在阿里的應用為布局的。關于 Flink 在阿里巴巴的大規(guī)模應用,莫問披露,F(xiàn)link 最初上線阿里巴巴只有數(shù)百臺服務器,目前規(guī)模已達上萬臺;基于 Flink,內部積累起來的狀態(tài)數(shù)據(jù)已經是 PB 級別規(guī)模;如今每天在 Flink 的計算平臺上,處理的數(shù)據(jù)已經超過萬億條;在峰值期間可以承擔每秒超過 4.72 億次的訪問,最典型的應用場景是阿里巴巴雙 11 大屏。

Flink 技術支持了阿里雙十一購物節(jié)大屏顯示的海量實時計算結果

  第四,阿里將 Flink 帶到前沿戰(zhàn)場,創(chuàng)新聚焦在真正變革上。在阿里著手改造 Flink 之前,F(xiàn)link 針對“一套統(tǒng)一的大數(shù)據(jù)引擎技術”已經初露端倪。大數(shù)據(jù)計算引擎在批處理與流式計算之間,不在于數(shù)據(jù)進入計算引擎后,駐留緩存的時間方式的不同,批處理取決于駐慢緩存空間之后落地長期存儲,而流式計算旨在規(guī)定的時間或是容量內會將數(shù)據(jù)發(fā)送到下一節(jié)點。Flink 較同期方案,如 Spark、Storm 等,優(yōu)勢就在于可以同時兼顧兩種方案計算于一套計算引擎,但無法“統(tǒng)一”為一個堆棧。為此,阿里巴巴在 Flink 上提出了新的統(tǒng)一 API 架構,采用 DAG(有限無環(huán)圖)API。“整個拓撲是可以融合批流統(tǒng)一的語義表達,整個計算無需區(qū)分是流計算還是批計算,只需要表達自己的需求。”

  Flink 的未來,已經決定這阿里的技術基因走向。莫問在云棲大會上提出了 Flink 的未來三個方向:首先,讓 Flink 在更多的場景下落地,成為一種主流的批計算引擎。然后進一步在流和批之間進行無縫的切換,流和批的界限越來越模糊。其次,讓 Flink 的生態(tài)上有更多語言的支持,不僅僅是 Java,Scala 語言,甚至是機器學習下用的 Python,Go 語言。還有,完善上層 Flink 的 Machine Learning 算法庫,同時 Flink 往上層也會向成熟的機器學習、深度學習場景集成。

  不難看出,F(xiàn)link 的技術優(yōu)勢讓阿里看到了符合自己大規(guī)模業(yè)務場景支持的預期,未來深度學習場景的構建需要從現(xiàn)有批流融合,發(fā)展為更加開放和智能的落地場景,不斷拓展 Flink 的生態(tài)。

  阿里需要拓寬技術護城河

  Flink 項目是大數(shù)據(jù)處理領域最近冉冉升起的一顆新星。有關其技術優(yōu)勢我們在《程序員》雜志的《深入理解 Flink 核心技術》,以及阿里團隊發(fā)表在其云棲社區(qū)的兩篇文章《Flink 已經足夠強大了嗎?阿里巴巴說:還不夠》和《阿里巴巴為什么選擇 Apache Flink?》中已經有了非常詳盡的解讀。

  總結來看,F(xiàn)link 在 2015 年之前穩(wěn)定性、安全性方面廣受質疑,阿里投入研發(fā)后,通過架構變革、創(chuàng)新中間業(yè)務層、整合計算流程、開發(fā)融合適配接口等等,F(xiàn)link 可以說迎來脫胎換骨的巨大發(fā)展優(yōu)勢。

  完成對 Data Artisans 的收購,阿里無疑可以進一步整合 Flink 的整個生態(tài)資源,作出更有利于 Flink 發(fā)展的規(guī)劃。不過,隨著 Flink 的一些競爭對手也陸續(xù)實現(xiàn)了阿里在技術上的領先優(yōu)勢,F(xiàn)link 在帶給阿里未來強化大數(shù)據(jù)事實計算領先地位上,也充滿諸多未知數(shù)。

[[255424]]

  首先,收購前 Flink 有獨立供應商 Data Artisans 支持,開源貢獻使其技術發(fā)展路線容易符合更廣大用戶的預期。收購后阿里對 Flink 發(fā)展的擁有絕對權,其對社區(qū)貢獻的參與積極性或相對減弱。

  我們看到,這幾年 Samza 在 LinkedIn 開源后缺乏重量級用戶的加持而發(fā)展的舉步維艱。早在 2014 年成為 Apache 流處理框架項目的它,在久前才進入自己的 1.0 階段,而此時 Flink 已經歷多次迭代到了 1.8 版本。LinkedIn 的 Sam Samza 團隊負責人 Samarth Shetty 為此在 Samza 1.0 的發(fā)布會上表示,當他們找尋流處理時,現(xiàn)有的流處理框架很少能夠處理他們在 LinkedIn 上的規(guī)?;蚣夹g問題,“例如,我們必須在 Samza 中構建增量檢查點和主機關聯(lián)性等功能。當時在 Apache Flink 等框架中無法使用這些功能。”顯然,阿里在 Apache Flink 社區(qū)貢獻已經改變了這一局面。如今,阿里掌控 Flink 一家獨大,對于平衡 Flink 的商業(yè)版和社區(qū)之間的貢獻,或許會有新的變化。

  再者,當下大數(shù)據(jù)流式計算技術突破競爭過于聚焦,阿里的技術護城河還需要有新的突破。例如,即使阿里當前得益于自己已經在 YARN 上實現(xiàn)了 API 的連接得以將其運行在資源管理器上,Samza 則直接作為庫嵌入到應用程序中并在任何資源管理器上運行,從而讓計算引擎相對底層服務更加透明。除此之外,SQL 支持現(xiàn)在成為流媒體的主戰(zhàn)場,Kafka 和 Spark 都有了,致力于支持用 SQL 創(chuàng)建交互式 shell。

  第三,隨著大數(shù)據(jù)流式計算可以提供更快的數(shù)據(jù)決策,用戶針對傳統(tǒng)批處理模式正在加速向實時數(shù)據(jù)場景遷移,為此流式計算技術在做好創(chuàng)新架構突破的同時也要注意對傳統(tǒng)數(shù)據(jù)資產的有效銜接。諸如,F(xiàn)link 已經在其分布式的流式計算框架中實現(xiàn)了事物的 ACID 操作,有效解決的事物的分布式存儲環(huán)境的緩存一致性和分布式鎖的概念。Data Artisans 聯(lián)合創(chuàng)始人兼CEO Kostas Tzoumas 表示,他們正為這一技術申請專利,“我們允許公司擺脫他們真正昂貴和復雜的 Oracle 數(shù)據(jù)庫,這些數(shù)據(jù)庫目前為他們提供 ACID 交易,并轉向允許您擴展的新技術,允許您實施自定義代碼,”他同時表示:“但存在一些明顯的局限性,例如 Flink 與 Oracle 數(shù)據(jù)庫不兼容 API。”

  在這方面,Spark 因為未能及時支持 Spark 結構流和高級會話處理的新 API,從而讓 Netflix 的高級數(shù)據(jù)工程師 Arora 決定 Netflix 批量作業(yè)遷移選擇了 Apache Flink 的流式操作。

  第四,阿里在獲得 Flink 商業(yè)所有權后,需要更為清晰且落地的 Flink 商業(yè)規(guī)劃。在這方面,Apex 似乎是個很好的例子。DataTorrent 將其 RTS 平臺的核心處理引擎在兩年前開放給 Apache,當時其已經可以利用 YARN 實現(xiàn)按需規(guī)模伸縮且通過 HDFS 實現(xiàn)容錯能力。那是的 Flink 依舊顯得稚嫩呢。不過在隨后的發(fā)展中,DataTorrent 表越來越激進,諸如 DataTorrent CEO Guy Churchward 宣布 DataTorrent 標記的主要新功能包括通過與 Druid 集成擴展支持 SQL 和分析,通過 Python 和 PMML 實現(xiàn)更多機器學習和 AI 功能,通過與 Drools 集成支持復雜事件處理規(guī)則,以及存儲和重放以記錄和重放來自一個時間點等諸多功能,從平臺方向到應用軟件的創(chuàng)新讓 DataTorrent 的發(fā)展陷入一種混亂。在 2018 年 2 月,在 Guy Churchward 宣布其將提供流媒體數(shù)據(jù)應用程序來實現(xiàn)顛覆性技術和顛覆性商業(yè)模式的 90 天后,DataTorrent 破產了。顯然,由于流式計算和批處理在當下依然有著較為明確的作用場景,阿里極力致力于批流一體化的實現(xiàn)還需要有明確的場景支撐才會更有說服力。

  第五,作為阿里云最為有利的兩個競爭對手,Amazon 或是微軟早已經實現(xiàn)托管的高速實時流分析服務,顯然阿里云的流式計算堆棧 Flink 還需進一步完善。例如 Amazon Kinesis 可以從前端的應用服務器(例如 Web 服務器)或者移動的客戶端(手機等移動設備或者 IoT 設備)直接注入流式數(shù)據(jù),數(shù)據(jù)可以通過 EMR 進行流式處理和計算(例如基于 Spark Stream 的 EMR 計算框架),并將數(shù)據(jù)存儲于 Amazon DynamoDB 或者對象存儲 S3 之上。

  根據(jù) MarketInsightsReports 的數(shù)據(jù),預計到 2025 年全球流媒體分析市場將達到 477.5 億美元,從 2017 年到 2025 年將增長 34.98%。而在 IDC 在一份新白皮書中表示,到 2025 年,將近 30% 的所謂“全球數(shù)據(jù)球”將成為實時信息。而當下,大數(shù)據(jù)、AI、物理網(wǎng)正在加速推動流式計算集成到機器學習、人工智能框架中。阿里巴巴基于 Flink 搭建的平臺于 2016 年正式上線,并從阿里巴巴的搜索和推薦這兩大場景開始實現(xiàn)。目前阿里巴巴所有的業(yè)務,包括阿里巴巴所有子公司都采用了基于 Flink 搭建的實時計算平臺??梢韵嘈牛酉聛恚?Flink 將在阿里豐富的場景下,有著更快的發(fā)展。

  去年的時候,馬云在談到傳位于 CEO 張勇的時候,馬云期望張勇可以帶給阿里更多技術基因,讓整個阿里在人們心中的定位更多有技術商業(yè)化的色彩。

  對此,一直對這方面技術和投資動態(tài)有深入研究的國科嘉和基金執(zhí)行董事吳一洲認為,這次并購是阿里在技術上的一個認真的思考和布局,批流結合有其特定場景,公有云或者私有云都可以打包 flink 作為批/流平臺,能看出阿里對技術儲備的戰(zhàn)略意圖。同時,吳一洲也認為,這次并購更深遠的影響可能在于,之前公有云廠商薅開源羊毛,若持續(xù)吸收控制開源平臺,那么未來開源軟件在公有云上的授權策略可能會發(fā)生變化。第三,再看遠一點,她認為很可能是大平臺儲備技術籌碼的開始,對未來云服務的生態(tài)和格局會帶來影響。

 

責任編輯:張燕妮 來源: 鈦媒體
相關推薦

2018-10-16 15:34:17

阿里巴巴Apache Flin大數(shù)據(jù)

2021-06-17 06:19:20

存儲SQL數(shù)據(jù)庫

2019-11-13 14:38:34

Executors阿里線程池

2021-10-27 20:54:24

分庫分表高并發(fā)

2015-08-06 10:14:15

造輪子facebook

2022-08-15 08:27:02

基站網(wǎng)絡

2013-03-12 14:30:09

Ubuntu操作系統(tǒng)

2017-09-08 08:35:16

Android代碼API設計

2024-10-17 16:41:57

KafkaZooKeeper

2014-08-25 10:00:18

開源

2015-05-12 11:04:42

Java EE學習Java EE

2019-03-19 08:59:13

物聯(lián)網(wǎng)IOT技術

2019-11-27 10:25:15

SaaS云端IT架構

2021-02-11 13:30:56

Nodejs源碼c++

2017-04-05 16:40:45

2019-09-30 07:50:51

ITOps云端ITOM

2018-05-23 00:20:29

2021-03-16 08:35:14

Kubernetes Docker容器

2016-08-19 16:27:52

數(shù)據(jù)庫Mongo DB開發(fā)

2012-06-18 14:51:09

Python
點贊
收藏

51CTO技術棧公眾號