阿里巴巴Blink正式開源，重要優(yōu)化點(diǎn)解讀

作者：大沙 2019-01-28 10:10:36

Apache Flink 是德國柏林工業(yè)大學(xué)的幾個(gè)博士生和研究生從學(xué)校開始做起來的項(xiàng)目，早期叫做 Stratosphere。

Apache Flink 是德國柏林工業(yè)大學(xué)的幾個(gè)博士生和研究生從學(xué)校開始做起來的項(xiàng)目，早期叫做 Stratosphere。2014 年，StratoSphere 項(xiàng)目中的核心成員從學(xué)校出來開發(fā)了 Flink，同時(shí)將 Flink 計(jì)算的主流方向定位為流計(jì)算，并在同年將 Flink 捐贈(zèng) Apache，后來快速孵化成為 Apache 的***項(xiàng)目。

阿里巴巴在 2015 年開始嘗試使用 Flink。但是阿里的業(yè)務(wù)體量非常龐大，挑戰(zhàn)也很多。彼時(shí)的 Flink 不管是規(guī)模還是穩(wěn)定性尚未經(jīng)歷實(shí)踐，成熟度有待商榷。為了把這么大的業(yè)務(wù)體量支持好，我們不得不在 Flink 之上做了一系列的改進(jìn)，所以阿里巴巴維護(hù)了一個(gè)內(nèi)部版本的 Flink，它的名字叫做 Blink。

基于 Blink 的計(jì)算平臺(tái)于 2016 年正式上線。截至目前，阿里絕大多數(shù)的技術(shù)部門都在使用 Blink。Blink 一直在阿里內(nèi)部錯(cuò)綜復(fù)雜的業(yè)務(wù)場景中鍛煉成長著。對于內(nèi)部用戶反饋的各種性能、資源使用率、易用性等諸多方面的問題，Blink 都做了針對性的改進(jìn)。

雖然現(xiàn)在 Blink 在阿里內(nèi)部用的最多的場景主要還是流計(jì)算，但是在批計(jì)算場景也有不少業(yè)務(wù)上線使用了。例如，搜索和推薦的算法業(yè)務(wù)平臺(tái)就同時(shí)將 Blink 用于流計(jì)算和批處理。Blink 被用來實(shí)現(xiàn)了流批一體化的樣本生成和特征抽取流程，能夠處理的特征數(shù)達(dá)到了數(shù)千億，而且每秒鐘能處理數(shù)億條消息。在這個(gè)場景的批處理中，我們單個(gè)作業(yè)處理的數(shù)據(jù)量已經(jīng)超過 400T，并且為了節(jié)省資源，我們的批處理作業(yè)是和流計(jì)算作業(yè)以及搜索的在線引擎運(yùn)行在同樣的機(jī)器上。流批一體化已經(jīng)在阿里巴巴取得了極大的成功，我們希望這種成功以及阿里巴巴內(nèi)部的經(jīng)驗(yàn)都能夠帶回給社區(qū)。

Blink 開源的背景

其實(shí)從我們選擇 Flink 的***天開始，我們就一直和社區(qū)緊密合作。過去的這幾年我們也一直在把阿里對 Flink 的改進(jìn)推回社區(qū)。從 2016 年開始我們已經(jīng)將流計(jì)算 SQL 的大部分功能、針對 runtime 的穩(wěn)定性和性能優(yōu)化做的若干重要設(shè)計(jì)都推回了社區(qū)。但是 Blink 本身發(fā)展迭代的速度非?？欤鐓^(qū)有自己的步伐，很多時(shí)候可能無法把我們的變更及時(shí)推回去。對于社區(qū)來說，一些大的功能和重構(gòu)，需要達(dá)成共識(shí)后，才能被接受，這樣才能更好地保證開源項(xiàng)目的質(zhì)量，但是同時(shí)就會(huì)導(dǎo)致推入的速度變得相對較慢。

經(jīng)過這幾年的開發(fā)迭代，我們這邊和社區(qū)之間的差距已經(jīng)變得比較大了。Blink 有一些很好的新功能，比如性能優(yōu)越的批處理功能，在社區(qū)的版本是沒有的。在過去這段時(shí)間里，我們不斷聽到有人在詢問 Blink 的各種新功能，期望 Blink 盡快開源的呼聲越來越大。我們一直在思考如何開源的問題。一種方案就是和以前一樣，繼續(xù)把各種功能和優(yōu)化分解，逐個(gè)和社區(qū)討論，慢慢地推回 Flink，但這顯然不是大家所期待的。另一個(gè)方案，就是先完整地盡可能多地把代碼開源，讓社區(qū)的開發(fā)者能夠盡快試用起來。第二個(gè)方案很快收到社區(qū)廣大用戶的支持。因此，從 2018 年年中開始我們就開始做開源的相關(guān)準(zhǔn)備。經(jīng)過半年的努力，我們終于把大部分 Blink 的功能梳理好，開源了出來。

Blink 開源的方式

**我們把代碼貢獻(xiàn)出來，是為了讓大家能先嘗試一些他們感興趣的功能。Blink 永遠(yuǎn)不會(huì)單獨(dú)成為一個(gè)獨(dú)立的開源項(xiàng)目來運(yùn)作，它一定是 Flink 的一部分。開源后我們期望能找到辦法以最快的方式將 Blink merge 到 Flink 中去。**Blink 開源只有一個(gè)目的，就是希望 Flink 做得更好。

Apache Flink 是一個(gè)社區(qū)項(xiàng)目，Blink 以什么樣的形式進(jìn)入 Flink 是最合適的，怎么貢獻(xiàn)是社區(qū)最希望的方式，我們都要和社區(qū)一起討論。在過去的一段時(shí)間內(nèi)，我們在 Flink 社區(qū)征求了廣泛的意見，大家一致認(rèn)為將本次開源的 Blink 代碼作為 Flink 的一個(gè) branch 直接推回到 Apache Flink 項(xiàng)目中是最合適的方式。并且我們和社區(qū)也一起討論規(guī)劃出一套能夠快速 merge Blink 到 Flink master 中的方案（具體細(xì)節(jié)可以查看 Flink 社區(qū)正在討論的 FLIP32）。

我們期望這個(gè) merge 能夠在很短的時(shí)間內(nèi)完成。這樣我們之后的 Machine Learning 等其他新功能就可以直接推回到 Flink master。相信用不了多久，F(xiàn)link 和 Blink 就完全合二為一了。在那之后，阿里巴巴將直接使用 Flink 用于生產(chǎn)，并同時(shí)協(xié)助社區(qū)一起來維護(hù) Flink。

本次開源的 Blink 的主要功能和優(yōu)化點(diǎn)

本次開源的 Blink 代碼在 Flink1.5.1 版本之上，加入了大量的新功能，以及在性能和穩(wěn)定性上的各種優(yōu)化。

主要貢獻(xiàn)包括：阿里巴巴在流計(jì)算上積累的一些新功能和性能的優(yōu)化，一套完整的（能夠跑通全部 TPC-H/TPC-DS，能夠讀取 Hive meta 和 data）高性能 Batch SQL，以及一些以提升易用性為主的功能（包括支持更高效的 interactive programming，與 zeppelin 更緊密的結(jié)合，以及體驗(yàn)和性能更佳的 Flink web）。

未來我們還將繼續(xù)給 Flink 貢獻(xiàn)在 AI、IoT 以及其他新領(lǐng)域的功能和優(yōu)化。更多的關(guān)于這一版本 Blink release 的細(xì)節(jié)，請參考 Blink 代碼根目錄下的 README.md 文檔。下面，我來分模塊介紹下 Blink 主要的新的功能和優(yōu)化點(diǎn)。

Runtime

為了更好地支持 batch processing，以及解決阿里巴巴大規(guī)模生產(chǎn)場景中遇到的各種挑戰(zhàn)，Blink 對 Runtime 架構(gòu)、效率、穩(wěn)定性方面都做了大量改進(jìn)。

在架構(gòu)方面，首先 Blink 引入了 Pluggable Shuffle Architecture，開發(fā)者可以根據(jù)不同的計(jì)算模型或者新硬件的需要實(shí)現(xiàn)不同的 shuffle 策略進(jìn)行適配。此外 Blink 還引入新的調(diào)度架構(gòu)，容許開發(fā)者根據(jù)計(jì)算模型自身的特點(diǎn)定制不同調(diào)度器。為了優(yōu)化性能，Blink 可以讓算子更加靈活的 chain 在一起，避免了不必要的數(shù)據(jù)傳輸開銷。在 Pipeline Shuffle 模式中，使用了 ZeroCopy 減少了網(wǎng)絡(luò)層內(nèi)存消耗。在 BroadCast Shuffle 模式中，Blink 優(yōu)化掉了大量的不必要的序列化和反序列化開銷。此外，Blink 提供了全新的 JM FailOver 機(jī)制，JM 發(fā)生錯(cuò)誤之后，新的 JM 會(huì)重新接管整個(gè) JOB 而不是重啟 JOB，從而大大減少了 JM FailOver 對 JOB 的影響。

***，Blink 也開發(fā)了對 Kubernetes 的支持。不同于 Standalone 模式在 Kubernetes 上的拉起方式，在基于 Flink FLIP6 的架構(gòu)上基礎(chǔ)之上，Blink 根據(jù) job 的資源需求動(dòng)態(tài)的申請 / 釋放 Pod 來運(yùn)行 TaskExecutor，實(shí)現(xiàn)了資源彈性，提升了資源的利用率。

SQL/TableAPI

SQL/TableAPI 架構(gòu)上的重構(gòu)和性能的優(yōu)化是 Blink 本次開源版本的一個(gè)重大貢獻(xiàn)。

首先，我們對 SQL engine 的架構(gòu)做了較大的調(diào)整。提出了全新的 Query Processor（QP），它包括了一個(gè)優(yōu)化層（Query Optimizer）和一個(gè)算子層（Query Executor）。這樣一來，流計(jì)算和批計(jì)算的在這兩層大部分的設(shè)計(jì)工作就能做到盡可能地復(fù)用。另外，SQL 和 TableAPI 的程序最終執(zhí)行的時(shí)候?qū)⒉粫?huì)翻譯到 DataStream 和 DataSet 這兩個(gè) API 上，而是直接構(gòu)建到可運(yùn)行的 DAG 上來，這樣就使得物理執(zhí)行算子的設(shè)計(jì)不完全依賴底層的 API，有了更大的靈活度，同時(shí)執(zhí)行代碼也能夠被靈活的 codegen 出來。

唯一的一個(gè)影響就是這個(gè)版本的 SQL 和 TableAPI 不能和 DataSet 這個(gè) API 進(jìn)行互相轉(zhuǎn)換，但仍然保留了和 DataStream API 互相轉(zhuǎn)換的能力（將 DataStream 注冊成表，或?qū)?Table 轉(zhuǎn)成 DataStream 后繼續(xù)操作）。未來，我們計(jì)劃把 dataset 的功能慢慢都在 DataStream 和 TableAPI 上面實(shí)現(xiàn)。到那時(shí) DataStream 和 SQL 以及 tableAPI 一樣，是一個(gè)可以同時(shí)描述 bounded 以及 unbounded processing 的 API。

除了架構(gòu)上的重構(gòu)，Blink 還在具體實(shí)現(xiàn)上做了較多比較大的重構(gòu)。

首先，Blink 引入了二進(jìn)制的數(shù)據(jù)結(jié)構(gòu) BinaryRow，極大的減少了數(shù)據(jù)存儲(chǔ)上的開銷以及數(shù)據(jù)在序列化和反序列化上計(jì)算的開銷。

其次，在算子的實(shí)現(xiàn)層面，Blink 在更廣范圍內(nèi)引入了 CodeGen 技術(shù)。由于預(yù)先知道算子需要處理的數(shù)據(jù)的類型，在 QP 層內(nèi)部就可以直接生成更有針對性更高效的執(zhí)行代碼。Blink 的算子會(huì)動(dòng)態(tài)的申請和使用資源，能夠更好的利用資源，提升效率，更加重要的是這些算子對資源有著比較好的控制，不會(huì)發(fā)生 OutOfMemory 的問題。

此外，針對流計(jì)算場景，Blink 加入了 miniBatch 的執(zhí)行模式，在 aggregate、join 等需要和 state 頻繁交互且往往又能先做部分 reduce 的場景中，使用 miniBatch 能夠極大的減少 IO，從而成數(shù)量級(jí)的提升性能。除了上面提到的這些重要的重構(gòu)和功能點(diǎn)，Blink 還實(shí)現(xiàn)了完整的 SQL DDL，帶 emit 策略的流計(jì)算 DML，若干重要的 SQL 功能，以及大量的性能優(yōu)化策略。

有了上面提到的諸多架構(gòu)和實(shí)現(xiàn)上的重構(gòu)。Blink 的 SQL／tableAPI 在功能和性能方面都取得了脫胎換骨的變化。在批計(jì)算方面，首先 Blink batch SQL 能夠完整地跑通 TPC-H 和 TPC-DS，且性能上有了極大的提升。

如上圖所示，是這次開源的 Blink 版本和 spark 2.3.1 的 TPC-DS 的 benchmark 性能對比。柱狀圖的高度代表了運(yùn)行的總時(shí)間，高度越低說明性能越好?？梢钥闯?，Blink 在 TPC-DS 上和 Spark 相比有著非常明顯的性能優(yōu)勢，而且這種性能優(yōu)勢隨著數(shù)據(jù)量的增加而變得越來越大。在實(shí)際的場景這種優(yōu)勢已經(jīng)超過 Spark 三倍，在流計(jì)算性能上我們也取得了類似的提升。我們線上的很多典型作業(yè)，性能是原來的 3 到 5 倍。在有數(shù)據(jù)傾斜的場景，以及若干比較有挑戰(zhàn)的 TPC-H query，流計(jì)算性能甚至得到了數(shù)十倍的提升。

除了標(biāo)準(zhǔn)的 Relational SQL API。TableAPI 在功能上是 SQL 的超集，因此在 SQL 上所有新加的功能，我們在 tableAPI 也添加了相對應(yīng)的 API。除此之外，我們還在 TableAPI 上引入了一些新的功能。其中一個(gè)比較重要是 cache 功能。在批計(jì)算場景下，用戶可以根據(jù)需要來 cache 計(jì)算的中間結(jié)果，從而避免不必要的重復(fù)計(jì)算，它極大地增強(qiáng)了 interactive programming 體驗(yàn)。我們后續(xù)會(huì)在 tableAPI 上添加更多有用的功能。其實(shí)很多新功能已經(jīng)在社區(qū)展開討論并被社區(qū)接受，例如我們在 tableAPI 增加了對一整行操作的算子 map/flatMap/aggregate/flatAggregate (Flink FLIP29) 等等。

Hive 的兼容性

我們這次開源的版本實(shí)現(xiàn)了在元數(shù)據(jù)（meta data）和數(shù)據(jù)層將 Flink 和 Hive 對接和打通。國內(nèi)外很多公司都還在用 Hive 在做自己的批處理。對于這些用戶，現(xiàn)在使用這次 Blink 開源的版本，就可以直接用 Flink SQL 去查詢 Hive 的數(shù)據(jù)，真正能夠做到在 Hive 引擎和 Flink 引擎之間的自由切換。

為了打通元數(shù)據(jù)，我們重構(gòu)了 Flink catalog 的實(shí)現(xiàn)，并且增加了兩種 catalog，一個(gè)是基于內(nèi)存存儲(chǔ)的 FlinkInMemoryCatalog，另外一個(gè)是能夠橋接 Hive metaStore 的 HiveCatalog。有了這個(gè) HiveCatalog，F(xiàn)link 作業(yè)就能讀取 Hive 的 metaData。為了打通數(shù)據(jù)，我們實(shí)現(xiàn)了 HiveTableSource，使得 Flink job 可以直接讀取 Hive 中普通表和分區(qū)表的數(shù)據(jù)。因此，通過這個(gè)版本，用戶可以使用 Flink SQL 讀取已有的 Hive meta 和 data，做數(shù)據(jù)處理。未來我們將在 Flink 上繼續(xù)加大對 Hive 兼容性的支持，包括支持 Hive 特有的 query，data type，和 Hive UDF 等等。

Zeppelin for Flink

為了提供更好的可視化和交互式體驗(yàn)，我們做了大量的工作讓 Zeppelin 能夠更好的支持 Flink。這些改動(dòng)有些是在 Flink 上的，有些是在 Zeppelin 上的。在這些改動(dòng)全部推回 Flink 和 Zeppelin 社區(qū)之前，大家可以使用這個(gè) Zeppelin image (具體細(xì)節(jié)請參考 Blink 代碼里的 docs/quickstart/zeppelin_quickstart.md) 來測試和使用這些功能。

這個(gè)用于測試的 Zeppelin 版本，首先很好地融合和集成了 Flink 的多種運(yùn)行模式以及運(yùn)維界面。使用文本 SQL 和 tableAPI 可以自如的查詢 Flink 的 static table 和 dynamic table。此外，針對 Flink 的流計(jì)算的特點(diǎn)，這一版 Zeppelin 也很好地支持了 savepoint，用戶可以在界面上暫停作業(yè)，然后再從 savepoint 恢復(fù)繼續(xù)運(yùn)行作業(yè)。

在數(shù)據(jù)展示方面，除了傳統(tǒng)的數(shù)據(jù)分析界面，我們也添加了流計(jì)算的翻牌器和時(shí)間序列展示等等功能。為了方便用戶試用，我們在這一版 zeppelin 中提供 3 個(gè) built-in 的 Flink tutorial 的例子: 一個(gè)是做 Streaming ETL 的例子, 另外兩個(gè)分別是做 Flink Batch, Flink Stream 的基礎(chǔ)樣例。

Flink Web

我們對 Flink Web 的易用性與性能等多個(gè)方面做了大量的改進(jìn)，從資源使用、作業(yè)調(diào)優(yōu)、日志查詢等維度新增了大量功能，使得用戶可以更方便的對 Flink 作業(yè)進(jìn)行運(yùn)維。

在資源使用方面，新增了 Cluster、TaskManager 與 Job 三個(gè)級(jí)別的資源信息，使得資源的申請與使用情況一目了然。作業(yè)的拓?fù)潢P(guān)系及數(shù)據(jù)流向可以追溯至 Operator 級(jí)別，Vertex 增加了 InQueue，OutQueue 等多項(xiàng)指標(biāo)，可以方便的追蹤數(shù)據(jù)的反壓、過濾及傾斜情況。TaskManager 和 JobManager 的日志功能得到大幅度加強(qiáng)，從 Job、Vertex、SubTask 等多個(gè)維度都可以關(guān)聯(lián)至對應(yīng)日志，提供多日志文件訪問入口，以及分頁展示查詢和日志高亮功能。

另外，我們使用了較新的 Angular 7.0 對 Flink web 進(jìn)行了全面重構(gòu)，頁面運(yùn)行性能有了一倍以上的提升。 在大數(shù)據(jù)量情況下也不會(huì)發(fā)生頁面卡死或者卡頓情況。同時(shí)對頁面的交互邏輯進(jìn)行了整體優(yōu)化，絕大部分關(guān)聯(lián)信息在單個(gè)頁面就可以完成查詢和比對工作，減少了大量不必要的跳轉(zhuǎn)。

未來的規(guī)劃

Blink 邁出了全面開源的***步，接下來我們會(huì)和社區(qū)合作，盡可能以最快的方式將 Blink 的功能和性能上的優(yōu)化 merge 回 Flink。

本次的開源版本一方面貢獻(xiàn)了 Blink 多年在流計(jì)算的積累，另一方面又重磅推出了在批處理上的成果。接下來，我們會(huì)持續(xù)給 Flink 社區(qū)貢獻(xiàn)其他方面的功能。我們期望每過幾個(gè)月就能看到技術(shù)上有一個(gè)比較大的亮點(diǎn)貢獻(xiàn)到社區(qū)。下一個(gè)亮點(diǎn)應(yīng)該是對機(jī)器學(xué)習(xí)的支持。

要把機(jī)器學(xué)習(xí)支持好，有一系列的工作要做，包括引擎的功能、性能和易用性。這里面大部分的工作我們已經(jīng)開發(fā)完成，并且很多功能都已經(jīng)在阿里巴巴內(nèi)部服務(wù)上線了。除了技術(shù)上創(chuàng)新以及新功能之外，F(xiàn)link 的易用性和外圍生態(tài)也非常重要。我們已經(jīng)啟動(dòng)了若干這方面的項(xiàng)目，包括 Python 以及 Go 等多語言支持、Flink 集群管理、Notebook 以及機(jī)器學(xué)習(xí)平臺(tái)等等。這些項(xiàng)目有些會(huì)成為 Flink 自身的一部分貢獻(xiàn)回社區(qū)，有些不是。但它們都基于 Flink，是 Flink 生態(tài)的一個(gè)很好的補(bǔ)充。獨(dú)立于 Flink 之外的那些項(xiàng)目，我們都也在認(rèn)真的考慮開源出來。

總之，Blink 在開源的***天起，就已經(jīng)完全 all-in 的融入了 Flink 社區(qū)，我們希望所有的開發(fā)者看到我們的誠意和決心。未來，無論是功能還是生態(tài)，我們都會(huì)在 Flink 社區(qū)加大投入，我們也將投入力量做 Flink 社區(qū)的運(yùn)營，讓 Flink 真正在中國、乃至全世界大規(guī)模地使用起來。我們衷心的希望更多的人加入，一起把 Apache Flink 開源社區(qū)做的更好！

責(zé)任編輯：張燕妮來源： AI前線