自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專訪梁宇明:Hulu的Spark On YARN之路

原創(chuàng)
數(shù)據(jù)庫 Spark
Hulu,因?yàn)樯形催M(jìn)入中國,知道它的人遠(yuǎn)不如知道YouTube和優(yōu)酷、土豆。而在美國,Hulu已經(jīng)將Google Video擠出局成為全美排名第10的視頻網(wǎng)站。今天,來自Hulu,負(fù)責(zé)大數(shù)據(jù)團(tuán)隊(duì)基礎(chǔ)架構(gòu)開發(fā)的梁宇明老師,將為我們分享Hulu的Spark On YARN之路。

梁宇明, 2010年從清華大學(xué)自動(dòng)化系畢業(yè)加入Hulu。在Hulu做過多個(gè)團(tuán)隊(duì)的開發(fā),最早是在搜索團(tuán)隊(duì),后來負(fù)責(zé)在Mobile和Media Room Device設(shè)備上的開發(fā)。之后負(fù)責(zé)了在Hulu的大數(shù)據(jù)構(gòu)建工作。

梁宇明在51CTO舉辦WOT峰會(huì),分享《Spark On YARN in Hulu》Hulu大數(shù)據(jù)平臺是research團(tuán)隊(duì)構(gòu)建算法,深度理解用戶需求的重要基礎(chǔ)。本講主要介紹Hulu大數(shù)據(jù)平臺架構(gòu),Spark On YARN在Hulu的應(yīng)用,以及Hulu在Docker + YARN上的探索。

演講PPT官方下載地址:http://down.51cto.com/data/1634397

[[118648]]

Hulu高級研發(fā)主管 梁宇明


記者:我們也知道Hulu是個(gè)視頻網(wǎng)站,它其實(shí)更多的是面向美國的用戶,它在中國的研發(fā)團(tuán)隊(duì),在Hulu整個(gè)集團(tuán)當(dāng)中擔(dān)任什么樣的角色?

梁宇明:Hulu北京的研發(fā)團(tuán)隊(duì)是Hulu***的研發(fā)團(tuán)隊(duì),Hulu一共有三個(gè)研發(fā)團(tuán)隊(duì),分別位于洛杉磯、西雅圖還有北京,其中北京是***的研發(fā)團(tuán)隊(duì),北京研發(fā)團(tuán)隊(duì)以做一些research相關(guān)的工作為主,同時(shí)也做一些,為research提供一些基礎(chǔ)視頻架構(gòu),同時(shí)也會(huì)有一些其他的開發(fā)。

Hulu框架

Hulu技術(shù)框架

記者:提到大數(shù)據(jù),大數(shù)據(jù)現(xiàn)在很火,我們想知道在Hulu網(wǎng)站架構(gòu)體系下,大數(shù)據(jù)整個(gè)技術(shù)應(yīng)用大概分為幾部分?

梁宇明:我覺得可以從歷史上去看待這個(gè)問題,就是Hulu的歷史上,大數(shù)據(jù)的發(fā)展應(yīng)該分為兩個(gè)階段,***階段主要是用做收集一些數(shù)據(jù)進(jìn)行reporting,這個(gè)相對來說流程比較清晰一些,ingested一些數(shù)據(jù),把這些數(shù)據(jù)在HDFS中生成出來導(dǎo)入到Hive中。然后在中間過程中我們會(huì)有自己的叫做Hulu in Spark,這是一條線。在這條線完成一定時(shí)間之后的話,我們注意到說為了更好地服務(wù)research方面的需要,特別是research希望通過一些機(jī)器學(xué)習(xí)的方法從數(shù)據(jù)中挖掘一些價(jià)值,那么已有的這些處理方法就不可行了。在這個(gè)基礎(chǔ)之上,我們發(fā)展出了大數(shù)據(jù)的第二條業(yè)務(wù)線,也就是我現(xiàn)在負(fù)責(zé)的團(tuán)隊(duì),它主要做的一件事情是說考慮到research體系的一個(gè)整個(gè)的生命周期,比如說以機(jī)器學(xué)習(xí)的方法解決一些用戶關(guān)心的問題大概分為幾大步驟,***個(gè)步驟是說獲取用戶的行為,在用戶的行為生成一些特性,延伸出一些模型,***被用作在線的一些服務(wù)中。我的團(tuán)隊(duì)在第二階段做的主要的事情是說把離線的這部分和在線的這部分做起來,主要通過實(shí)現(xiàn)了一個(gè)Lamda的方式去做出來的。在這個(gè)基礎(chǔ)之上,我們有一些問題沒有解決就是research怎么樣獲取團(tuán)隊(duì)和生成這個(gè)模型的過程,這個(gè)過程我們主要是通過基于Spark On YARN這樣的體系,然后一起以及上面構(gòu)筑的library來實(shí)現(xiàn)的。

記者:你剛才也提到Spark,我們也知道在Hulu團(tuán)隊(duì)當(dāng)中是用的Docker + YARN的方式來做Spark方面的事情。

梁宇明:我可能想稍微修正一下,就是在Hulu內(nèi)部Spark On YARN和Docker On YARN是分開的兩部分,然后我們在Spark方面的主要的應(yīng)用有兩方面,***方面是Spark Streaming,這個(gè)主要是用作我們實(shí)時(shí)展現(xiàn)的一些基礎(chǔ)的部件,另外一部分主要是給research團(tuán)隊(duì)去寫一些他們的算法,實(shí)現(xiàn)一些并行化算法更方便的,用來替代一些原本Mapreduce的程序,這是Spark On YARN這部分。Docker On YARN這部分是用來解決一個(gè)完全不同的問題的,我們之所以用Docker on YARN是因?yàn)樵贖ulu有一些research寫出來的程序,它們的環(huán)境依賴極其復(fù)雜,很難通過一個(gè)Mapreduce這樣的程序或者Spark程序表現(xiàn)出來。比如說就像有一些計(jì)算機(jī)視覺的色彩,依賴了很多外部類,有很多的C++或者是C的代碼,這樣的話,環(huán)境特別復(fù)雜,又很難用Mapreduce方式展現(xiàn)出來。我們可以做的一件事情就是說我們把這個(gè)程序以及它的環(huán)境整個(gè)通過Docker打包成一個(gè)Docker Image,這樣子的話就相當(dāng)于一個(gè)小型的攝影機(jī),所有的東西都在里面了。有了這個(gè)東西就我們相當(dāng)于生成了一個(gè)超級可執(zhí)行體,把這個(gè)執(zhí)行體放在任何地方都可以執(zhí)行的,至少我們就考慮到怎么樣把它并行化,在并行化的過程當(dāng)中就怎么樣把Docker Image分化到不同的機(jī)器中去,特別是分化到一些含有公共資源的機(jī)器中去。然后怎么去解決這個(gè)問題呢?我們考慮到我們內(nèi)部的話,已經(jīng)把Mapreduce生成了很大的集群,然后我們希望說把Docker同樣放在這樣一個(gè)集群中去運(yùn)行,這樣的話我們可以做到自由的利用,這是我們做Docker On YARN的原因。

Doceker on Yarn

Hulu的Doceker on Yarn

記者:你剛才也提到資源的優(yōu)化,如果說是采用這種架構(gòu),有多大的改進(jìn)?

梁宇明:具體的數(shù)字我很難描述,但是我可以具體說一件這樣的事情。比如說以前的話,做一些計(jì)算機(jī)視覺的東西和編程化處理的話就要提前部署十臺機(jī)器,這十臺機(jī)器大環(huán)境都已經(jīng)部署好了,然后這十臺機(jī)器主要用作臉部視覺處理這一件事情,除了這件事情以外它平常都是空閑的,如果把它放在我們的集群中呢,就屬于如果你在不做這件事情的時(shí)候,你的計(jì)算機(jī)就會(huì)被其他的程序利用,這個(gè)就會(huì)好很多,這個(gè)可以避免說比申請一堆閑置的機(jī)器在那里,沒有特別好的資源利用率。我在51CTO的WOT峰會(huì)上,主要是分享在Spark On YARN的部署以及開發(fā)的過程當(dāng)中遇到的一些問題,因?yàn)槲覀冊谧钤绲臅r(shí)候,把Spark On YARN的時(shí)候,就是因?yàn)槲覀冇玫腍adoop發(fā)行版本跟Spark其實(shí)不兼容的,然后我們做了一系列的處理。之后在Spark中,因?yàn)镾park現(xiàn)在的發(fā)展還有不如Mapreduce的地方,在整個(gè)的應(yīng)用過程當(dāng)中還會(huì)碰到一些各種各樣的問題,然后我就會(huì)去分享一下,在這個(gè)過程當(dāng)中我們遇到什么樣的問題,以及怎么樣解決它,希望對大家有所幫助。

記者:那***有一個(gè)問題,Spark也是大家很看好的新興技術(shù),你對于它未來,比如說今年或者明年Spark大概的展望或者希望。

梁宇明:我個(gè)人是非??春肧park這項(xiàng)技術(shù)的,我覺得它在未來的體系當(dāng)中將扮演更重要的角色,然后再逐步的替換掉一些Mapreduce以前所做的工作,我覺得這是一個(gè)大勢所趨。

【責(zé)任編輯:彭凡 TEL:(010)68476606】
責(zé)任編輯:彭凡 來源: 51CTO
相關(guān)推薦

2012-03-26 20:10:58

去哪兒架構(gòu)師藝術(shù)家

2015-07-24 10:54:02

WOT2015情景計(jì)算

2018-08-14 16:54:00

機(jī)房建設(shè)

2012-12-14 10:15:32

新浪CDN代碼發(fā)布部署

2014-04-16 13:47:43

SparkYarn

2015-08-31 17:45:38

2017-01-09 13:21:24

達(dá)沃超融合

2021-08-31 23:09:27

Spark資源分配

2009-12-15 17:19:23

架構(gòu)師梁遠(yuǎn)華聚聚呀

2013-11-29 13:51:46

數(shù)據(jù)挖掘數(shù)據(jù)挖掘平臺淘寶明風(fēng)

2015-08-03 17:29:11

個(gè)推

2013-07-24 15:21:32

CDN故障響應(yīng)

2013-07-22 13:51:24

監(jiān)控CDN服務(wù)器劉宇

2018-10-15 10:38:14

UCloud虛擬網(wǎng)絡(luò)SDN

2012-12-11 22:41:20

淘寶部署雙11

2010-06-04 12:13:40

2013-08-04 22:14:52

DevOpsDevOps實(shí)施DevOps實(shí)踐

2011-12-23 15:56:02

2012-12-13 14:39:13

Velocity

2010-12-09 16:44:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號