專訪UCloud王冬冬:UDDP如何在大數(shù)據(jù)下拋頭露面
原創(chuàng)小編認(rèn)為,大數(shù)據(jù)與云計(jì)算已經(jīng)在野蠻的演變?yōu)橐粋€(gè)整體。
隨著移動(dòng)電商、社交網(wǎng)絡(luò)、智能硬件的強(qiáng)勢(shì)加入,通過(guò)各自數(shù)據(jù)規(guī)模與維度的指數(shù)級(jí)增長(zhǎng),除了催生數(shù)據(jù)生態(tài)系統(tǒng)各個(gè)環(huán)節(jié)的技術(shù)模式與標(biāo)準(zhǔn)變化,還催生更大的市場(chǎng)和利潤(rùn)空間。而這些TB至PB級(jí)的海量數(shù)據(jù)在存儲(chǔ)、處理、分析、檢索技術(shù)和成本上對(duì)很多中小型企業(yè)面臨著很高的門檻。在這些不同環(huán)節(jié)的商業(yè)需求上正在孵化新的急速模式和方法以實(shí)現(xiàn)新的商業(yè)模式。
所以,在數(shù)據(jù)處理方面Hadoop無(wú)疑是更多企業(yè)的首選。這脫胎于GoogleMapReduce的大數(shù)據(jù)分布式處理架構(gòu),為解決搜索引擎海量數(shù)據(jù)的處理和存儲(chǔ)問(wèn)題而驕傲的誕生,許多的企業(yè)也圍繞這個(gè)架構(gòu)產(chǎn)生:今天的主角UDDP也是如此。
UDDP能夠幫助用戶輕松、快速地處理TB甚至PB級(jí)的海量數(shù)據(jù)。主要應(yīng)用于數(shù)字營(yíng)銷、數(shù)據(jù)分析、商業(yè)智能、科學(xué)模擬等領(lǐng)域。同時(shí)也是基于 Hadoop 開(kāi)源框架開(kāi)發(fā),包括 MapReduce 和 Hive。記者通過(guò)對(duì)UCloud分布式數(shù)據(jù)分析平臺(tái)負(fù)責(zé)人 王冬冬的專訪,從對(duì)UDDP技術(shù)應(yīng)用層面的剖析,到其在市場(chǎng)中的競(jìng)爭(zhēng)優(yōu)勢(shì)以及相關(guān)的應(yīng)用場(chǎng)景,讓用戶對(duì)UDDP有一個(gè)新的了解與參考。
王冬冬,ucloud分布式數(shù)據(jù)分析平臺(tái)負(fù)責(zé)人,先后分別在盛大和騰訊工作,2012年初離開(kāi)騰訊加入ucloud。強(qiáng)邏輯性思維方式,熱愛(ài)互聯(lián)網(wǎng)。
以下是51CTO記者與王冬冬經(jīng)理的專訪錄音整理:
記者:UCloud憑借其混合云產(chǎn)品和云內(nèi)存儲(chǔ)產(chǎn)品UMem入圍2014年度互聯(lián)網(wǎng)最佳技術(shù)創(chuàng)新獎(jiǎng),UMem的自主研發(fā)Key-Value內(nèi)存存儲(chǔ)系統(tǒng)與常見(jiàn)開(kāi)源的Kye-Value分布式存儲(chǔ)系統(tǒng)有哪些不同?性能和兼容性如何?
王冬冬:UMem是我們自研的一個(gè)Key-Value內(nèi)存存儲(chǔ),它最大的一個(gè)特點(diǎn)是分布式設(shè)計(jì)的,它在容量和性能上可以突破單機(jī)的一些限制,同時(shí)UMem還做了主從熱備,主機(jī)故障的時(shí)候,它可以自動(dòng)切換到從機(jī),比其他單純的Key-Value存儲(chǔ)更加可靠。
UMem可以兼容絕大部分的memcached和Redis的協(xié)議,用戶應(yīng)用幾乎是可以無(wú)縫的接入進(jìn)來(lái)。性能也是根據(jù)用戶申請(qǐng)的容量來(lái)控制,我們現(xiàn)在目前是每1G大概支持4000QPS,申請(qǐng)的容量越大,你可以獲取的能力就會(huì)越大。
記者:前兩段時(shí)間SQLite剛發(fā)布了2.8.7版本,比上版本性能提升了50%以上,有沒(méi)有考慮應(yīng)用到UDDP中?
王冬冬:關(guān)于您說(shuō)的這塊,我們公司有另外一個(gè)產(chǎn)品對(duì)應(yīng),叫UDB。SQLite它是一個(gè)非常非常優(yōu)秀的輕量級(jí)的關(guān)系型數(shù)據(jù)庫(kù),它本身是沒(méi)有服務(wù)器進(jìn)程,存儲(chǔ)在單一文件中,支持跨平臺(tái)性。但是SQLite的缺點(diǎn)其實(shí)也是非常明顯,它不支持很高的并發(fā)量和很大的數(shù)據(jù)量,數(shù)據(jù)維護(hù)也是一個(gè)非常困難的事情,對(duì)SQL的標(biāo)準(zhǔn)的支持也是不夠全,缺少用戶管理,所以在一些很小的中小型站點(diǎn)上應(yīng)用可能會(huì)比較合適,但非常不適合大規(guī)模的應(yīng)用。
目前我們本身的UDB這個(gè)產(chǎn)品,也會(huì)推出一些比較小的UDB去適應(yīng)比較小的中小型站點(diǎn),暫時(shí)不考慮把sqlite應(yīng)用到我們的udb產(chǎn)品中。
記者:了解,UCloud近期推出旗下大數(shù)據(jù)產(chǎn)品UDDP,基于Hadoop開(kāi)源框架開(kāi)發(fā),主要應(yīng)用在哪些場(chǎng)景?有無(wú)自主研發(fā)或創(chuàng)新優(yōu)化,和其他分布式數(shù)據(jù)處理產(chǎn)品的優(yōu)勢(shì)在哪里?
王冬冬:Hadoop最初的誕生是谷歌發(fā)布的gfs、mapreduce兩大論文的實(shí)現(xiàn)。本質(zhì)它是一個(gè)分布式計(jì)算平臺(tái),在當(dāng)時(shí)是為了解決搜索引擎海量數(shù)據(jù)的處理和存儲(chǔ)問(wèn)題,所以在搜索這個(gè)場(chǎng)景是非常合適的。
隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展,Hadoop現(xiàn)在已經(jīng)廣泛應(yīng)用于各個(gè)行業(yè),比如說(shuō)一些在線廣告、在線旅游,或者一些電子商務(wù)等等。包括一些傳統(tǒng)行業(yè),也因?yàn)榛ヂ?lián)網(wǎng)的滲透,開(kāi)始慢慢使用起來(lái),比如說(shuō)一些商場(chǎng)零售、圖像處理、醫(yī)療保健等。
我們大數(shù)據(jù)產(chǎn)品UDDP是基于Hadoop的生態(tài)系統(tǒng),采用的是多用戶共享集群的一個(gè)方式,在權(quán)限、安全方面做了很多的工作,包括從底層的網(wǎng)絡(luò)就進(jìn)行了用戶的隔離,在這方面做得很多。
另外在任務(wù)調(diào)度、資源管理方面,我們也加了一層的設(shè)計(jì),可以靈活的調(diào)度用戶提交過(guò)來(lái)的任務(wù),對(duì)它進(jìn)行優(yōu)化。同時(shí)我們也結(jié)合了我們自身的云計(jì)算平臺(tái),在保留用戶原來(lái)習(xí)慣的情況下,方便用戶進(jìn)行海量數(shù)據(jù)存儲(chǔ)計(jì)算,而不需要考慮集群的維護(hù),降低用戶的使用經(jīng)濟(jì)成本和時(shí)間成本。
記者:UDDP提供了MapReduce 和 Hive,一般來(lái)說(shuō)MapReduce從時(shí)間,數(shù)據(jù)量,計(jì)算量上來(lái)看,都會(huì)優(yōu)于Hive。而Hive的開(kāi)發(fā)和維護(hù)成本卻遠(yuǎn)低于MapReduce,對(duì)于用戶不同場(chǎng)景的需求,在轉(zhuǎn)換的過(guò)程當(dāng)中UCloud有提供哪些解決方案?
王冬冬:我們?cè)趲椭脩魬?yīng)用一些大數(shù)據(jù)的時(shí)候,也的確發(fā)現(xiàn)了一些用戶對(duì)mapreduce使用感覺(jué)比較復(fù)雜,包括對(duì)Hive使用,也會(huì)覺(jué)得比較復(fù)雜。我們已經(jīng)在針對(duì)性的開(kāi)發(fā)一些周邊的工具,比如說(shuō)數(shù)據(jù)源同步、MapReduce算法模塊、數(shù)據(jù)流水線等一些工具,從MapReduce場(chǎng)景轉(zhuǎn)換到Hive這樣的工具,我們后續(xù)也會(huì)有可能提供。
通過(guò)這些周邊工具的開(kāi)發(fā),能夠很方便地讓原來(lái)不太了解的用戶快速入門,在整個(gè)數(shù)據(jù)產(chǎn)生到最終的應(yīng)用的過(guò)程,快速達(dá)成目標(biāo)。同時(shí)我們也會(huì)和第三方的一些公司、社區(qū)進(jìn)行合作,在一個(gè)良好的生態(tài)下為用戶提供這些服務(wù)。
記者:咱們還是在兩者之間開(kāi)發(fā)一些周邊的工具,提供給用戶,應(yīng)該說(shuō)是簡(jiǎn)化他們的一個(gè)操作流程。然后我之前也看到了您演講的PPT里面UDDP好像整合了HBase,能介紹一下整體的設(shè)計(jì)是怎樣的?
王冬冬:UDDP在整合HBase,現(xiàn)在已經(jīng)在公司內(nèi)部進(jìn)行測(cè)試,預(yù)計(jì)很快會(huì)對(duì)外發(fā)布。UDDP整體的系統(tǒng),它的底層存儲(chǔ)目前是用HDFS,后續(xù)會(huì)和我們自己的存儲(chǔ)產(chǎn)品進(jìn)行整合。在存儲(chǔ)之上,我們會(huì)提供兩套的分析框架,一個(gè)是MapReduce,一個(gè)是Spark。
另外同時(shí)我們也會(huì)提供一些HBase這種列存儲(chǔ),在MapReduce和Spark之上會(huì)衍生各種的工具,比如說(shuō)現(xiàn)有的一些Spark SQL……,整個(gè)集群還會(huì)有專門的安全和權(quán)限管理系統(tǒng),用于用戶權(quán)限的管理和數(shù)據(jù)的安全。同時(shí)還會(huì)有任務(wù)調(diào)度、監(jiān)控,去調(diào)度優(yōu)化用戶提交的任務(wù),保證集群在一個(gè)非常好的狀態(tài)下去運(yùn)行。
記者:在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)分析,更多人都會(huì)選擇Spark。剛才您也說(shuō)了,會(huì)集成Spark,專門做一些分析。大家都知道它是基于內(nèi)存上面進(jìn)行運(yùn)算的,這樣的話可能處理的數(shù)據(jù)會(huì)有限。在這方面,你們是如何解決這個(gè)問(wèn)題的?
王冬冬:我們對(duì)比了MapReduce和Spark,一方面Spark比MapReduce更通用了,因?yàn)镾park提供了比MapReduce更多的數(shù)據(jù)集的一個(gè)操作類型,比如說(shuō)MapReduce只是提供Map和Reduce這兩種操作,Spark還會(huì)提供一些filter,union,join,sort等等操作,這會(huì)讓編程模型更加靈活。
另外一方面,MapReduce在一些反復(fù)迭代的場(chǎng)景比較慢,它慢的原因就是MapReduce每次處理它的中間數(shù)據(jù),要直接寫在HDFS上面。那么Spark是建立在一個(gè)統(tǒng)一抽象的RDD上面,中間數(shù)據(jù)是寫在內(nèi)存當(dāng)中,在整個(gè)迭代運(yùn)算中會(huì)非常有優(yōu)勢(shì),非常有效率。
剛才您提到的內(nèi)存有限,實(shí)際上加載到內(nèi)存中的這個(gè)數(shù)據(jù),只是整體數(shù)據(jù)的一個(gè)子集,是它運(yùn)行中間的數(shù)據(jù)或者是一些Cache的數(shù)據(jù),并不一定需要同等規(guī)模的內(nèi)存來(lái)支持。Spark在一些細(xì)節(jié)的地方,就是說(shuō)如果你內(nèi)存不夠的情況下,也能夠很好地處理。
記者:在傳統(tǒng)的BI對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的一般規(guī)模結(jié)構(gòu)化,數(shù)據(jù)進(jìn)行處理分析和提供商業(yè)化商業(yè)智能的時(shí)候,都是基于Hadoop。那么就是說(shuō)基于Hadoop上面UDDP的戰(zhàn)略級(jí)別的數(shù)據(jù)是怎么樣的一個(gè)形式?
王冬冬:從目前數(shù)據(jù)類型的分布來(lái)看,全球不斷產(chǎn)生的新數(shù)據(jù),非結(jié)構(gòu)化的數(shù)據(jù)增長(zhǎng)是遠(yuǎn)遠(yuǎn)超過(guò)了結(jié)構(gòu)化數(shù)據(jù)的,而且這個(gè)差距會(huì)越來(lái)越大。那么傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)很難解決這種非結(jié)構(gòu)化數(shù)據(jù)的一個(gè)分析,在這方面是我們基于Hadoop的UDDP它所擅長(zhǎng)的。
當(dāng)然結(jié)構(gòu)化的數(shù)據(jù)需求是一直存在的,傳統(tǒng)BI之所以依賴這個(gè)數(shù)據(jù)倉(cāng)庫(kù),本身是整體的機(jī)制已經(jīng)非常穩(wěn)定和成熟。UDDP在針對(duì)結(jié)構(gòu)化數(shù)據(jù),一方面會(huì)和我們內(nèi)部的產(chǎn)品進(jìn)行結(jié)合,來(lái)提供服務(wù),比如說(shuō)上面提到的關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品UDB,另一方面,UDDP也會(huì)把數(shù)據(jù)流整個(gè)的生態(tài)給建立起來(lái),會(huì)提供一些數(shù)據(jù)流的工具,提供數(shù)據(jù)對(duì)接的接口,這樣讓用戶可以享受大數(shù)據(jù)平臺(tái)海量分析能力的同時(shí),不改變太多用戶的使用習(xí)慣,是這樣的方式來(lái)解決。
記者:剛才您說(shuō)UCloud上面也有一個(gè)叫源數(shù)據(jù),就是UDB,它跟UDDP之間會(huì)不會(huì)有一些整合進(jìn)去?
王冬冬:會(huì)得,這個(gè)一定會(huì),比如說(shuō)我們數(shù)據(jù)流的一個(gè)工具,我們當(dāng)前的一些用戶的數(shù)據(jù),是一個(gè)非常海量的非結(jié)構(gòu)化數(shù)據(jù),但是對(duì)于一些數(shù)據(jù)的運(yùn)營(yíng)人員,他們來(lái)看這個(gè)數(shù)據(jù)的時(shí)候,還是希望以表格、曲線圖這樣的方式來(lái)看。這部分?jǐn)?shù)據(jù)分析過(guò)后,可以去落地到udb里面,然后它的一個(gè)報(bào)表整體可以基于udb繼續(xù)去開(kāi)發(fā),去展示。
記者:剛才咱們也說(shuō)了,UDDP集群是基于Hadoop集群上面做的。在這基礎(chǔ)上有哪些優(yōu)化和創(chuàng)新?它們之間的關(guān)系是什么樣的?
王冬冬:UDDP集群基于Hadoop,是在Hadoop這個(gè)生態(tài)圈內(nèi),會(huì)把Hadoop成熟的一些思想、方法、工具集成進(jìn)來(lái),同時(shí)也會(huì)和我們?cè)朴?jì)算進(jìn)行結(jié)合,提供彈性,更低成本的海量分析服務(wù)。另外,我們還會(huì)深入到用戶場(chǎng)景中,把很多原來(lái)在每個(gè)用戶都需要處理的繁瑣的數(shù)據(jù)流程,通過(guò)圖形化,工具化提供給用戶,讓用戶基本上只需要定義好數(shù)據(jù)輸入、輸出,就能得到想要的數(shù)據(jù)。通過(guò)建立大數(shù)據(jù)的生態(tài)圈,也讓用戶可以共享更多人已經(jīng)實(shí)踐了的經(jīng)驗(yàn)。
記者:主要還是提供一些比較簡(jiǎn)潔明了的,圖形化的一些界面給用戶去使用。
王冬冬:對(duì)。
記者:在大數(shù)據(jù)爆發(fā)的時(shí)代,傳統(tǒng)行業(yè)如果通過(guò)大數(shù)據(jù)去提升它的競(jìng)爭(zhēng)力,UCloud這塊的一些案例您能分享一些嗎?主要是基于那些方面?
王冬冬:其實(shí)在互聯(lián)網(wǎng)行業(yè),數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)這樣的一個(gè)模型是比較成熟的。比如說(shuō)我們現(xiàn)在的游戲都是通過(guò)數(shù)據(jù)分析,去分析新用戶的增長(zhǎng),轉(zhuǎn)換率等等,它可以直接幫助我們改進(jìn)游戲的一個(gè)設(shè)計(jì)和運(yùn)營(yíng)。但是傳統(tǒng)行業(yè)在這方面運(yùn)用其實(shí)是比較少的,他們內(nèi)部雖然沉淀了很多的基礎(chǔ)數(shù)據(jù),但這些數(shù)據(jù)是靜止的,是不流動(dòng)的。
我們通過(guò)大數(shù)據(jù)的應(yīng)用,讓這些數(shù)據(jù)可以流動(dòng)起來(lái),可以和自身的業(yè)務(wù)結(jié)合起來(lái),然后去推動(dòng)業(yè)務(wù)的增長(zhǎng)。比如我們看現(xiàn)在的一些零售行業(yè),就是非常棒的例子,通過(guò)收集用戶的信息,通過(guò)用戶的反饋,去改進(jìn)他們整個(gè)的零售運(yùn)營(yíng)。
那么UCloud大數(shù)據(jù)產(chǎn)品剛發(fā)布不久,已經(jīng)和一些在線教育、金融還有視頻的用戶在接入。
記者:我了解咱們UCloud好像大部分都是基于游戲公司,以后的方向可能會(huì)跟在線教育這一塊,會(huì)提供更多的支持?
王冬冬:在線教育是我們非常重視的一塊,以后會(huì)提供更多支持。
記者:剛剛我們說(shuō)的可能就是基于UCloud層面,那么在UDDP平臺(tái)上,它在傳統(tǒng)行業(yè)是如何應(yīng)用的?比如您剛才也說(shuō)的在線教育可能不算傳統(tǒng)行業(yè),我們更多的是醫(yī)療、交通監(jiān)控等,傳統(tǒng)行業(yè)其實(shí)本身是有很多數(shù)據(jù)的,這些數(shù)據(jù)如果我要遷移到UDDP上面,我們這邊有提供一些什么樣的方式或接口?
王冬冬:對(duì)于傳統(tǒng)行業(yè),其實(shí)他們本身的大數(shù)據(jù)技術(shù)的積累是比較薄弱的。我們目前主要提供的還是一個(gè)數(shù)據(jù)分析的平臺(tái),針對(duì)于這些不同的用戶,我們還是有一些周邊的工具支持,比如說(shuō)用戶需要遷移,我們會(huì)提供一些遷移工具,比如他原來(lái)的數(shù)據(jù)放在Oracle,我們會(huì)提供一些Oracle遷移到我們的分析集群上的數(shù)據(jù);如果他們?cè)瓉?lái)是文本,或者是一些其他的關(guān)系數(shù)據(jù)庫(kù)或者是另外其他的介質(zhì),那么也會(huì)提供相應(yīng)的一些工具來(lái)支持到,用戶在遷移數(shù)據(jù)的時(shí)候成本就很低。
另外一個(gè)方面,其實(shí)真正在大數(shù)據(jù)應(yīng)用,我們幫助用戶更多的實(shí)際上是用戶去了解這個(gè)大數(shù)據(jù),去真正能夠感受到大數(shù)據(jù)到底能幫助他們做哪些事情,同時(shí)我們也會(huì)對(duì)他們的技術(shù)人員提供技術(shù)指導(dǎo),讓他們能夠很快地去適應(yīng)在大數(shù)據(jù)分析的場(chǎng)景下,在我們的大數(shù)據(jù)平臺(tái)上面怎么把數(shù)據(jù)整體給運(yùn)轉(zhuǎn)起來(lái),得到他們想要的數(shù)據(jù)。
記者:剛才你說(shuō)到Oracle數(shù)據(jù)庫(kù),UDDP現(xiàn)在好像我看到只支持兩款數(shù)據(jù)庫(kù),分別是MySQL和mangoDB,后期有其他更多的嗎?
王冬冬:我們現(xiàn)在其實(shí)提供產(chǎn)品主要的一個(gè)依據(jù),一方面是用戶的使用非常多,一旦用戶達(dá)到一定規(guī)模的時(shí)候,我們就會(huì)在這上面去提供相應(yīng)的一個(gè)產(chǎn)品,比如說(shuō)Oracle,其實(shí)我們?cè)趦?nèi)部也會(huì)討論。
記者:Oracle可能就是對(duì)于一些傳統(tǒng)行業(yè)用的比較多,大量的,這是我個(gè)人的理解。
王冬冬:對(duì)。
記者:在數(shù)據(jù)存儲(chǔ)上我大致了解幾類,像通常的key-value數(shù)據(jù)庫(kù),文檔型的數(shù)據(jù)庫(kù)mongodb,列式分布式數(shù)據(jù)庫(kù)HBase等等,對(duì)于不同的業(yè)務(wù),在UDDP上面是如何考量和選擇的?
王冬冬:我們提供的存儲(chǔ)還是根據(jù)用戶實(shí)際的應(yīng)用場(chǎng)景來(lái)看,比如說(shuō)mangoDB在游戲這個(gè)行業(yè)里面,應(yīng)用的是比較多。那么當(dāng)我們主打的一個(gè)行業(yè)是游戲行業(yè)的時(shí)候,我們會(huì)優(yōu)先考慮把mangoDB給提供上去。
記者:像咱們的一些潛在用戶,就是可能他對(duì)咱們的產(chǎn)品不是很了解,因?yàn)橹盎径际鞘褂眠^(guò)咱們產(chǎn)品的用戶,他才會(huì)給反饋。對(duì)于一些潛在用戶,有可能沒(méi)有用到您們提供的這兩款數(shù)據(jù)庫(kù),結(jié)果是會(huì)造成這些用戶的流失。
王冬冬:我們一方面其實(shí)就是說(shuō)讓用戶怎么來(lái)知道他應(yīng)該選擇哪一種產(chǎn)品,對(duì)于這一塊,一方面我們?cè)谖覀兊墓俜骄W(wǎng)站上也會(huì)提供一些成熟的案例,包括一些整體的架構(gòu)是怎么樣搭起來(lái),哪些產(chǎn)品在這個(gè)設(shè)計(jì)里面是非常好的。另外一方面,我們也會(huì)有架構(gòu)師去了解你的具體應(yīng)用場(chǎng)景,然后向你提供專業(yè)的幫助,還有,我們也會(huì)和一些第三方合作,拓展更多能夠幫助到用戶的咨詢渠道。
記者:在Hadoop上面數(shù)據(jù)同步的設(shè)計(jì)是相當(dāng)重要的,通常需要異構(gòu)數(shù)據(jù)源的同步,像數(shù)據(jù)文件到關(guān)系型數(shù)據(jù)庫(kù),或者數(shù)據(jù)文件到分布式數(shù)據(jù)庫(kù),關(guān)系型數(shù)據(jù)庫(kù)到分布式數(shù)據(jù)庫(kù)等等,這方面你們是如何做的?
王冬冬:任務(wù)調(diào)度配合數(shù)據(jù)同步工具來(lái)做,每一個(gè)數(shù)據(jù)源都像是一個(gè)插座一樣,我們做很多適配這種數(shù)據(jù)源的插頭,然后中間做對(duì)應(yīng)轉(zhuǎn)換,就像網(wǎng)一樣相互串起來(lái)。然后定時(shí)的任務(wù)調(diào)度就及時(shí)的調(diào)用工具,把數(shù)據(jù)同步任務(wù)做了。
記者:為了提高可用性,每個(gè)電商平臺(tái)都有容災(zāi)備份,以防止節(jié)點(diǎn)宕機(jī)失效帶來(lái)的不可用問(wèn)題,這方面你們選會(huì)如何選擇備份策略?
王冬冬:對(duì)于ucloud的每個(gè)產(chǎn)品都有對(duì)應(yīng)的容災(zāi)策略。在基礎(chǔ)設(shè)施方面,在北京我們做了同城機(jī)房災(zāi)備,3機(jī)房光纖環(huán)形鏈路鏈接,保證機(jī)房的高可用。在大數(shù)據(jù)產(chǎn)品方面,存儲(chǔ)是分布式存儲(chǔ),數(shù)據(jù)保存3份拷貝。所有存儲(chǔ)、計(jì)算的關(guān)鍵節(jié)點(diǎn)都有熱備。mapreduce、spark都有容錯(cuò)機(jī)制保證。同時(shí)我們自身的監(jiān)控系統(tǒng)也會(huì)及時(shí)發(fā)現(xiàn)問(wèn)題,對(duì)問(wèn)題任務(wù)進(jìn)行調(diào)度處理。