新浪微博廖博:WAIC實時流計算平臺的成長和繁衍
原創(chuàng)【51CTO.com原創(chuàng)稿件】七年一劍,華麗蛻變。自2012年起連續(xù)6年15場峰會,凝聚大量技術專家,博觀而約取,厚積而薄發(fā)。2018WOT全球軟件與運維技術峰會5月18日揚帆起航,圍繞12大核心熱點,匯聚海內外60位一線專家,打造高端技術盛宴!
在5月19日下午的C會場“高并發(fā)與實時處理”專場中,新浪微博實時流技術平臺負責人廖博將帶來精彩的分享。會前,51CTO記者有幸采訪到他,針對“WAIC實時流計算平臺的成長和繁衍”這一主題進行了深入的交流。
隨著新浪微博業(yè)務的不斷推進,對數(shù)據(jù)處理的實時性要求越來越高。例如,大家所熟悉的微博熱詞,需要在很短的時間內完成數(shù)據(jù)處理以供在線系統(tǒng)使用。WAIC實時流計算平臺為新浪微博提供可靠的毫秒級和秒級實時數(shù)據(jù)處理服務,通過提供統(tǒng)一的數(shù)據(jù)源和配置化接入方式,幫助提高新浪微博實時作業(yè)的開發(fā)效率,降低部門開發(fā)與運營的成本。
新浪微博實時流技術平臺負責人廖博
廖博介紹,目前WAIC實時流計算平臺經歷了三個發(fā)展階段:
- ***階段,是由各種需求驅動的自由發(fā)展時期,新浪微博技術團隊在這一階段進行實時計算技術的研究和業(yè)務應用;
- 第二階段,隨著行業(yè)的發(fā)展以及業(yè)務對實時數(shù)據(jù)處理需求的急速增加,迫切需要一個實時流計算平臺來支撐快速的業(yè)務發(fā)展需求,該階段完成了實時流計算平臺的初步建設;
- 第三階段,是繁榮生長的階段,包括統(tǒng)一監(jiān)控平臺、實時數(shù)據(jù)對賬系統(tǒng)、實時數(shù)據(jù)源建設等基礎設施建設,以及樣本生成平臺、第三方特征接入平臺等各類子服務平臺。
WAIC實時流計算平臺用storm、kafka、scribe、flume、http、docker等較為成熟的技術進行平臺構建,以統(tǒng)一監(jiān)控平臺、實時數(shù)據(jù)對賬系統(tǒng)、實時數(shù)據(jù)源為平臺基礎,利用新浪自主研發(fā)的weipig開發(fā)框架進行實時計算方法的沉淀和配置化開發(fā)工具。據(jù)介紹,WAIC平臺滿足了新浪微博實時打標簽,feed、Push等業(yè)務的實時特征生成,以及圖片、音視頻等多媒體文件分析的業(yè)務需求。
業(yè)內人士都知道,吞吐量和擴展性是考驗實時流技術的重要標準。目前,WAIC實時流計算平臺的吞吐量在40W/s左右。擴展性方面,WAIC平臺采用插拔式的接入方式,只需按照規(guī)范開發(fā)相應的weibox:首先將接入方式進行抽象,制定相應的規(guī)范,需要擴展的實時集群只要按規(guī)范接入即可。
***,廖博提到,WAIC實時流計算平臺仍有一些問題尚未解決,包括實時流計算任務的統(tǒng)一資源調度,case統(tǒng)一追蹤平臺,多媒體分析平臺,以及多機房多網絡容災。其中,前三項是新浪微博實時流技術平臺下一步建設的重點。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】