自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

WOT講師王東:基于實(shí)時(shí)敏捷大數(shù)據(jù)理念,構(gòu)建DBus+Wormhole兩大基礎(chǔ)平臺(tái)

原創(chuàng)
新聞
大數(shù)據(jù)發(fā)展到今天,越來越多的實(shí)時(shí)業(yè)務(wù)場景涌現(xiàn),通過流式處理技術(shù)實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)化和從數(shù)據(jù)中快速發(fā)現(xiàn)價(jià)值成為趨勢。但是,流式處理的實(shí)施存在較大難度,包括:人才短缺、開發(fā)成本高、上線周期長等,這就導(dǎo)致實(shí)時(shí)敏捷大數(shù)據(jù)的要求越發(fā)強(qiáng)烈,如何低成本、快速落地?cái)?shù)據(jù)產(chǎn)品成為很多公司考慮的問題。

   【51CTO.com原創(chuàng)稿件】七年一劍,華麗蛻變。自2012年起連續(xù)6年15場峰會(huì),凝聚大量技術(shù)專家,博觀而約取,厚積而薄發(fā)。2018WOT全球軟件與運(yùn)維技術(shù)峰會(huì)揚(yáng)帆起航,圍繞12大核心熱點(diǎn),匯聚海內(nèi)外60位一線專家,打造高端技術(shù)盛宴!

  在“大數(shù)據(jù)處理技術(shù)”分論壇現(xiàn)場中,宜信技術(shù)研發(fā)中心高級(jí)架構(gòu)師王東將給聽眾帶來一場名為《實(shí)時(shí)敏捷大數(shù)據(jù)在宜信的實(shí)踐及開源平臺(tái)DBus+Wormhole》的主題演講。在會(huì)前,51CTO記者采訪到了他,請(qǐng)他提前“劇透” ,精彩演講內(nèi)容就讓我們“先睹為快”吧!

  王東,宜信技術(shù)研發(fā)中心高級(jí)架構(gòu)師,主要負(fù)責(zé)日志歸集、流式處理和大數(shù)據(jù)業(yè)務(wù)產(chǎn)品解決方案,包括實(shí)時(shí)敏捷大數(shù)據(jù)技術(shù)棧基礎(chǔ)組件­——DBus實(shí)時(shí)數(shù)據(jù)總線平臺(tái)的建設(shè)和NLP技術(shù)解決方案的建設(shè)和探索等。王東擁有多年從事分布式數(shù)據(jù)庫引擎研發(fā)經(jīng)驗(yàn),在加入宜信之前,曾就職于Naver(韓國***搜索引擎公司),擔(dān)任中國研發(fā)中心資深研發(fā)工程師,負(fù)責(zé)開源項(xiàng)目CUBRID-cluster分布式數(shù)據(jù)庫開發(fā)和CUBRID數(shù)據(jù)庫引擎開發(fā)工作。

  用戶對(duì)實(shí)時(shí)敏捷大數(shù)據(jù)的要求越發(fā)強(qiáng)烈

  大數(shù)據(jù)發(fā)展到今天,越來越多的實(shí)時(shí)業(yè)務(wù)場景涌現(xiàn),通過流式處理技術(shù)實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)化和從數(shù)據(jù)中快速發(fā)現(xiàn)價(jià)值成為趨勢。但是,流式處理的實(shí)施存在較大難度,包括:人才短缺、開發(fā)成本高、上線周期長等,這就導(dǎo)致實(shí)時(shí)敏捷大數(shù)據(jù)的要求越發(fā)強(qiáng)烈,如何低成本、快速落地?cái)?shù)據(jù)產(chǎn)品成為很多公司考慮的問題。

  王東告訴記者,宜信也面臨著相同的需求和痛點(diǎn),遇到了同樣的挑戰(zhàn)。在過去兩年中,宜信通過建設(shè)實(shí)時(shí)敏捷大數(shù)據(jù)DBus(實(shí)時(shí)數(shù)據(jù)總線平臺(tái))和Wormhole(實(shí)時(shí)數(shù)據(jù)交換平臺(tái))兩個(gè)基礎(chǔ)服務(wù)平臺(tái),使得實(shí)時(shí)數(shù)據(jù)能力和快速實(shí)施數(shù)據(jù)產(chǎn)品能力得到了大幅提升。

  據(jù)介紹,實(shí)時(shí)敏捷大數(shù)據(jù)技術(shù)棧組件DBus和Wormhole已經(jīng)在宜信公司內(nèi)部宜人貸、大數(shù)據(jù)創(chuàng)新中心、技術(shù)研發(fā)中心等多個(gè)一級(jí)技術(shù)部門作為基礎(chǔ)設(shè)施提供服務(wù),并于2017年9月開源。目前,這兩個(gè)基礎(chǔ)服務(wù)平臺(tái)一直在維護(hù)和迭代中,一些社區(qū)用戶和企業(yè)用戶也在試用和使用中。

  基于實(shí)時(shí)敏捷大數(shù)據(jù)理念構(gòu)建的兩大基礎(chǔ)平臺(tái)

  前面提到,用戶對(duì)實(shí)時(shí)敏捷大數(shù)據(jù)的要求越發(fā)強(qiáng)烈。在本次大會(huì)中,王東將結(jié)合宜信在實(shí)時(shí)敏捷大數(shù)據(jù)方面遇到了問題、需求和挑戰(zhàn)等,從多個(gè)維度進(jìn)行分享。

  王東表示,大數(shù)據(jù)應(yīng)用要快速落地,除了建立大數(shù)據(jù)思維和數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)為導(dǎo)向之外,還面臨著諸多挑戰(zhàn):

  一)大數(shù)據(jù)技術(shù)生態(tài)體系龐雜,技術(shù)門檻高,需要對(duì)大數(shù)據(jù)技術(shù)、架構(gòu)、算法、業(yè)務(wù)都懂行的復(fù)合型人才;

  二)傳統(tǒng)商業(yè)智能BI應(yīng)用的失敗教訓(xùn)多,存在項(xiàng)目周期漫長、成本高、數(shù)據(jù)用戶參與度低、考驗(yàn)客戶耐性等諸多問題,且并沒有從BI實(shí)施中獲得更多的成功經(jīng)驗(yàn);

  三)大數(shù)據(jù)應(yīng)用的標(biāo)準(zhǔn)化和產(chǎn)品化問題。數(shù)據(jù)的動(dòng)態(tài)性、時(shí)效性、多樣性怎么進(jìn)行標(biāo)準(zhǔn)化管理,離線分析、在線分析、實(shí)時(shí)分析如何融合等。

  基于此,宜信對(duì)實(shí)時(shí)敏捷大數(shù)據(jù)提出了自己的理解:

  一)數(shù)據(jù)是實(shí)時(shí)計(jì)算和實(shí)時(shí)流轉(zhuǎn)的;

  二)通過組件平臺(tái)化的方式,提供平臺(tái)服務(wù),讓數(shù)據(jù)從業(yè)者能夠更多介入并釋放數(shù)據(jù)處理能力,回歸數(shù)據(jù)和業(yè)務(wù)本質(zhì);

  三)通過接口標(biāo)準(zhǔn)化方式,使得數(shù)據(jù)能夠在不同組件之間輕松流轉(zhuǎn);

  四)通過可視化的方式進(jìn)行配置,降低大數(shù)據(jù)產(chǎn)品開發(fā)門檻,同時(shí)降低運(yùn)維成本;

  五)基于SQL的方式來實(shí)現(xiàn)自助化,能夠快速原型驗(yàn)證,與需求方形成反饋閉環(huán)快速迭代,證明有效,從實(shí)踐中快速沉淀大數(shù)據(jù)產(chǎn)品。

  以上,通過實(shí)時(shí)化、組件化、標(biāo)準(zhǔn)化、可視化和自助化的方式提供技術(shù)平臺(tái),實(shí)現(xiàn)大數(shù)據(jù)的快速實(shí)施、快速驗(yàn)證、快速迭代,從而達(dá)到讓大數(shù)據(jù)應(yīng)用快速落地,實(shí)現(xiàn)商業(yè)價(jià)值。

  王東告訴記者,宜信在數(shù)據(jù)流轉(zhuǎn)中存在一些問題和痛點(diǎn),包括數(shù)據(jù)孤島的問題,數(shù)據(jù)時(shí)效性差、一致性差的問題,無法快速響應(yīng)業(yè)務(wù)需求開發(fā)數(shù)據(jù)產(chǎn)品的問題,運(yùn)維實(shí)時(shí)數(shù)據(jù)產(chǎn)品困難等問題。業(yè)務(wù)方希望方案能夠滿足低延時(shí)、高實(shí)時(shí)性、接入方案侵入性小、能夠快速開發(fā)數(shù)據(jù)產(chǎn)品、運(yùn)維成本低、數(shù)據(jù)安全和權(quán)限高等。并且,要求方案能夠接受定制化,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)多樣化和支持多種目標(biāo),例如HDFS、BASE、ES、Mongo、MySQL等。

  宜信基于對(duì)實(shí)時(shí)敏捷大數(shù)據(jù)的理念,構(gòu)建了DBus實(shí)時(shí)數(shù)據(jù)總線平臺(tái) + Wormhole實(shí)時(shí)流式處理平臺(tái)。其中,DBus作為實(shí)時(shí)數(shù)據(jù)總線平臺(tái),關(guān)注數(shù)據(jù)的抓取和結(jié)構(gòu)化;Wormhole作為實(shí)時(shí)流式處理平臺(tái),提供基于配置SQL的方式進(jìn)行各種流式計(jì)算,并支持落庫到各種常見數(shù)據(jù)目標(biāo)中。

  王東表示,考慮到參會(huì)者大都具有技術(shù)背景,因此他將從技術(shù)層面具體介紹這兩個(gè)平臺(tái)的內(nèi)部架構(gòu),重點(diǎn)介紹DBus和Wormhole這兩個(gè)平臺(tái)的關(guān)鍵實(shí)現(xiàn)原理,例如:DBus 數(shù)據(jù)增量數(shù)據(jù)如何生成,全量數(shù)據(jù)如何切片;Wormhole平臺(tái)中數(shù)據(jù)如何進(jìn)行流式計(jì)算優(yōu)化,如何高效落庫等。并結(jié)合應(yīng)用場景,對(duì)這兩個(gè)平臺(tái)解決的一些實(shí)際問題進(jìn)行介紹,包括:實(shí)時(shí)營銷、實(shí)時(shí)運(yùn)營和數(shù)倉同步等。

  結(jié)合場景應(yīng)用的DBus+Wormhole流式處理引擎

  大數(shù)據(jù)處理技術(shù)是一個(gè)很大的話題,涉及到數(shù)據(jù)采集、數(shù)據(jù)流轉(zhuǎn)、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)展示等諸多方面,包含批次、流式、AdHoc 、預(yù)算等各種訪問模式。在實(shí)時(shí)流式計(jì)算方面,考慮到各種計(jì)算引擎的特點(diǎn)和適合的場景,DBus+Wormhole采用了不同流式處理引擎。

  王東表示,業(yè)界流式處理的引擎不少,例如:Storm,Spark Stream,F(xiàn)link,Samza,Kafka Streams 等。如何選擇流式處理引擎,先要考慮各種計(jì)算引擎的特點(diǎn)和適合場景。

各種流式計(jì)算引擎的優(yōu)缺點(diǎn)

  據(jù)介紹,自2016年開始,宜信就啟動(dòng)了兩大平臺(tái)的建設(shè),考慮到當(dāng)時(shí)社區(qū)比較成熟的情況,DBus和Wormhole兩個(gè)平臺(tái)各自選擇了不同的流式處理引擎。

  DBus關(guān)注數(shù)據(jù)源的數(shù)據(jù)流出,希望以較低的延遲讓后端用戶更快的消費(fèi)到***數(shù)據(jù),盡可能的保證數(shù)據(jù)順序性。因此,DBus采用了storm作為處理引擎。Wormhole關(guān)注數(shù)據(jù)的實(shí)時(shí)流轉(zhuǎn)和實(shí)時(shí)落庫。對(duì)于數(shù)據(jù)流轉(zhuǎn)來說,最早支持SQL比較好的是spark;另外,從落庫的角度來說,以批量的方式落庫比單條落庫效率要高很多。因此,Wormhole采用Spark Streaming作為處理引擎。

  在保證數(shù)據(jù)一致性方面,需要在整個(gè)設(shè)計(jì)過程中考慮計(jì)算引擎支持這一要點(diǎn),否則會(huì)出現(xiàn)數(shù)據(jù)亂序的情況。宜信采用了讓DBus保證輸出的每條日志數(shù)據(jù)是唯一標(biāo)示和順序性u(píng)ms_id的方案。為了做到這一點(diǎn),DBus采用了物理文件編號(hào)和日志偏移量作為基礎(chǔ),保證了即便DBus重做數(shù)據(jù)的ums_id_,都不會(huì)改變。此外,Ums_id_的唯一性和順序性帶來了諸多好處,比如Wormhole落庫時(shí),通過比較ums_id_就能知道哪條數(shù)據(jù)更新過,哪條數(shù)據(jù)會(huì)被覆蓋等。

  另外,作為流式Extract-Transform-Load 工具,DBus和Wormhole還做出許多額外的努力。首先,作為數(shù)據(jù)的采集方(Extract), DBus為了減少對(duì)數(shù)據(jù)源端的侵入性和實(shí)時(shí)性,沒有用trigger或時(shí)間戳的方式抽取增量數(shù)據(jù),采用了通過讀取數(shù)據(jù)庫備庫日志的方式獲得增量數(shù)據(jù)。為此,不同的數(shù)據(jù)源采用了不同的解決方案。同時(shí),DBus還實(shí)現(xiàn)了數(shù)據(jù)源端schema變更自動(dòng)感知的能力,區(qū)分兼容性變更和非兼容性變更,自動(dòng)將變更體現(xiàn)在UMS的版本上,并提供郵件通知報(bào)警的功能。

  對(duì)于數(shù)據(jù)的實(shí)時(shí)轉(zhuǎn)換(Transform),為了提高流上Spark SQL Join性能低下和Join不到的問題,Wormhole重新實(shí)現(xiàn)了流上join的邏輯,大幅提高了流上join的性能。并且,引入了時(shí)間窗口的概念,對(duì)于沒有l(wèi)ookup到的數(shù)據(jù)選擇在時(shí)間窗內(nèi),隨同下一批mini batch的數(shù)據(jù)再次進(jìn)行join,最終提高join的成功率。

  為了更有效的落庫裝載(Load),Wormhole首先基于主鍵對(duì)batch數(shù)據(jù)進(jìn)行repartition,這樣合并了不需要的寫入,減少了寫入量的同時(shí)也避免了死鎖。另外,采用基于batch和基于預(yù)讀的邏輯,大幅提高了batch的寫入性能。

  ***,在流式處理過程中,如何驗(yàn)證整個(gè)鏈路數(shù)據(jù)的暢通性、時(shí)效性,在沒有數(shù)據(jù)的情況下如何知道整條鏈路是正常工作的?DBus從源端引入了心跳機(jī)制,通過定時(shí)向源端插入心跳數(shù)據(jù),并沿路進(jìn)行實(shí)時(shí)捕獲。整條鏈路從抓取到轉(zhuǎn)換和最終落庫,都提供實(shí)時(shí)監(jiān)控和預(yù)警,保證在即使沒有任何用戶數(shù)據(jù)的情況下,心跳數(shù)據(jù)也在實(shí)時(shí)探活和自我證明,進(jìn)行自我預(yù)警和實(shí)時(shí)監(jiān)控。

  5 月 18 - 19日,北京•粵財(cái)JW萬豪酒店,全球最值得關(guān)注的IT技術(shù)盛宴與您不見不散。2018WOT全球軟件與運(yùn)維技術(shù)峰會(huì)一定是您發(fā)現(xiàn)全新思路、挖掘***思想、拓展人脈的重要平臺(tái)。

  目前我們的各項(xiàng)票種已全面發(fā)售。需要提醒您的是,購票越早,折扣越大!與KOL零距離交流,呈現(xiàn)不一樣的“英雄盛宴”!

  點(diǎn)擊官網(wǎng)了解詳情:wot.51cto.com

  7折預(yù)售中,搶票從速。

 

責(zé)任編輯:張誠 來源: 51CTO
相關(guān)推薦

2018-05-31 16:13:12

大數(shù)據(jù)架構(gòu)趨勢

2015-11-24 09:45:07

WOT大數(shù)據(jù)互聯(lián)網(wǎng)金融

2018-01-08 16:08:12

污染源大數(shù)據(jù)普查

2018-06-20 09:07:55

王東

2014-08-14 10:02:34

大數(shù)據(jù)行業(yè)

2015-11-26 13:50:09

2016-12-05 14:05:32

2022-03-01 18:23:17

架構(gòu)大數(shù)據(jù)系統(tǒng)

2015-10-27 09:52:03

51CTO

2015-11-23 11:31:47

wot大數(shù)據(jù)運(yùn)營

2016-09-04 15:14:09

攜程實(shí)時(shí)數(shù)據(jù)數(shù)據(jù)平臺(tái)

2010-09-15 09:19:59

2010-09-25 10:06:19

2015-10-22 16:41:45

WOT2015大數(shù)據(jù)O2O

2010-05-04 14:30:45

Oracle數(shù)據(jù)

2016-10-31 12:48:38

2012-11-28 09:34:40

浪潮一體機(jī)大數(shù)據(jù)王恩東

2015-11-22 20:17:16

2017-09-26 09:35:22

2015-11-25 10:33:47

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)