WOT干貨大放送:大數(shù)據(jù)架構發(fā)展趨勢及探索實踐分享
原創(chuàng)【51CTO.com原創(chuàng)稿件】2018年5月18-19日,由51CTO主辦的全球軟件與運維技術峰會在北京召開。來自全球企業(yè)的技術精英匯聚北京,暢談軟件技術前沿,共同探索運維技術的新邊界。而在本次大會上,除了眾星云集的主論壇環(huán)節(jié),12場分論壇更是各具特色,分別聚焦了時下最受關注的容器、AI、區(qū)塊鏈、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術領域,是一次圍繞軟件與運維方向的技術干貨與實踐經(jīng)驗分享的高端技術盛宴。
18日下午的大數(shù)據(jù)處理技術分會場,PingCAP CTO黃東旭、易觀智庫CTO郭煒、Mob開發(fā)者服務平臺技術副總監(jiān)林榮波、宜信技術研發(fā)中心高級架構師王東及商助科技(99Click)顧問總監(jiān)鄭泉五位講師,分別針對時下熱門的HTAP數(shù)據(jù)庫TiDB、去ETL化的IOTA架構、數(shù)據(jù)工廠架構、實時敏捷大數(shù)據(jù)理念實踐、基于場景的大數(shù)據(jù)營銷等話題,展開實踐分享。
PingCAP CTO 黃東旭
如何運用HTAP數(shù)據(jù)庫幫到你? TiDB的故事
TiDB是一套開源分布式HTAP數(shù)據(jù)庫,同時提供MySQL與Spark SQL接口。PingCAP CTO黃東旭在演講中介紹,TiDB旨在以HTAP(Hybrid Transactional/Analytical Processing)數(shù)據(jù)庫的形式支持基于實時交易數(shù)據(jù)的實時業(yè)務分析需求,他分享了TiDB的設計思路,以及TiDB集群在部署與運營方面的最佳實踐。
黃東旭提到,當前數(shù)據(jù)庫領域面臨很多問題,數(shù)據(jù)庫解決方案和大數(shù)據(jù)分析引擎解決方案處于割裂的狀態(tài),由于Oracle、MySQL數(shù)據(jù)庫并不是面向分布式環(huán)境而設計,因此即使勉強通過分庫、分表或中間件的方式,在數(shù)據(jù)庫層面做了分片,從本質上看也只是復制了相同的堆棧,而非針對分布式系統(tǒng)進行存儲和計算優(yōu)化,這正是進行跨業(yè)務查詢或跨物理機查詢和寫入十分繁瑣的本質原因。
為了解決這一問題,TiDB在架構上將計算和存儲層進行高度的抽象和分離,對混合負載的場景通過IO優(yōu)先級隊列,智能副本調(diào)度,行列混合存儲等技術使其變?yōu)榭赡堋iDB產(chǎn)品的整體架構是分層的,由分布式SQL層(TiDB)、分布式KV存儲引擎(TiKV)以及管理整個集群的PD模塊組成。無限水平擴展是TiDB的一大特點,這里所說的水平擴展包括兩方面:計算能力和存儲能力。
HTAP給開發(fā)者提供了一個實時數(shù)據(jù)分析方面的新思路,不需要再去維護另一個離線的數(shù)據(jù)倉庫,既減輕了ETL的工作,又能節(jié)省很大一部分建立數(shù)據(jù)倉庫所用到的存儲和計算成本,HTAP將是未來的重要趨勢。黃東旭介紹了HTAP數(shù)據(jù)庫的三類主要應用場景,一是大中臺[鳶瑋1] 的場景;二是為微服務提供強一致的持久化數(shù)據(jù)層(the source of truth);三是MySQL分庫分表的完美替代品。
易觀 CTO 郭煒
Lambda架構已死,新一代去ETL化的IOTA架構
易觀CTO郭煒表示, 在大數(shù)據(jù)3.0時代,Lambda大數(shù)據(jù)架構已經(jīng)無法滿足企業(yè)用戶日常大數(shù)據(jù)分析和精益運營的需要,去ETL化的IOTA大數(shù)據(jù)架構才是未來。郭煒從Lambda與Kappa架構的發(fā)展及優(yōu)缺點展開,闡述了IOTA大數(shù)據(jù)架構的思路及優(yōu)缺點,以及易觀在IOTA架構領域的實踐經(jīng)驗。
在過去Lambda數(shù)據(jù)架構是每一個公司大數(shù)據(jù)平臺必備的架構,Lambda架構經(jīng)歷多年的發(fā)展,其優(yōu)點是穩(wěn)定,對于實時計算部分的計算成本可控。然而在大數(shù)據(jù)3.0時代,其致命缺點逐漸顯現(xiàn):一是實時與批量計算結果不一致引起的數(shù)據(jù)口徑問題;二是批量計算在計算窗口內(nèi)無法完成;三是數(shù)據(jù)源變化要重新開發(fā),開發(fā)周期長;四是服務器存儲壓力大。
針對Lambda的部分缺陷,Kappa架構被提出來,其核心思想是通過改進流計算系統(tǒng)來解決數(shù)據(jù)全量處理的問題,使得實時計算和批處理過程使用同一套代碼。然而Kappa架構的缺點也十分明顯,那就是流式處理對于歷史數(shù)據(jù)的高吞吐量力不從心,開發(fā)周期長以及服務器成本浪費嚴重。
為解決上述問題,郭煒針對IoT時代的特點提出了新一代的大數(shù)據(jù)IOTA架構,整體思路是設定標準數(shù)據(jù)模型,通過邊緣計算技術把所有的計算過程分散在數(shù)據(jù)產(chǎn)生、計算和查詢過程當中,以統(tǒng)一的數(shù)據(jù)模型貫穿始終,從而提高整體的預算效率,同時滿足即時計算的需要,可以使用各種Ad-hoc Query來查詢底層數(shù)據(jù)。
IOTA整體技術結構分為以下幾部分:
- Common Data Model
- Edge SDKs & Edge Servers
- Real Time Data
- Historical Data
- Dumper
- Query Engine
- Realtime model feedback
IOTA大數(shù)據(jù)架構主要有如下幾個特點:一是去ETL化,解決了大數(shù)據(jù)處理中ETL和相關開發(fā)的痛點;二是不用等待ETL或Streaming的數(shù)據(jù)研發(fā)和處理,實現(xiàn)了Ad-hoc即時查詢;三是將過去統(tǒng)一到中央進行整體計算,分散到數(shù)據(jù)產(chǎn)生、存儲和查詢端,實現(xiàn)邊緣計算。
Mob開發(fā)者服務平臺技術副總監(jiān) 林榮波
數(shù)據(jù)工廠架構升級分享
Mob是全球領先第三方全景數(shù)據(jù)服務平臺,其SDK產(chǎn)品現(xiàn)已累計服務23萬開發(fā)者,36萬個App。Mob在數(shù)據(jù)工廠的構成以及運作方面,有著全球領先的技術實力。Mob開發(fā)者服務平臺技術副總監(jiān)林榮波分享了數(shù)據(jù)工廠整體架構設計實踐與變革歷程,從數(shù)據(jù)源、數(shù)據(jù)關系以及商業(yè)化產(chǎn)品產(chǎn)出效能這三大領域,闡述數(shù)據(jù)工廠的運作模式,以及結構升級對原有問題的優(yōu)化和解決方案。
林榮波總結了公司創(chuàng)建以來在數(shù)據(jù)采集和處理方面的三大問題:一是數(shù)據(jù)源的問題,主要包括地域和應用市場政策問題,硬件和系統(tǒng)兼容問題,SDK業(yè)務團隊與商業(yè)化團隊碰撞問題等;二是數(shù)據(jù)關系問題,數(shù)據(jù)源到成品數(shù)據(jù)鏈雜亂,團隊學習成本加劇,開發(fā)人員進行數(shù)據(jù)加工越來越累;三是商業(yè)化產(chǎn)品產(chǎn)出效能問題,產(chǎn)品迭代與新品的產(chǎn)出效能低,大數(shù)據(jù)開發(fā)和產(chǎn)品服務端的耦合度高,服務穩(wěn)定性、隔離性較差。
Mob針對數(shù)據(jù)源問題提出了這樣的解決思路,采用公有云+私有云的方案確保數(shù)據(jù)正常,運用智能DNS+本地服務干預的方式將服務流量分發(fā),增加服務開關設置解決數(shù)據(jù)項的政策問題,成立通用組件團隊解決團隊之間問題。
林榮波用“數(shù)據(jù)即血液”比喻數(shù)據(jù)關系,Mob通過表定義規(guī)劃、文檔規(guī)范,制定一些標準的工作流程,開發(fā)血緣管理系統(tǒng),QC系統(tǒng)(監(jiān)控數(shù)據(jù)流健康狀態(tài)&容錯處理),解決了數(shù)據(jù)關系的問題。
在商業(yè)化產(chǎn)出效能方面,Mob采用搭建中間件的方式來解決,形象的比喻就是數(shù)據(jù)庫的客戶端,它包括三大組件:3A系統(tǒng),進行統(tǒng)一計費以及權限管理;商業(yè)化查詢網(wǎng)關服務,實現(xiàn)負載均衡、請求監(jiān)控、過載保護和故障定位等功能;最后是單獨的微服務集群。目前大多數(shù)商業(yè)化項目都可以由中間件的這三大組件搭建和拼接出來。針對那些新的或臨時性的商業(yè)需求,則交給HDP(個性化數(shù)據(jù)提供商)處理。
宜信技術研發(fā)中心高級架構師 王東
實時敏捷大數(shù)據(jù)在宜信的實踐
自去年9月宜信開源了AIOps三大利器(UAVStack,Wormhole,DBus)之后,這幾款開源軟件受到業(yè)界廣泛關注,不少企業(yè)已經(jīng)試用,甚至部署到生產(chǎn)中。宜信技術研發(fā)中心高級架構師王東介紹了實時敏捷大數(shù)據(jù)在宜信的實踐過程,包括過去幾年宜信在實時大數(shù)據(jù)方面的需求、痛點和挑戰(zhàn),以及實時敏捷大數(shù)據(jù)的基本概念和設計思路。此外,王東還介紹了宜信實時敏捷大數(shù)據(jù)的基石DBus+Wormhole兩個平臺的總體架構、主要功能、關鍵技術原理和優(yōu)化方案,以及使用這兩個平臺構建和解決的各種實時場景的應用:包括實時營銷、實時運營、實時報表和數(shù)據(jù)同步等。
他總結并分析了大數(shù)據(jù)應用項目面臨的一些痛點,包括:數(shù)據(jù)孤島、數(shù)據(jù)時效性差、一致性差、無法快速響應業(yè)務開發(fā)數(shù)據(jù)產(chǎn)品等問題,并向與會者解讀了實時大數(shù)據(jù)應用中面臨的幾項技術挑戰(zhàn):如何解決大數(shù)據(jù)中來源多樣化、實時性差的問題;如何降低大數(shù)據(jù)使用的技術門檻;如何快速迭代響應用戶需求,讓用戶參與進來,自助完成數(shù)據(jù)應用等。
宜信基于對實時敏捷大數(shù)據(jù)的理念,構建了DBus實時數(shù)據(jù)總線平臺 + Wormhole實時流式處理平臺。其中,DBus作為實時數(shù)據(jù)總線平臺,關注數(shù)據(jù)的抓取和結構化;Wormhole作為實時流式處理平臺,提供基于配置SQL的方式進行各種流式計算,并支持落庫到各種常見數(shù)據(jù)目標中。
王東從技術層面具體介紹這兩個平臺的內(nèi)部架構,重點介紹了DBus和Wormhole兩個平臺的關鍵實現(xiàn)原理,例如:DBus 數(shù)據(jù)增量數(shù)據(jù)如何生成,全量數(shù)據(jù)如何切片;Wormhole平臺中數(shù)據(jù)如何進行流式計算優(yōu)化,如何高效落庫等,并結合應用場景,對這兩個平臺解決的一些實際問題進行介紹,包括:實時營銷、實時運營和數(shù)倉同步等。
商助科技(99Click)顧問總監(jiān)鄭泉
場景化大數(shù)據(jù)分析與營銷
商助科技(99Click)顧問總監(jiān)鄭泉介紹,99Click是第一家獲得互聯(lián)網(wǎng)營銷數(shù)據(jù)分析專利的服務提供商,對大部分互聯(lián)網(wǎng)企業(yè)而言,大數(shù)據(jù)的價值已經(jīng)超越了單純的積累數(shù)據(jù)或比拼運算效率,場景化是一個越來越熱的話題,他在本次演講中重點分享了場景化大數(shù)據(jù)營銷的實踐經(jīng)驗。
企業(yè)的數(shù)據(jù)來源于產(chǎn)品、銷售、推廣、會員、供應鏈、財務以及管理等方方面面,這些數(shù)據(jù)在內(nèi)部管理和對外營銷兩方面凸顯其價值。隨著大數(shù)據(jù)技術的快速發(fā)展,用戶數(shù)據(jù)、用戶畫像不斷完善,精準營銷乃大勢所趨。當今的互聯(lián)網(wǎng)市場,用戶增長放緩,用戶平均使用時長已近飽和狀態(tài),增長空間十分狹小。因此,對互聯(lián)網(wǎng)企業(yè)來說,如何拉新、促活、召回和留存用戶,提升用戶粘性,并實現(xiàn)商業(yè)變現(xiàn),是企業(yè)挖掘互聯(lián)網(wǎng)財富的工作重點。
99click 營銷數(shù)據(jù)模型
鄭泉認為,互聯(lián)網(wǎng)商業(yè)變現(xiàn)的能力涉及到場景入口和場景轉化能力。從客戶的時間、地點、事件等信息判斷客戶所屬的場景,站在客戶的角度去分析其需求,是提升轉化率的關鍵。用戶在不同場景間的行為產(chǎn)生了用戶數(shù)據(jù),觸發(fā)、期望、接近、知曉、聯(lián)系、行動、響應以及評價,是用戶體驗生命周期的一個循環(huán)過程,企業(yè)可以通過數(shù)據(jù)分析出哪個環(huán)節(jié)出了問題,從而進行有針對性的營銷。
99click “一站式”解決方案
99click提供場景化大數(shù)據(jù)分析與營銷的一站式解決方案,99click為剛剛成立不久、業(yè)務模式還在探索及調(diào)整階段的企業(yè),提供兩項服務:一是系統(tǒng)服務,包括站點運營、推廣觸達、商品分析、用戶分析及數(shù)據(jù)整合等;二是人工服務,涵蓋初始化與全周期服務,數(shù)據(jù)分析與優(yōu)化服務,從需求溝通與確認,定制方案,實施支持,數(shù)據(jù)校對與分析,到給出優(yōu)化建議,是一個完整的人工服務流程。
大數(shù)據(jù)架構正悄然轉變
從五位講師的分享中不難看出,現(xiàn)階段數(shù)據(jù)庫技術、大數(shù)據(jù)架構和應用還存在諸多難題,然而技術發(fā)展從未止步,正因有這些勇于探索、創(chuàng)新實踐、樂于分享的有志之士,才讓技術不斷迭代、快速演進。本次大數(shù)據(jù)專場上,聽眾爆滿,互動問答環(huán)節(jié),與會嘉賓追問頻頻,講師均做出耐心解答。講師們帶來的全方位企業(yè)級大數(shù)據(jù)處理技術,以及前瞻性的實踐經(jīng)驗分享,讓與會嘉賓受益頗多。
【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】