自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

動輒數(shù)百TB級數(shù)據(jù)的分析平臺 海量并發(fā)無壓力

大數(shù)據(jù) 數(shù)據(jù)分析
從本質(zhì)上來講,大數(shù)據(jù)平臺的目標(biāo)都是完成對數(shù)據(jù)的采集、清洗、加工、加載、建模分析,可視化的過程。本文源自諸葛io創(chuàng)始人&CEO孔淼在AWS技術(shù)峰會上的分享內(nèi)容,從技術(shù)架構(gòu)和底層平臺方面講解全量數(shù)據(jù)處理的分析平臺如何實(shí)現(xiàn)。

從本質(zhì)上來講,大數(shù)據(jù)平臺的目標(biāo)都是完成對數(shù)據(jù)的采集、清洗、加工、加載、建模分析,可視化的過程。本文源自諸葛io創(chuàng)始人&CEO孔淼在AWS技術(shù)峰會上的分享內(nèi)容,從技術(shù)架構(gòu)和底層平臺方面講解全量數(shù)據(jù)處理的分析平臺如何實(shí)現(xiàn)。本文為第三篇,此前分別從行業(yè)現(xiàn)狀和趨勢(原文《「場景化」增長的踐行者:探尋大數(shù)據(jù)時代的商業(yè)變革》);及分析模型(原文《諸葛io圍繞用戶的場景化分析 驅(qū)動數(shù)據(jù)價值釋放》)兩方面闡述。

海量數(shù)據(jù)并發(fā)「無壓力」用戶會話真實(shí)「不切割」

動輒數(shù)百TB級數(shù)據(jù)的分析平臺 海量并發(fā)無壓力

數(shù)據(jù)收集端

諸葛io的數(shù)據(jù)采集采用的是LVS+Nginx+Lua,而不是簡單的Nginx,之所以這樣設(shè)計(jì)是因?yàn)椋?/p>

  • “多租戶”平臺要同時支持很多大型應(yīng)用,例如“墨跡天氣”,“Flipboard紅板報”等大數(shù)據(jù)量的數(shù)據(jù)上傳;
  • 率先采用https協(xié)議的數(shù)據(jù)采集分析平臺,所以比http高并發(fā)面臨的挑戰(zhàn)會更大;
  • 保證高響應(yīng)的速度;

此外,諸葛io的私有部署也同時支持該架構(gòu),保障用戶數(shù)據(jù)上傳的實(shí)時性,準(zhǔn)確性。

數(shù)據(jù)分析模型

諸葛io的數(shù)據(jù)分析模型更高級,我們的模型是“用戶-觸點(diǎn)(設(shè)備)-會話-事件”:

動輒數(shù)百TB級數(shù)據(jù)的分析平臺 海量并發(fā)無壓力

a. 會話是行業(yè)分析的標(biāo)準(zhǔn),我們的模型基于實(shí)時還原用戶會話場景,而不是通過“規(guī)則”來人為切割;

b. 諸葛io對“用戶”的判斷一直以來都是行業(yè)比較領(lǐng)先的規(guī)則,傳統(tǒng)的“用戶”其實(shí)是“設(shè)備”,而我們能找到用戶與設(shè)備的關(guān)系,透過設(shè)備來追蹤背后真正的用戶,包括不限于:

  • 用戶注冊前的匿名行為與注冊后行為的關(guān)聯(lián)
  • 單用戶的多設(shè)備(跨平臺)行為關(guān)聯(lián)
  • 單設(shè)備多用戶的行為還原

為了支持這樣的數(shù)據(jù)模型,我們需要更復(fù)雜的服務(wù)端邏輯處理,Codis是領(lǐng)先的Redis分布式組件,讓我們的實(shí)時匹配更可擴(kuò)展,而SSDB是兼容Redis協(xié)議的硬盤存儲,支持海量的關(guān)系存儲。

  • 基礎(chǔ)存儲、索引、OLAP

諸葛io同時支持SaaS和私有化部署,所以有統(tǒng)一的ETL以及差異化的數(shù)據(jù)存儲和查詢引擎,基礎(chǔ)存儲基于S3和HDFS。Redshift是很多硅谷最***的公司都使用的技術(shù),包括Airbnb, Yelp, Pinterest等等,我們致力于給國內(nèi)客戶提高更高品質(zhì)的云端分析能力,所以也采用了更好的基礎(chǔ)設(shè)施。

站在AWS的肩膀上

動輒數(shù)百TB級數(shù)據(jù)的分析平臺 海量并發(fā)無壓力

諸葛io依托AWS可靈活拓展的云計(jì)算平臺,可降低持續(xù)成本,無需購買服務(wù)器等前期設(shè)備,快速實(shí)現(xiàn)數(shù)據(jù)應(yīng)用,縮減基礎(chǔ)設(shè)施成本及時間成本;企業(yè)搭建大數(shù)據(jù)平臺的目的是應(yīng)用而不是運(yùn)維,所以諸葛io通過AWS平臺降低企業(yè)運(yùn)維成本;此外為了便于諸葛io在其他方面的探索,比如在AI方面進(jìn)行探索,通過AWS平臺提供的AMI可極大地降低研發(fā)成本。

總之,基于AWS平臺彈性化的豐富功能,更人性化的設(shè)計(jì)方案,更高質(zhì)量的全球服務(wù),為諸葛io提供了優(yōu)質(zhì)的基礎(chǔ)設(shè)施服務(wù):

1、功能豐富

AWS的功能非常豐富,除了EC2作為基礎(chǔ)機(jī)器之外,PaaS方面,我們使用了EMR/ S3/Redshift等組件,小的功能方面,還包括AMI鏡像備份恢復(fù),用戶的IAM權(quán)限分配,Instance機(jī)器種類和外置磁盤EBS的選型,分布式S3的文件存儲功能以及工作中產(chǎn)生的業(yè)務(wù)需求等。

2、彈性化

諸葛io在搭建基礎(chǔ)設(shè)施之初,就以滿足海量數(shù)據(jù)規(guī)模計(jì)算為目標(biāo),隨著諸葛io每年企業(yè)客戶呈指數(shù)級的增長,再次證明最初的堅(jiān)持是正確的。

海量數(shù)據(jù)并發(fā),當(dāng)系統(tǒng)負(fù)載、QPS偏高時,常出現(xiàn)CPU利用率達(dá)到100%的情況,此時諸葛io即可通過調(diào)用AWS API接口來實(shí)現(xiàn)彈性擴(kuò)容,包括主機(jī)的分配、流量的分配、IP的綁定、域名解析的配置以及存儲服務(wù)等。

3、全球服務(wù)

能夠在節(jié)約成本的前提下,非常方便的進(jìn)行擴(kuò)容和Hadoop/Spark數(shù)據(jù)計(jì)算,在全球部署自己的數(shù)據(jù)中心,幫助諸葛io為全球企業(yè)客戶提供服務(wù)。

Amazon EMR

Amazon EMR 是一種 Web 服務(wù),它能讓企業(yè)、研究人員、數(shù)據(jù)分析師和開發(fā)人員能夠輕松、經(jīng)濟(jì)高效地處理海量數(shù)據(jù)。

大數(shù)據(jù)平臺基于Hadoop,技術(shù)復(fù)雜度非常高,對諸葛io而言,底層的運(yùn)維壓力和成本壓力非常大。因?yàn)閯虞m一個客戶可能就是數(shù)百TB級的數(shù)據(jù),我們必須選擇非常靈活、低成本的方式來支撐業(yè)務(wù),所以我們選擇EMR。

此外,Hadoop有很多發(fā)行版,在選擇不同的Hadoop版本時,EMR幫助諸葛io更快捷地篩選適合我們的發(fā)行版套餐,Hadoop在組件的更新和支持上非常迅速,幫助諸葛io及時跟進(jìn)***技術(shù)來調(diào)整方案。

基于Amazon EMR易操作,易于設(shè)置集群/Hadoop/節(jié)點(diǎn)、在重試失敗任務(wù)等方面具有很高的可靠性、允許任何規(guī)模處理數(shù)據(jù)來靈活控制成本支出、通過自動配置Amazon EC2防火墻設(shè)置保證數(shù)據(jù)安全,靈活自定義群集,使用成本的優(yōu)勢,為諸葛io搭建一個強(qiáng)大的技術(shù)支持。

EMR & S3 有效結(jié)合

采用AWS的S3(數(shù)據(jù)采集平臺)存儲數(shù)據(jù),可對分散的數(shù)據(jù)進(jìn)行有效的集中管理,滿足對不同框架的輸入需求,甚至支持Redshift的直接查詢,而且有高持久性。在諸葛io的實(shí)際運(yùn)用中,通過將EMR與S3的有效結(jié)合,降低數(shù)據(jù)傳輸成本,增加數(shù)據(jù)存儲能力擴(kuò)展性,增強(qiáng)計(jì)算能力的擴(kuò)展性,提高伸縮響應(yīng)速度,攤薄存儲與計(jì)算成本。

Redshift

Redshift:提供基于云的全托管的PB級高速數(shù)據(jù)倉庫,用現(xiàn)有BI工具分析海量數(shù)據(jù)。

隨著諸葛io的客戶越來越多,Greenplum的方案已不再適合SaaS服務(wù),因?yàn)樗m然查詢性能很好,可一旦海量并發(fā)時便遇到性能瓶頸。

在研究國外架構(gòu)時,Redshift是airbnb等很多知名公司的選擇,所以,在嘗試后我們發(fā)現(xiàn)Redshift的確是基于數(shù)據(jù)倉庫優(yōu)化,包括基于S3之后在海量數(shù)據(jù)加載和計(jì)算時有非常不錯的表現(xiàn),另外,考慮到業(yè)務(wù)方案和基礎(chǔ)架構(gòu),諸葛io也選擇了兼容性和適配性更好的Redshift。

此外,Redshift可以利用現(xiàn)在使用的 SQL 語法和 BI 工具,對 Amazon S3 中的 EB 級數(shù)據(jù)進(jìn)行查詢,二者范圍內(nèi)可進(jìn)行無縫查詢,具有極高的擴(kuò)展性;通過 AWS 管理控制臺或 Amazon Redshift API 使用任何系統(tǒng)快照或用戶快照來恢復(fù)群集,系統(tǒng)元數(shù)據(jù)恢復(fù)后,群集就可供使用,并且可在用戶數(shù)據(jù)在后臺輸出時開始運(yùn)行查詢,具有快速恢復(fù)能力;在未使用Redshift之前主要使用Greenplum作為數(shù)據(jù)倉庫,二者都是基于postgresql,數(shù)據(jù)遷移到新數(shù)據(jù)倉庫后對應(yīng)用中查詢改動量較小,平滑遷移,更易于遷移。

大數(shù)據(jù)的技術(shù)發(fā)展勢不可擋,大數(shù)據(jù)技術(shù)的發(fā)展將會越來越多樣化,企業(yè)必須跟上技術(shù)發(fā)展趨勢并結(jié)合數(shù)據(jù)與價值輸出。隨著更為復(fù)雜的用戶需求涌現(xiàn),精細(xì)化數(shù)據(jù)分析將成為驅(qū)動企業(yè)業(yè)務(wù)增長的關(guān)鍵功能。

諸葛io圍繞這些趨勢所產(chǎn)生的問題,結(jié)合用戶-觸點(diǎn)(設(shè)備)-會話-事件模型,提供了一站式的數(shù)據(jù)分析解決方案,從數(shù)據(jù)接入到自助式的場景分析,***再將底層進(jìn)行清洗和整合過的數(shù)據(jù),完整開放給企業(yè),以便實(shí)現(xiàn)企業(yè)數(shù)據(jù)相關(guān)價值的挖掘。

以用戶跟蹤技術(shù)和簡易集成開發(fā)的方法,幫助移動應(yīng)用的運(yùn)營者挖掘用戶的真實(shí)行為與屬性,幫助互聯(lián)網(wǎng)產(chǎn)品更快、更簡單的通過數(shù)據(jù)驅(qū)動產(chǎn)品分析從而實(shí)現(xiàn)業(yè)務(wù)增長,商業(yè)價值的提升。

更多精彩內(nèi)容:

「場景化」增長的踐行者:探尋大數(shù)據(jù)時代的商業(yè)變革
http://bigdata.51cto.com/art/201708/548308.htm

諸葛io圍繞用戶的場景化分析 驅(qū)動數(shù)據(jù)價值釋放
http://bigdata.51cto.com/art/201708/548306.htm

動輒數(shù)百TB級數(shù)據(jù)的分析平臺 海量并發(fā)無壓力
http://bigdata.51cto.com/art/201708/548304.htm

 

責(zé)任編輯:未麗燕 來源: 51CTO.com
相關(guān)推薦

2021-06-02 10:50:35

騰訊云銷售易云遷移

2015-05-15 14:51:11

TB 級數(shù)據(jù)云備份

2011-03-01 15:16:08

淘寶Oracle

2022-05-30 07:31:38

SpringBoot搜索技巧

2019-12-24 10:12:09

數(shù)據(jù)庫工具技術(shù)

2013-03-01 10:46:50

大數(shù)據(jù)核心海量數(shù)據(jù)

2024-01-31 16:41:10

2011-04-28 10:12:13

海量數(shù)據(jù)分析平臺

2017-12-27 09:36:08

數(shù)據(jù)騰訊監(jiān)控

2019-03-06 16:00:14

服務(wù)器架構(gòu)系統(tǒng)

2011-09-01 10:54:28

OceanBase數(shù)據(jù)庫海量

2013-11-22 10:02:59

Mongodb千萬級數(shù)據(jù)python

2022-06-02 14:00:41

網(wǎng)絡(luò)攻擊黑客勒索攻擊

2013-10-22 10:45:01

2018-08-10 15:54:43

大數(shù)據(jù)

2020-09-14 13:12:17

支付中心數(shù)據(jù)架構(gòu)

2016-01-14 15:30:17

希捷

2019-07-12 10:20:45

海量數(shù)據(jù)搭建

2019-07-15 16:02:30

大數(shù)據(jù)數(shù)據(jù)分析輿情系統(tǒng)

2022-11-23 14:08:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號