自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

構(gòu)建探索性大數(shù)據(jù)分析平臺,你準(zhǔn)備好了么?

原創(chuàng)
大數(shù)據(jù) 數(shù)據(jù)分析
面對海量數(shù)據(jù),如何選擇數(shù)據(jù)決策,哪些數(shù)據(jù)分析指標(biāo)是我們所關(guān)心的,面對繁多的分析工具應(yīng)該如何去選擇,都會從本文中找到一些答案。

【51CTO.com原創(chuàng)稿件】人類正從IT時(shí)代慢慢走向DT時(shí)代,未來的競爭和傳統(tǒng)行業(yè)的競爭不同,通過文字以及創(chuàng)新能力創(chuàng)造價(jià)值,通過擁有的數(shù)據(jù)給社會帶來價(jià)值,用數(shù)據(jù)掙錢,這是未來競爭的核心所在。

面對海量數(shù)據(jù),如何選擇數(shù)據(jù)決策,哪些數(shù)據(jù)分析指標(biāo)是我們所關(guān)心的,面對繁多的分析工具應(yīng)該如何去選擇,都會從本文中找到一些答案。

【講師簡介】

[[173164]]

王勁,數(shù)果科技,聯(lián)合創(chuàng)始人。曾任酷狗音樂大數(shù)據(jù)技術(shù)負(fù)責(zé)人,大數(shù)據(jù)架構(gòu)師,負(fù)責(zé)酷狗大數(shù)據(jù)技術(shù)規(guī)劃、建設(shè)、應(yīng)用,經(jīng)歷酷狗音樂大數(shù)據(jù)平臺從0到1的全程建設(shè)過程。

12年IT從業(yè)經(jīng)驗(yàn),5年大數(shù)據(jù)技術(shù)實(shí)踐經(jīng)驗(yàn),2年分布式應(yīng)用開發(fā),1年移動互聯(lián)網(wǎng)廣告系統(tǒng)架構(gòu)設(shè)計(jì),多年的團(tuán)隊(duì)管理經(jīng)驗(yàn),主要研究方向流式計(jì)算、大數(shù)據(jù)存儲計(jì)算、分布式存儲系統(tǒng)、NoSQL、搜索引擎等。2016年1月,在技術(shù)社區(qū)發(fā)表<<經(jīng)典大數(shù)據(jù)架構(gòu)案例:酷狗音樂的大數(shù)據(jù)平臺重構(gòu)>>。

何為探索性數(shù)據(jù)分析

傳統(tǒng)數(shù)據(jù)分析,首先要建立數(shù)據(jù)模型,通過模型的建立,不斷抽取一些數(shù)據(jù)來驗(yàn)證這個(gè)模型。如果面向的數(shù)據(jù)很復(fù)雜,但是又想看到一些原始的數(shù)據(jù)特點(diǎn)、數(shù)據(jù)分布情況、某些屬性的關(guān)系,或者哪些因素具有***量的信息,某些不確定關(guān)系,如何去研究?通過傳統(tǒng)方法很難做到。因?yàn)槭紫劝涯P徒⒑?,再抽取一些?shù)據(jù),可能是經(jīng)過加工處理的,不是基于原始數(shù)據(jù)進(jìn)行分析挖掘,而是基于一些匯總的數(shù)據(jù),所以原始數(shù)據(jù)看不到了。

分析數(shù)據(jù)主要有兩個(gè)階段:探索和驗(yàn)證。傳統(tǒng)做法只用了第二步驗(yàn)證,探索基本上用得很少。在探索階段,主要是用元素發(fā)現(xiàn)數(shù)據(jù)中隱藏的有價(jià)值的信息,通過什么樣的方法去做探索性數(shù)據(jù)分析,主要方法是EDA。在驗(yàn)證階段,和傳統(tǒng)做法一樣,主要是驗(yàn)證模型的準(zhǔn)確性,相對精確地研究一些具體情況,主要方法是傳統(tǒng)的統(tǒng)計(jì)學(xué)方法。

什么是探索性數(shù)據(jù)分析?探索性數(shù)據(jù)分析簡稱EDA,是一種用于概括和可視化數(shù)據(jù)集的重要特征的數(shù)據(jù)分析方法。在約翰·杜克(John Tukey)的推動下,EDA側(cè)重于對數(shù)據(jù)進(jìn)行探討,理解數(shù)據(jù)的底層結(jié)構(gòu)和變量,對數(shù)據(jù)集形成直觀認(rèn)識,考慮該數(shù)據(jù)集是如何產(chǎn)生的,并決定如何使用更多的形式統(tǒng)計(jì)方法對它進(jìn)行進(jìn)一步的調(diào)查。

探索性數(shù)據(jù)分析的特點(diǎn)

一.在分析思路上讓數(shù)據(jù)說話,不強(qiáng)調(diào)對數(shù)據(jù)的整理

傳統(tǒng)方法在做數(shù)據(jù)挖掘分析的時(shí)候,首先是建模,再把數(shù)據(jù)做成一個(gè)規(guī)整的數(shù)據(jù),再進(jìn)行數(shù)據(jù)訓(xùn)練挖掘,而探索性數(shù)據(jù)分析首先是要基于原始數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)的規(guī)律和價(jià)值。

二.EDA分析方法靈活,而不是拘泥于傳統(tǒng)的統(tǒng)計(jì)方法

三.EDA分析工具簡單直觀,更易于普及

大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析,從邏輯推理上講,探索性數(shù)據(jù)分析屬于歸納法(Induction)有別于從理論出發(fā)的演繹法(Deduction)。到了大數(shù)據(jù)時(shí)代,海量的無結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù)從多種渠道源源不斷地積累,不受分析模型和研究假設(shè)的限制,如何從中找出規(guī)律并產(chǎn)生分析模型和研究假設(shè)成為新挑戰(zhàn)。探索性數(shù)據(jù)分析在對數(shù)據(jù)進(jìn)行概括性描述,發(fā)現(xiàn)變量之間的相關(guān)性以及引導(dǎo)出新的假設(shè)方面均大顯身手。因此,探索性數(shù)據(jù)分析成為大數(shù)據(jù)分析中不可缺少的一步并且走向前臺。高速處理海量數(shù)據(jù)的新技術(shù)加上數(shù)據(jù)可視化工具的日益成熟更推動了探索性數(shù)據(jù)分析的快速普及。

探索性大數(shù)據(jù)分析平臺實(shí)現(xiàn)架構(gòu)

首先,一款靈活強(qiáng)大的探索性大數(shù)據(jù)分析平臺,應(yīng)該具備實(shí)時(shí)分析秒級響應(yīng)。支持多維的,維度上一定要支持上千個(gè)甚至上萬維度的特性,指標(biāo)的靈活定義。通過多種技術(shù)融合,構(gòu)建統(tǒng)一數(shù)據(jù)平臺,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)服務(wù)。還有一種是可視化運(yùn)維。

平臺設(shè)計(jì)準(zhǔn)則有幾下幾點(diǎn):1.不重復(fù)發(fā)明輪子,核心框架選用主流的、生態(tài)支持完善的成熟框架或技術(shù),如Kafka、Storm、Hadoop、Druid等。盡可能簡單,避免使用過多或過重的架構(gòu),造成系統(tǒng)的性能開銷和運(yùn)維負(fù)擔(dān)。2.多種接口訪問方式的支持。如:SQL(JDBC、ODBC)、Restful API。3.標(biāo)準(zhǔn)化,包括數(shù)據(jù)模型的標(biāo)準(zhǔn)化、數(shù)據(jù)分析的模板化等。4.高可用性。數(shù)據(jù)不丟、不重、有且只有一次,是分布式系統(tǒng)設(shè)計(jì)的關(guān)鍵。多種級別的HA,包括集群級別和進(jìn)程級別的雙重保護(hù)機(jī)制。5.容災(zāi)備份。包括跨數(shù)據(jù)中心的數(shù)據(jù)備份,應(yīng)用的雙活機(jī)制等。

探索性大數(shù)據(jù)分析平臺的架構(gòu),下面是數(shù)據(jù)基礎(chǔ)平臺,有幾種數(shù)據(jù)源:結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化,這些數(shù)據(jù)通過網(wǎng)關(guān)統(tǒng)一接入,接入后進(jìn)行實(shí)時(shí)清洗,這里的實(shí)時(shí)清洗只是對數(shù)據(jù)常規(guī)的簡單處理,例如有一個(gè)IP地址,如果想找到其區(qū)域特性,省、市、運(yùn)營商,假如是輸入型或字符型如何去處理。

通過實(shí)時(shí)信息處理之后,進(jìn)入存儲層、實(shí)時(shí)計(jì)算層?,F(xiàn)在大數(shù)據(jù)物理階段,大部分停留在數(shù)據(jù)海量存儲,已經(jīng)很成熟了。需要考慮的是這種數(shù)據(jù)通過什么樣的工作去分析,能夠快速查詢一些價(jià)值,需要選擇哪一種方案更適合業(yè)務(wù)場景,更節(jié)省成本。

探索性大數(shù)據(jù)分析應(yīng)用場景

王勁以建立垃圾電子郵件過濾器為例,對探索性大數(shù)據(jù)分析平臺架構(gòu)的實(shí)現(xiàn)進(jìn)行了深入講解。

背景:

電子郵件是自動積累的,各種商業(yè)廣告常常充斥郵箱,每天都給用戶帶來很多不便。我們憑直覺和經(jīng)驗(yàn)可以判斷哪個(gè)是垃圾郵件,但人工清理這些垃圾很浪費(fèi)時(shí)間。

分析過程:

***步,從大量郵件中隨機(jī)抽樣出100條(或更多),人工地將它們分成有用郵件和垃圾郵件。

第二步,用探索性數(shù)據(jù)分析對篩選出的垃圾郵件進(jìn)行分析統(tǒng)計(jì)出哪類詞匯出現(xiàn)的機(jī)率***。

第三步,以選出的詞為基礎(chǔ)建立初始郵件過濾模型并開發(fā)郵件過濾軟件程序,然后用它對一個(gè)大樣本(1000或更大)進(jìn)行垃圾郵件的過濾試驗(yàn)。

第四步,對過濾器篩選出的垃圾郵件進(jìn)行人工驗(yàn)證,用探索性數(shù)據(jù)分析計(jì)算過濾的總成功率和每個(gè)詞的出現(xiàn)率。

第五步,用成功率和出現(xiàn)率的結(jié)果進(jìn)一步改進(jìn)過濾模型,并在郵件處理過程中增加過濾器,根據(jù)事先定好的臨界點(diǎn)(Threshold),增加或減少過濾詞匯的功能(機(jī)器學(xué)習(xí))。這樣,該垃圾郵件過濾器將不斷地自我改進(jìn)以提高過濾的成功率。

第六步,應(yīng)用數(shù)據(jù)可視化技術(shù),各個(gè)階段的探索性數(shù)據(jù)分析結(jié)果都可以實(shí)時(shí)地用動態(tài)圖表展示。

總結(jié):

從這個(gè)過程中我們可以看到:

探索性數(shù)據(jù)分析能幫助我們從看似混亂無章的原始數(shù)據(jù)中篩選出可用的數(shù)據(jù),在數(shù)據(jù)清理中發(fā)揮重要作用。探索性數(shù)據(jù)分析是建立算法和過濾模型的***步,能通過數(shù)據(jù)碰撞發(fā)現(xiàn)新假設(shè),通過機(jī)器學(xué)習(xí)不斷的改進(jìn)和提高算法的精準(zhǔn)度。探索性數(shù)據(jù)分析的結(jié)果,通過數(shù)據(jù)可視化展示,可以為郵件過濾器的開發(fā)隨時(shí)提供指導(dǎo)和修正信息。

 

本文由王勁于2016年8月,在WOT2016移動互聯(lián)網(wǎng)技術(shù)峰會數(shù)據(jù)分析專場《構(gòu)建探索性大數(shù)據(jù)分析平臺》主題演講整理而成。WOT2016大數(shù)據(jù)峰會將于2016年11月25-26日在北京粵財(cái)JW萬豪酒店召開,屆時(shí),數(shù)十位大數(shù)據(jù)領(lǐng)域一線專家、數(shù)據(jù)技術(shù)先行者將齊聚現(xiàn)場,在圍繞機(jī)器學(xué)習(xí)、實(shí)時(shí)計(jì)算、系統(tǒng)架構(gòu)、NoSQL技術(shù)實(shí)踐等前沿技術(shù)話題展開深度交流和溝通探討的同時(shí),分享大數(shù)據(jù)領(lǐng)域***實(shí)踐和最熱門的行業(yè)應(yīng)用。了解WOT2016大數(shù)據(jù)技術(shù)峰會更多信息,請登陸大會官網(wǎng):http://wot.51cto.com/2016bigdata/

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

責(zé)任編輯:趙立京 來源: 51CTO
相關(guān)推薦

2016-11-01 13:31:27

2017大數(shù)據(jù)

2011-01-11 15:06:02

Linux安裝準(zhǔn)備

2016-07-08 15:54:00

創(chuàng)業(yè)

2012-03-09 13:40:28

大數(shù)據(jù)

2016-11-21 17:39:08

云計(jì)算

2020-05-13 11:32:28

數(shù)據(jù)分析數(shù)值分析

2013-01-28 16:51:45

2019-04-18 15:32:45

Serverless騰訊云TVP

2015-06-24 16:03:24

大數(shù)據(jù).SAS

2015-10-15 17:11:47

賽思股份

2020-10-28 18:28:12

Pandas數(shù)據(jù)分析GUI

2022-11-11 11:35:14

2011-07-08 10:18:09

海量數(shù)據(jù)數(shù)據(jù)挖掘

2014-05-19 14:27:01

F5新融合架構(gòu)應(yīng)用交付

2009-07-24 08:58:19

2015-12-23 15:24:38

2015-12-22 10:35:12

2015-08-19 13:05:19

云計(jì)算趨勢

2015-01-08 15:35:42

諾基亞微軟裁員

2010-08-25 15:49:04

面試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號