騰訊大數(shù)據(jù)平臺的秘密——多維度交叉分析
當天幾家公司的大數(shù)據(jù)應用,相對局限于個性化推薦,例如廣告精準投放、推薦商品、推薦用戶、推薦應用等等?;蛟S,國內(nèi)的大數(shù)據(jù)應用由于商業(yè)公司功利性的限制,當天幾家演講的公司,大數(shù)據(jù)的商業(yè)化目標明確,而精準個性推薦是其中最有效的手段。
騰訊大數(shù)據(jù)現(xiàn)狀
IBM將“大數(shù)據(jù)”理念定義為4個V:大量化(Volume)、多樣化(Variety)、快速化(Velocity)以及產(chǎn)生的價值(Value)。我們可以從這幾個方面一起看看騰訊大數(shù)據(jù)現(xiàn)狀。
從業(yè)務角度
騰訊數(shù)據(jù)真的夠大。騰訊數(shù)據(jù)平臺自研的TDW替換了商業(yè)數(shù)據(jù)庫,實現(xiàn)公司級數(shù)據(jù)集中存儲,總記錄達到375萬億跳,日接入5千億條,覆蓋移動設備數(shù)7.7億。
從平臺角度看
騰訊數(shù)據(jù)平臺從設備8400臺,單集群5600臺,總存儲100PB+;日新增數(shù)據(jù)200TB+,月數(shù)據(jù)增長率10%,日均JOB數(shù)100萬,日均計算量5PB,量夠大,速度也夠快。
從用戶角度看
這里的用戶,指的是騰訊內(nèi)部員工。騰訊員工2萬多人,騰訊數(shù)據(jù)門戶的月活躍是2500左右,也就是說訪問騰訊數(shù)據(jù)門戶的人占比公司10%+;每月處理數(shù)據(jù)提取分析的任務數(shù)是1萬個,如果訪問者每人都會提數(shù)據(jù)任務,平均就是一個人提4個左右的分析提取任務;用戶畫像分析任務為1.2萬,可以看出騰訊對用戶畫像的重視程度。
騰訊大數(shù)據(jù)的多樣性
下面的圖,騰訊數(shù)據(jù)平臺已經(jīng)接入100多個產(chǎn)品的各類數(shù)據(jù),例如:用戶行為、賬號屬性、收入數(shù)據(jù)等等。
騰訊數(shù)據(jù)平臺產(chǎn)品架構(gòu)
騰訊數(shù)據(jù)平臺從五個方面進行產(chǎn)品設計,分別是:數(shù)據(jù)管理、數(shù)據(jù)監(jiān)控、數(shù)據(jù)分析、數(shù)據(jù)可視化、數(shù)據(jù)挖掘。
這也是我曾經(jīng)在騰訊、YY語做過的數(shù)據(jù)產(chǎn)品運營工作的主線,五個方面分別通過各種數(shù)據(jù)產(chǎn)品落地,為公司內(nèi)部產(chǎn)品策劃、產(chǎn)品運營、產(chǎn)品營收、客服、財務等提供數(shù)據(jù)支撐。
騰訊業(yè)務平臺與數(shù)據(jù)服務
下面這張圖非常清晰的闡明了騰訊數(shù)據(jù)平臺的數(shù)據(jù)服務與業(yè)務平臺的關(guān)系。數(shù)據(jù)服務的核心是分布式存儲、實時計算(TRC)、離線計算(TDW),以數(shù)據(jù)產(chǎn)品的方式對外呈現(xiàn)于應用,業(yè)務平臺則考慮用戶接入、業(yè)務邏輯、關(guān)系型存儲的工作。
其中,對于海量數(shù)據(jù)來說,至關(guān)重要的是 Gaia高效的資源調(diào)度,提供高并發(fā)的任務調(diào)度與資源管理,為實現(xiàn)秒級的數(shù)據(jù)監(jiān)控與實時運算提供保證。
Gaia高效的資源調(diào)度
騰訊大數(shù)據(jù)應用成效
數(shù)據(jù)成為生產(chǎn)力,支持海量用戶產(chǎn)品發(fā)展。
騰訊廣點通,精準廣告投放,
騰訊信鴿——大數(shù)據(jù)精準移動推送
用戶留存率提升100%,用戶活躍提升100%。
給騰訊信鴿打個廣告,網(wǎng)址是:http://xg.qq.com/
游戲模型,助力手游精細化運營
自助分析
自助報表
黃金眼——快速報表
用戶畫像
原文鏈接:http://www.36dsj.com/archives/7208