天弘基金大數據中心處理百億級海量數據
業(yè)內人士告訴記者,一般的企業(yè)數據系統(tǒng)采用傳統(tǒng)的IOE架構,處理數據量級為***,能處理上億級的數據就不錯了,10億級別對一般企業(yè)來說都很難想象,處理時間更是無法保障,而天弘基金大數據中心可以做到百億級數據的處理,且分分鐘就能計算海量數據。
所謂IOE,IBM是服務器提供商,Oracle是數據庫軟件提供商,EMC則是存儲設備提供商,三者構成了一個從軟件到硬件的企業(yè)數據庫系統(tǒng)。由這三駕馬車構成的數據庫系統(tǒng)幾乎占領了全球大部分商用數據庫系統(tǒng)市場份額,石油、金融行業(yè)也廣泛地使用這套系統(tǒng),價格昂貴。而天弘基金云直銷系統(tǒng)去年9月份投入使用,成為***去IOE的金融案例,今年天弘基金建立的大數據中心,也成功上云。
天弘基金大數據中心主管周衛(wèi)國告訴記者,截至5月26日那天,我們《余額寶一周年大數據報告》分析應用的基礎數據有53億條,基礎數據維度15個,而這15個維護又包含各種排列組合的交叉分析,簡單的比如地域和年齡的交叉分析、性別的交易頻率的交叉分析,復雜的會涉及許多復雜的模型,因此本次分析應用的基礎數據達到96億條,數據維度35個。正是因為天弘基金大數據中心有百億級以上的數據處理能力,因此我們有能力去做更多復雜的模型,發(fā)散思維,從更多的角度去分析這些海量數據,以達到最真實地分析出客戶行為路徑,并對業(yè)務給予指導。
比如在對“客戶流失”這個專題的分析上,我們除了看簡單的客戶轉出金額、轉出次數、周/月度的行為規(guī)律、提現(xiàn)和消費占比等等基礎數據,還專門建立了一個客戶流失LOGIT模型,單這一個模型便使用17個指標變量,包含1個目標變量和16個候選輸入變量,使用數據有效記錄數9.6億個,在ODPS上,利用MKW LOGIT工具運行模型運行一次,約需27分鐘。
這樣的模型還有多個,從不同角度挖掘、分析,有時候還會用到人口學、社會學、心理學等知識,客戶是在生活中鮮活的個體,想要刻畫真實的全景圖,既需要海量數據的分析處理,也需要科學的方法去定義一些模型?;邗r活個體的全樣本“大數據”,服務于基金投資和業(yè)務開展是我們不斷努力的方向。
大數據分析,帶來的流動性預測功能,已成為助力余額寶投資的絕門利器,而大數據帶來的圖說,同樣精彩絕倫。從7月7日起,《余額寶運行一周年大數據報告》系列圖說以每日一幅的速度,陸續(xù)在“天弘基金”官方微博披露,精彩還將繼續(xù)。