eBay構(gòu)建三層數(shù)據(jù)業(yè)務平臺應對大數(shù)據(jù)
在日前在倫敦舉行的GartnerCRM高峰論壇上,eBay全球業(yè)務分析負責人DavidStephenson做了演講,他表示,我們做網(wǎng)站的目的很簡單,就是要讓交易成功。
作為交易市場,eBay的首要任務就是讓銷售者和消費者都能獲得滿意的體驗。
應對大數(shù)據(jù),從提出正確的問題開始
eBay借助分析軟件更好地理解客戶。Stephenson希望能夠?qū)⑿∩啼伒膫€性化推薦成功運用到面向全球的eBay網(wǎng)站上。他表示:“在小商店,理解客戶很重要。店主需要提供個性化的推薦、了解客戶偏好、從客戶身上不斷學習。”
網(wǎng)絡測量數(shù)據(jù)對Stephenson來說還是陌生的新數(shù)據(jù)類型。eBay會生成大量的網(wǎng)站分析數(shù)據(jù),Stephenson稱之為“客戶的足跡”。它可以鮮明地告訴工作人員誰來過他們的網(wǎng)站,都做了些什么。
Stephenson表示:“網(wǎng)站上能夠提供和實體店購物同樣的體驗,客戶可以比較不同的商品。我們也能夠了解到客戶的意圖。”這些都在慢慢改變著eBay。
eBay的網(wǎng)站分析無所不至,就像是在每個顧客前面安裝了攝像頭一般。細致的網(wǎng)站分析也給數(shù)據(jù)管理帶來困難。整個網(wǎng)站平均每月產(chǎn)生1億小時的錄像,客戶數(shù)據(jù)多的難以想象。Stephenson坦言:“誰也沒有辦法每月處理1億小時的數(shù)據(jù)。”
“我們只能盡量理解客戶,應用數(shù)據(jù)科學技術(shù)利用更多的數(shù)據(jù)和更新類型的數(shù)據(jù)。”
eBay面臨的是1億的用戶,3萬多種商品,每秒鐘幾千美元的交易。Stephenson表示,交易數(shù)據(jù)還只是所有數(shù)據(jù)的“冰山一角”。
eBay開始處理所有的客戶行為數(shù)據(jù)。
大數(shù)據(jù)給eBay帶來的挑戰(zhàn)首先是,要提出正確的問題。Stephenson表示,要回答一個簡單的問題,比如“昨天搜索某一關(guān)鍵字時,置頂顯示的商品是什么?”,系統(tǒng)要處理50億的瀏覽頁面。因此,最重要的問題是要問關(guān)鍵的業(yè)務問題。
三個平臺實現(xiàn)全面的用戶行為分析
除了提出問題,Stephenson還希望網(wǎng)站能夠運行情感分析、網(wǎng)絡分析和圖片分析,這些都難以在傳統(tǒng)交易性數(shù)據(jù)庫中實現(xiàn)。
eBay把它的數(shù)據(jù)分析業(yè)務分發(fā)到三個平臺,第一個是Teradata提供的傳統(tǒng)企業(yè)數(shù)據(jù)倉庫(EDW)。Stephenson表示:“核心交易系統(tǒng)必須具有極高的穩(wěn)定性。我們每天要處理50TB的數(shù)據(jù),系統(tǒng)絕對不能停機。”
2002年,eBay搭建了13TB的Teradata企業(yè)數(shù)據(jù)倉庫,提供高效的大規(guī)模并行關(guān)系型數(shù)據(jù)庫。截止到目前,系統(tǒng)構(gòu)建在上千個節(jié)點上,數(shù)據(jù)量已經(jīng)增長到14PB。
說到用戶行為數(shù)據(jù),過去,eBay只能保留1%的樣本,其他全部扔掉。
Stephenson介紹到:“對于提出的很多問題,我們事先并不知道,我們是根據(jù)客戶的行為數(shù)據(jù)決定問什么問題的。大概有85%的問題是新問題。如果你只關(guān)注結(jié)構(gòu)不關(guān)心數(shù)據(jù),你就無法問出新問題,但如果你要存儲所有的數(shù)據(jù),數(shù)據(jù)量會大的根本無法分析。”
這其實是企業(yè)面臨的一個困境,究竟應該扔掉一部分數(shù)據(jù),還是把所有數(shù)據(jù)都保存。
為了解決這個問題,eBay開始搭建它的第二個平臺。七年前,公司開始搭建能夠存儲所有客戶數(shù)據(jù)的平臺。Stephenson表示:”對于客戶行為數(shù)據(jù),我們希望能夠通過大數(shù)據(jù)方法將其保留。“
eBay需要一個能夠管理幾百PB各種類型數(shù)據(jù)、只需要5個人就能維護、并且分析師可以輕松訪問的產(chǎn)品。
公司和Teradata合作,開發(fā)出一款有幾百個用戶定義功能的客戶應用。該系統(tǒng)運行在商業(yè)硬件上,應用自有軟件,能夠處理所有客戶數(shù)據(jù),廉價存儲數(shù)據(jù)。
這就是著名的eBay開發(fā)的客戶數(shù)據(jù)倉庫Singularity。
該系統(tǒng)可以在32秒內(nèi)運行臨時查詢。Stephenson表示,那是Hadoop處理類似的查詢要30秒。
Stephenson表示Singularity在網(wǎng)站的“A/B測試”中發(fā)揮了重要作用,這可以比較出不同的產(chǎn)品組合中,哪種組合最受歡迎。eBay用它測試了很多東西,比如測試網(wǎng)站消費者是否喜歡網(wǎng)站顯示商品大圖。
這項技術(shù)還可以用于搜索提示,Stephenson稱之為“搜索欄里的經(jīng)濟學家”。eBay可以根據(jù)用戶已選擇的話題或者已提出的問題,提供搜索查詢建議。因為整個系統(tǒng)中,基本每一個問題都被問過了。
通過這樣的查詢,eBay銷售者就可以了解到是否需要降價、包郵或提供其他優(yōu)惠。
除了企業(yè)數(shù)據(jù)倉庫和Singularity,eBay還使用了Hadoop,這就是它的第三個平臺。eBay部署了兩個2萬節(jié)點的Hadoop集群,能處理80PB的數(shù)據(jù)。
有了這三個平臺,eBay終于可以實現(xiàn)對所有用戶行為數(shù)據(jù)的存儲與分析。