大數(shù)據(jù)項目:購買還是自開發(fā)?
Stephen Laster是位于紐約的McGraw-Hill Education集團的***數(shù)字館(chief digital officer),其最主要的工作就是基于數(shù)據(jù)來對業(yè)務進行提升。Laster領導著一個由數(shù)據(jù)科學家和工程師組成的團隊,負責制定并實施公司的e-learning和教育技術戰(zhàn)略。換句話說,該團隊負責McGraw-Hill Education的數(shù)字化學習產(chǎn)品。
Laster團隊的一個重要工作為學生提供高效、便捷的系統(tǒng)交互界面。在最近幾年中,系統(tǒng)處理了多達40億次的交互。
“對于特定的學生,我們能夠獲知其對概念的理解程度,知道他們還需要在方面加以努力,然后靈活地調整其學習路徑,最終讓學生們對知識形成整體的把握。”Laster說。
正因如此,Laster并不是大數(shù)據(jù)這個詞的擁躉。相反,他更看重小數(shù)據(jù)的作用。為了為學生提供個性化的應用,該團隊對數(shù)據(jù)進行實時分析,預測客戶行為并構建具有自學習能力的小算法。
當Laster面臨買入還是內部自建的問題時,他首先是了解市場差異化的機會,而不是基于項目本身 – 否則得出的結論將是自己從零開始構建。比如,針對關系數(shù)據(jù)庫管理系統(tǒng)的IT戰(zhàn)略,Laster是這樣考慮的:“雖然看似已經(jīng)沒什么問題,但是為了服務的差異化,我們決定開發(fā)人工智能和算法。”
Laster及其團隊一直都從業(yè)務產(chǎn)出入手進行思考:“首先,在教學和客戶的學習方面,我們的目標是什么?然后,我們再回到技術的層面進行決策。”
“一旦確定了目標,我們會進一步分解,然后逐個調查,看市場上是否有現(xiàn)成的解決方案?”Laster說:“如果有現(xiàn)成的產(chǎn)品,我們就購買或引入開源方案。如果沒有的話,就自行構建之。”
最終,基于多年學術和工程研究成果,McGraw-Hill開發(fā)了一個名為LearnSmart的應用程序接口。Laster認為,這是真正能夠推動企業(yè)前行的方案。
Palo Alto市的***信息官Jonathan Reichental認為,像McGraw-Hill這樣通過自建而非買入方式,在應用層形成差異化的市場優(yōu)勢,是對本文主題的關鍵啟示。“如果你是CTO,為市場提供服務,通常情況下你都是自建而非買入。”Reichental說:“但是,如果是面向企業(yè)內部提供服務,可能用SAP或者第三方產(chǎn)品是更適合的。”
構建面向用戶的應用有助于消除和整合之前十多年間我們構建的各類最終被證明為失敗的系統(tǒng)。
買入也可以形成差異化的優(yōu)勢
但是,Tagged.com(位于舊金山的社交媒體網(wǎng)站)的聯(lián)合創(chuàng)始人和***技術官Johann Schleier-Smith認為,有時候買入是正確的選擇。他與另一創(chuàng)始人Greg Tseng在10年前(與Facebook同時期)創(chuàng)立Tagged.com,當時大數(shù)據(jù)還沒有大行其道。“我們用同樣的數(shù)據(jù)庫來同時支撐在線事務處理和業(yè)務分析。”
Schleier-Smith認為,如今的技術領域更加細分,比如NoSQL數(shù)據(jù)庫、分析平臺和開源的Apache社區(qū)。市場的擴充影響了Tagged公司的技術架構發(fā)展,該公司每月收集1000億個數(shù)據(jù)事件,導致超過50TB的數(shù)據(jù)量加入到其PB級的存儲集群中。其工程師團隊基于各種開源技術進行工作,比如linux、Apache Kafka、Apache Spark和內存數(shù)據(jù)分析引擎。
同時,Tagged也采用了商業(yè)化的技術,比如EMC的Greeplum和Vertica。對于那些可以針對特定類型的查詢(尤其是交互式查詢)的高性能數(shù)據(jù)庫技術,Schleier-Smith認為:“我們認為是值得買入的,因為能形成我們差異化的競爭優(yōu)勢。”
自建或買入?為什么不是租用呢?
另一家位于舊金山的創(chuàng)業(yè)公司ContextLogic則采用了10年前還不存在的方法。既不買入也不自行開發(fā),ContextLogic從一家云計算廠商處租用服務,以此來管理其日志文件。
ContextLogic是社交購物推薦引擎Wish.com的技術供應商,后者據(jù)稱日活躍用戶數(shù)達110萬,其中96%的用戶是通過移動設備進行訪問。這種模式下,對在線事件的抓取和記錄是及其重要的,主要針對用戶點擊流,比如某用戶是如何找到在線購物車的。所有的這些數(shù)據(jù)(每天大概有4000萬到5500萬需要記錄的事件),都被保存下來供以后的分析用。
“數(shù)據(jù)的規(guī)模以及其時序性,使得日志分析非常有意思。”ContextLogic的聯(lián)合創(chuàng)始人和工程運維負責人Danny張說:“這就是我眼中的大數(shù)據(jù)。”
隨著公司的發(fā)展,日志數(shù)據(jù)的規(guī)模和重要性也日漸提升。“日志記錄和分析對我來說是最基本的工作,也是大數(shù)據(jù)分析最重要的步驟。”張表示。這些數(shù)據(jù)蘊含了客戶的購物偏好,是搜索引擎算法開發(fā)和ContextLogic業(yè)務決策的基礎所在。由于發(fā)展迅猛,很難有外部的解決方案能夠跟上其腳步,因此張傾向于自行開發(fā)的路線。但是,他同時也選擇了大數(shù)據(jù)服務提供商treasure Data來管理日志數(shù)據(jù),后者基于亞馬遜的AWS為客戶提供Hadoop平臺。對此,張的解釋是:“日志和我們的發(fā)展速度沒關系,無論如何,我們都是以同樣的方式來做這部分工作。”
而且,張還表示,租用基于云的數(shù)據(jù)管理服務其實也是一種成本優(yōu)化。工程師們不用再為數(shù)據(jù)的規(guī)模而頭疼,可以專注在數(shù)據(jù)的分析上。
“我們沒有坐等***的解決方案從天而降,問題依然是問題,會一直存在下去。”張說:“我們只是碰巧選擇了treasure Data,作為一種問題應對的方法。”