大數(shù)據(jù)分析的眾包平臺—Kaggle
眾包(Jeff Howe,2006)是一種在互聯(lián)網(wǎng)蓬勃發(fā)展的背景下產(chǎn)生的一種創(chuàng)新的生產(chǎn)組織形式。在這樣的商業(yè)模式下,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,通過讓更合適的人群參與其中來發(fā)現(xiàn)創(chuàng)意和解決技術(shù)問題。比較成功的眾包例子有像wikipedia這樣的知識貢獻類平臺,GitHub這樣的IT類平臺,也有我們要著重介紹的大數(shù)據(jù)分析類的眾包平臺Kaggle。
Figure 1 Kaggle的工作方式。

Kaggle的工作方式如圖中右上角的流程所示。假設(shè)一個互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶廣告點擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶點擊的規(guī)律、模式,希冀以此來優(yōu)化廣告投放、提高用戶點擊轉(zhuǎn)化率。一種做法是,公司雇傭一個數(shù)據(jù)科學(xué)家團隊來洞察數(shù)據(jù),為決策提供支持。這種做法的成本可能比較高,小公司難以承受。Kaggle提供了另外一種方式。公司可以將他們的數(shù)據(jù)、問題的描述、以及期望的指標(biāo)整理后發(fā)布到Kaggle上,通過舉辦競賽的方式讓網(wǎng)上的數(shù)據(jù)科學(xué)家參與解決。數(shù)據(jù)分析師們或獨立、或組隊參加比賽,利用自己的專業(yè)知識和數(shù)據(jù)分析工具得到優(yōu)化模型。最后,這些結(jié)果經(jīng)過原定指標(biāo)的檢驗,被公布到排行版上;最好的結(jié)果將獲得競賽的獎金(幾百美元到幾百萬美元不等)。而公司也能最終擁有數(shù)據(jù)分析的結(jié)果、模型等知識產(chǎn)權(quán)。圖中左表列出了Kaggle上面一個問題的例子,這是關(guān)于Twitter對其用戶的個性分析的案例。包含了訓(xùn)練集、測試集、示例代碼和作為基準(zhǔn)的隨機森林模型。而右表則是排行版上前六位的團隊以及他們在loss這個指標(biāo)上的表現(xiàn)。
Kaggle的流行是由兩方面的因素決定的。首先,隨著數(shù)據(jù)量的爆炸性增長,尤其是互聯(lián)網(wǎng)企業(yè)掌握的數(shù)據(jù)越來越多,如何利用這些數(shù)據(jù)成為了決策者們所關(guān)心的問題。大多數(shù)依靠互聯(lián)網(wǎng)掙錢的企業(yè)技術(shù)門檻較低,競爭激勵。像2010年興起的團購,一時間中國大地上出現(xiàn)了5000多家類似的公司,大家有著同樣的網(wǎng)站模板,相似的業(yè)務(wù),卻沒有任何差異化的東西。如何提高技術(shù)壁壘,脫穎而出,數(shù)據(jù)驅(qū)動(data-driven)成為了大家關(guān)注的焦點。商家們需要收集用戶的行為數(shù)據(jù),分析不同用戶群體的行為規(guī)律,從而為商品的定向投放,精準(zhǔn)推薦提供有力支持。另一方面,數(shù)據(jù)科學(xué)家成為了21世紀(jì)最稀缺的資源。Kaggle總裁兼首席科學(xué)家Jeremy Howard認為一個偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅韌、好奇、深厚技術(shù)這四項素質(zhì)。具備數(shù)據(jù)收集、數(shù)據(jù)改寫、可視化、機器學(xué)習(xí)、計算機編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動決策并主導(dǎo)產(chǎn)品。根據(jù)McKinsey的預(yù)測,在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬人的缺口。如何充分利用現(xiàn)有的數(shù)據(jù)科學(xué)家的專業(yè)知識來幫助有需要的企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動的業(yè)務(wù)支持,Kaggle正是基于這樣的想法,建立起了一個聯(lián)通領(lǐng)域和專業(yè)技能的橋梁。
眾包方式的大數(shù)據(jù)分析絕不僅僅只有Kaggle一家,類似的還有CrowdAnalytix和TunedIT。而最早的學(xué)術(shù)界的Kaggle可以認為是從1997年開始的由ACM組織的KDD CUP(知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽)。KDD每年一次,涉及的領(lǐng)域從生物、營銷、安全、醫(yī)學(xué),一直到最近火熱的用戶行為分析和社交網(wǎng)絡(luò)分析。比如,今年(KDD2012)的分析任務(wù)就是由騰訊微博提供,通過對微博的社交分析,期望預(yù)測出最有可能的關(guān)注(Follow)關(guān)系。
現(xiàn)在已經(jīng)是“大數(shù)據(jù)”的時代,所有的人都預(yù)測在這個領(lǐng)域內(nèi)將來會產(chǎn)生一批偉大的公司。目前,在Kaggle上吸引了將近六萬的參與者,競賽的內(nèi)容也從單純的預(yù)測性分析拓展到所有關(guān)于數(shù)據(jù)的創(chuàng)意,比如如何實現(xiàn)工作職位網(wǎng)站上的數(shù)據(jù)可視化。可以說,聚集了如此多智慧和機會的大數(shù)據(jù)眾包平臺Kaggle一定會成為這些偉大公司的一員,讓我們拭目以待。