自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)分析的眾包平臺—Kaggle

云計算
Kaggle的工作方式如圖中右上角的流程所示。假設(shè)一個互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶廣告點擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶點擊的規(guī)律、模式,希冀以此來優(yōu)化廣告投放、提高用戶點擊轉(zhuǎn)化率。

眾包(Jeff Howe,2006)是一種在互聯(lián)網(wǎng)蓬勃發(fā)展的背景下產(chǎn)生的一種創(chuàng)新的生產(chǎn)組織形式。在這樣的商業(yè)模式下,企業(yè)利用網(wǎng)絡(luò)將工作分配出去,通過讓更合適的人群參與其中來發(fā)現(xiàn)創(chuàng)意和解決技術(shù)問題。比較成功的眾包例子有像wikipedia這樣的知識貢獻類平臺,GitHub這樣的IT類平臺,也有我們要著重介紹的大數(shù)據(jù)分析類的眾包平臺Kaggle。

Figure 1 Kaggle的工作方式。

 

 

Kaggle的工作方式如圖中右上角的流程所示。假設(shè)一個互聯(lián)網(wǎng)廣告公司收集了大量的關(guān)于用戶廣告點擊行為的數(shù)據(jù),想從這些數(shù)據(jù)中發(fā)現(xiàn)用戶點擊的規(guī)律、模式,希冀以此來優(yōu)化廣告投放、提高用戶點擊轉(zhuǎn)化率。一種做法是,公司雇傭一個數(shù)據(jù)科學(xué)家團隊來洞察數(shù)據(jù),為決策提供支持。這種做法的成本可能比較高,小公司難以承受。Kaggle提供了另外一種方式。公司可以將他們的數(shù)據(jù)、問題的描述、以及期望的指標(biāo)整理后發(fā)布到Kaggle上,通過舉辦競賽的方式讓網(wǎng)上的數(shù)據(jù)科學(xué)家參與解決。數(shù)據(jù)分析師們或獨立、或組隊參加比賽,利用自己的專業(yè)知識和數(shù)據(jù)分析工具得到優(yōu)化模型。最后,這些結(jié)果經(jīng)過原定指標(biāo)的檢驗,被公布到排行版上;最好的結(jié)果將獲得競賽的獎金(幾百美元到幾百萬美元不等)。而公司也能最終擁有數(shù)據(jù)分析的結(jié)果、模型等知識產(chǎn)權(quán)。圖中左表列出了Kaggle上面一個問題的例子,這是關(guān)于Twitter對其用戶的個性分析的案例。包含了訓(xùn)練集、測試集、示例代碼和作為基準(zhǔn)的隨機森林模型。而右表則是排行版上前六位的團隊以及他們在loss這個指標(biāo)上的表現(xiàn)。

Kaggle的流行是由兩方面的因素決定的。首先,隨著數(shù)據(jù)量的爆炸性增長,尤其是互聯(lián)網(wǎng)企業(yè)掌握的數(shù)據(jù)越來越多,如何利用這些數(shù)據(jù)成為了決策者們所關(guān)心的問題。大多數(shù)依靠互聯(lián)網(wǎng)掙錢的企業(yè)技術(shù)門檻較低,競爭激勵。像2010年興起的團購,一時間中國大地上出現(xiàn)了5000多家類似的公司,大家有著同樣的網(wǎng)站模板,相似的業(yè)務(wù),卻沒有任何差異化的東西。如何提高技術(shù)壁壘,脫穎而出,數(shù)據(jù)驅(qū)動(data-driven)成為了大家關(guān)注的焦點。商家們需要收集用戶的行為數(shù)據(jù),分析不同用戶群體的行為規(guī)律,從而為商品的定向投放,精準(zhǔn)推薦提供有力支持。另一方面,數(shù)據(jù)科學(xué)家成為了21世紀(jì)最稀缺的資源。Kaggle總裁兼首席科學(xué)家Jeremy Howard認為一個偉大的數(shù)據(jù)科學(xué)家應(yīng)具備創(chuàng)新、堅韌、好奇、深厚技術(shù)這四項素質(zhì)。具備數(shù)據(jù)收集、數(shù)據(jù)改寫、可視化、機器學(xué)習(xí)、計算機編程等技術(shù)的數(shù)據(jù)科學(xué)家使數(shù)據(jù)驅(qū)動決策并主導(dǎo)產(chǎn)品。根據(jù)McKinsey的預(yù)測,在未來6年,僅在美國本土就可能面臨缺乏14萬至19萬具備深入分析數(shù)據(jù)能力人才的情況,同時具備通過分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬人的缺口。如何充分利用現(xiàn)有的數(shù)據(jù)科學(xué)家的專業(yè)知識來幫助有需要的企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動的業(yè)務(wù)支持,Kaggle正是基于這樣的想法,建立起了一個聯(lián)通領(lǐng)域和專業(yè)技能的橋梁。

眾包方式的大數(shù)據(jù)分析絕不僅僅只有Kaggle一家,類似的還有CrowdAnalytix和TunedIT。而最早的學(xué)術(shù)界的Kaggle可以認為是從1997年開始的由ACM組織的KDD CUP(知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽)。KDD每年一次,涉及的領(lǐng)域從生物、營銷、安全、醫(yī)學(xué),一直到最近火熱的用戶行為分析和社交網(wǎng)絡(luò)分析。比如,今年(KDD2012)的分析任務(wù)就是由騰訊微博提供,通過對微博的社交分析,期望預(yù)測出最有可能的關(guān)注(Follow)關(guān)系。

現(xiàn)在已經(jīng)是“大數(shù)據(jù)”的時代,所有的人都預(yù)測在這個領(lǐng)域內(nèi)將來會產(chǎn)生一批偉大的公司。目前,在Kaggle上吸引了將近六萬的參與者,競賽的內(nèi)容也從單純的預(yù)測性分析拓展到所有關(guān)于數(shù)據(jù)的創(chuàng)意,比如如何實現(xiàn)工作職位網(wǎng)站上的數(shù)據(jù)可視化。可以說,聚集了如此多智慧和機會的大數(shù)據(jù)眾包平臺Kaggle一定會成為這些偉大公司的一員,讓我們拭目以待。

責(zé)任編輯:王程程 來源: 中云網(wǎng)
相關(guān)推薦

2017-07-22 00:41:27

大數(shù)據(jù)數(shù)據(jù)存儲

2011-08-12 11:14:42

大數(shù)據(jù)數(shù)據(jù)分析平臺架構(gòu)

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2019-04-23 15:35:53

Hadoop大數(shù)據(jù)數(shù)據(jù)處理

2015-05-26 10:27:17

大數(shù)據(jù)分析電商平臺應(yīng)用

2013-09-22 10:26:06

大數(shù)據(jù)大數(shù)據(jù)團隊

2015-08-24 13:56:10

數(shù)據(jù)分析

2015-08-14 10:28:09

大數(shù)據(jù)

2021-08-06 11:01:23

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2018-08-10 15:54:43

大數(shù)據(jù)

2018-02-27 13:09:00

Hadoop數(shù)據(jù)倉庫魔力象限

2018-06-23 07:53:31

大數(shù)據(jù)分析框架數(shù)據(jù)

2019-07-31 14:16:35

大數(shù)據(jù)人工智能算法

2021-10-12 15:25:08

大數(shù)據(jù)數(shù)據(jù)分析

2022-03-29 14:49:14

大數(shù)據(jù)數(shù)據(jù)分析

2015-08-11 15:52:52

大數(shù)據(jù)數(shù)據(jù)分析

2015-07-23 09:34:57

大數(shù)據(jù)數(shù)據(jù)分析

2013-04-09 09:28:20

大數(shù)據(jù)大數(shù)據(jù)全球技術(shù)峰會

2013-09-02 17:42:28

大數(shù)據(jù)分析FusionInsig華為

2021-11-11 11:27:55

大數(shù)據(jù)分析系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號