數(shù)據(jù)科學(xué)家不用太多 應(yīng)該讓大數(shù)據(jù)更好用
大數(shù)據(jù)是今年的熱門,以至于紐約時(shí)報(bào)等媒體均宣稱大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。挖掘大數(shù)據(jù)可以產(chǎn)出洞察力以及利用大數(shù)據(jù)進(jìn)行知情決策和行動(dòng)所需的激勵(lì)和架構(gòu)。而挖掘這些金礦的礦工,就是數(shù)據(jù)科學(xué)家,所以這種礦工也被冠以未來(lái)最性感職業(yè)的稱號(hào)。但是,今天任何一篇有關(guān)大數(shù)據(jù)的文章***都不可避免地得出這樣一個(gè)結(jié)論,即數(shù)據(jù)科學(xué)家嚴(yán)重短缺。麥肯錫 2011 年被熱議的一項(xiàng)調(diào)查就指出,許多組織普遍缺乏這類熟練技能的人才。
但是如何繞開(kāi)這一瓶頸,讓大數(shù)據(jù)直接為商業(yè)***所用卻很少有人討論。軟件產(chǎn)業(yè)此前已經(jīng)做過(guò)這樣的事情,現(xiàn)在我們還可以再效仿。
為了實(shí)現(xiàn)這一目標(biāo),首先必須理解數(shù)據(jù)科學(xué)家在大數(shù)據(jù)中的角色。目前,大數(shù)據(jù)就是類似于類似 Hadoop、NoSQL、Hive 以及 R 那樣的分布式數(shù)據(jù)架構(gòu)和工具的一個(gè)大熔爐。在這種高技術(shù)環(huán)境下,數(shù)據(jù)科學(xué)家充當(dāng)了這些系統(tǒng)和業(yè)務(wù)側(cè)領(lǐng)域?qū)<抑g信息傳遞者與中介。
總的來(lái)說(shuō)數(shù)據(jù)科學(xué)家有三個(gè)主要角色:數(shù)據(jù)架構(gòu)、機(jī)器學(xué)習(xí)以及分析。雖然這些角色都很重要,但是并非所有的公司都需要像 Google 和 Facebook 那樣擁有一支高度專業(yè)的數(shù)據(jù)團(tuán)隊(duì)。只要能開(kāi)發(fā)出與目的相符的產(chǎn)品,并讓技術(shù)的復(fù)雜性盡可能的低,那么大數(shù)據(jù)的威力就可以直接交到業(yè)務(wù)用戶手上。
作為例子,我們可以回顧一下世紀(jì)之交的 web 內(nèi)容管理革命。網(wǎng)站曾風(fēng)靡一時(shí),但領(lǐng)域?qū)<覅s屢屢碰壁,因?yàn)?IT 是瓶頸。每每有新內(nèi)容添加時(shí)都需要進(jìn)行編排,有時(shí)候甚至需要 IT 精英硬編碼進(jìn)去。這個(gè)問(wèn)題后來(lái)是如何解決掉的?我們把這些基本需求概括并抽象進(jìn)內(nèi)容管理系統(tǒng)之中,然后讓它們簡(jiǎn)單到連不懂技術(shù)的人也懂使用。瓶頸于是被打破了。
接下來(lái),我們以網(wǎng)上貿(mào)易為背景分別看看數(shù)據(jù)科學(xué)家的這三種角色。
數(shù)據(jù)架構(gòu)
降低復(fù)雜性的關(guān)鍵是限制范圍。幾乎所有的電商都關(guān)心用戶行為的捕捉—活動(dòng)、購(gòu)物、離線交易以及社會(huì)化數(shù)據(jù),幾乎每一個(gè)電商也都會(huì)有產(chǎn)品目錄和客戶檔案。
只要把范圍限制到這一基本功能上,就可以為標(biāo)準(zhǔn)數(shù)據(jù)輸入創(chuàng)建模板,從而大大簡(jiǎn)化數(shù)據(jù)捕捉與管道連接。在 2/8 原則下(80% 的大數(shù)據(jù)用例可利用 20% 的技術(shù)實(shí)現(xiàn)),我們不需要把所有不同的數(shù)據(jù)架構(gòu)和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包進(jìn)來(lái)。
機(jī)器學(xué)習(xí)
好吧,數(shù)據(jù)架構(gòu)似乎可以用系統(tǒng)搞定,機(jī)器學(xué)習(xí)總得要人來(lái)調(diào)教吧。如果需求是高度定制化的話,也許數(shù)據(jù)科學(xué)家是必要的。這里面的很多事情都可以抽象出來(lái),像推薦引擎和個(gè)性化系統(tǒng)等。比方說(shuō),數(shù)據(jù)科學(xué)家的很大一部分工作是做出“特征”模式,即把輸入數(shù)據(jù)組合好,讓機(jī)器有效學(xué)習(xí)。過(guò)程差不多就是數(shù)據(jù)科學(xué)家把數(shù)據(jù)擺弄好然后塞進(jìn)機(jī)器,再按一下“啟動(dòng)”即可,數(shù)據(jù)科學(xué)家的工作只是需要幫助機(jī)器以一種有意義的方式來(lái)審視這個(gè)世界。
可是如果按照單個(gè)領(lǐng)域來(lái)看,特征創(chuàng)建也是可以模板化的。比方說(shuō),每個(gè)電子商務(wù)網(wǎng)站都有購(gòu)買流和用戶細(xì)分的概念。如果領(lǐng)域?qū)<铱梢灾苯訉⑵渌悸肪幋a進(jìn)系統(tǒng),將領(lǐng)域體現(xiàn)到系統(tǒng)里面去,那么數(shù)據(jù)科學(xué)家這個(gè)翻譯和中介是不是就可以省掉了?
分析
從數(shù)據(jù)當(dāng)中自動(dòng)分析出最有價(jià)值的東西從來(lái)都不是一件易事。但是提供針對(duì)單個(gè)領(lǐng)域的透視鏡是有可能的—這可以讓業(yè)務(wù)專家做試驗(yàn),就像數(shù)據(jù)科學(xué)家那樣。這似乎是一個(gè)最容易解決的問(wèn)題,因?yàn)槭袌?chǎng)上早已經(jīng)有了各種特定領(lǐng)域的分析產(chǎn)品。
但是這些產(chǎn)品對(duì)于領(lǐng)域?qū)<襾?lái)說(shuō)約束太多,不易接近。界面友好性絕對(duì)還有改進(jìn)的空間。我們還需要考慮機(jī)器如何從分析得出的結(jié)果中學(xué)習(xí)。這是關(guān)鍵的反饋環(huán)路,業(yè)務(wù)專家希望能修改這個(gè)環(huán)路。這又是一個(gè)提供模板化界面的機(jī)會(huì)。
正如 CMS 領(lǐng)域的情況一樣,這些解決方案也不能包治百病。但是針對(duì)泛化的一組數(shù)據(jù)問(wèn)題采用技術(shù)解決方案可以緩解數(shù)據(jù)科學(xué)家的瓶頸問(wèn)題。一旦領(lǐng)域?qū)<夷軌蛑苯痈鷻C(jī)器學(xué)習(xí)系統(tǒng)協(xié)作,我們就能夠進(jìn)入大數(shù)據(jù)的新時(shí)代—一個(gè)人和機(jī)器可以相互學(xué)習(xí)的新世紀(jì)。也許到了那個(gè)時(shí)候,大數(shù)據(jù)能解決的問(wèn)題就能多于它制造的問(wèn)題了。
原文鏈接:http://gigaom.com/2012/12/22/we-dont-need-more-data-scientists-just-simpler-ways-to-use-big-data/
【編輯推薦】