自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="lkleh"></blockquote>}

<blockquote id="lkleh"><rt id="lkleh"></rt></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)科學(xué)家無需太多，讓大數(shù)據(jù)好用就夠了

作者：佚名 2012-12-26 10:18:47

大數(shù)據(jù)是今年的熱門，以至于紐約時報等媒體均宣稱大數(shù)據(jù)時代已經(jīng)來臨。挖掘大數(shù)據(jù)可以產(chǎn)出洞察力以及利用大數(shù)據(jù)進行知情決策和行動所需的激勵和架構(gòu)。而挖掘這些金礦的礦工，就是數(shù)據(jù)科學(xué)家，所以這種礦工也被冠以未來最性感職業(yè)的稱號。

[[106843]]

編者注：紐約時報曾撰文稱大數(shù)據(jù)時代已經(jīng)來臨，數(shù)據(jù)科學(xué)家曾被冠以最性感職業(yè)之稱，可是電子商務(wù)咨詢公司 Baynote 的創(chuàng)始人兼 CTO Scott Brave 卻說我們不需要更多的數(shù)據(jù)科學(xué)家，讓大數(shù)據(jù)更方便使用就夠了。

以下是他的看法：

大數(shù)據(jù)是今年的熱門，以至于紐約時報等媒體均宣稱大數(shù)據(jù)時代已經(jīng)來臨。挖掘大數(shù)據(jù)可以產(chǎn)出洞察力以及利用大數(shù)據(jù)進行知情決策和行動所需的激勵和架構(gòu)。而挖掘這些金礦的礦工，就是數(shù)據(jù)科學(xué)家，所以這種礦工也被冠以未來最性感職業(yè)的稱號。但是，今天任何一篇有關(guān)大數(shù)據(jù)的文章***都不可避免地得出這樣一個結(jié)論，即數(shù)據(jù)科學(xué)家嚴重短缺。麥肯錫 2011 年被熱議的一項調(diào)查就指出，許多組織普遍缺乏這類熟練技能的人才。

但是如何繞開這一瓶頸，讓大數(shù)據(jù)直接為商業(yè)***所用卻很少有人討論。軟件產(chǎn)業(yè)此前已經(jīng)做過這樣的事情，現(xiàn)在我們還可以再效仿。

為了實現(xiàn)這一目標，首先必須理解數(shù)據(jù)科學(xué)家在大數(shù)據(jù)中的角色。目前，大數(shù)據(jù)就是類似于類似 Hadoop、NoSQL、Hive 以及 R 那樣的分布式數(shù)據(jù)架構(gòu)和工具的一個大熔爐。在這種高技術(shù)環(huán)境下，數(shù)據(jù)科學(xué)家充當了這些系統(tǒng)和業(yè)務(wù)側(cè)領(lǐng)域?qū)＜抑g信息傳遞者與中介。

總的來說數(shù)據(jù)科學(xué)家有三個主要角色：數(shù)據(jù)架構(gòu)、機器學(xué)習以及分析。雖然這些角色都很重要，但是并非所有的公司都需要像 Google 和 Facebook 那樣擁有一支高度專業(yè)的數(shù)據(jù)團隊。只要能開發(fā)出與目的相符的產(chǎn)品，并讓技術(shù)的復(fù)雜性盡可能的低，那么大數(shù)據(jù)的威力就可以直接交到業(yè)務(wù)用戶手上。

作為例子，我們可以回顧一下世紀之交的 web 內(nèi)容管理革命。網(wǎng)站曾風靡一時，但領(lǐng)域?qū)＜覅s屢屢碰壁，因為 IT 是瓶頸。每每有新內(nèi)容添加時都需要進行編排，有時候甚至需要 IT 精英硬編碼進去。這個問題后來是如何解決掉的?我們把這些基本需求概括并抽象進內(nèi)容管理系統(tǒng)之中，然后讓它們簡單到連不懂技術(shù)的人也懂使用。瓶頸于是被打破了。

接下來，我們以網(wǎng)上貿(mào)易為背景分別看看數(shù)據(jù)科學(xué)家的這三種角色。

數(shù)據(jù)架構(gòu)

降低復(fù)雜性的關(guān)鍵是限制范圍。幾乎所有的電商都關(guān)心用戶行為的捕捉—活動、購物、離線交易以及社會化數(shù)據(jù)，幾乎每一個電商也都會有產(chǎn)品目錄和客戶檔案。

只要把范圍限制到這一基本功能上，就可以為標準數(shù)據(jù)輸入創(chuàng)建模板，從而大大簡化數(shù)據(jù)捕捉與管道連接。在 2/8 原則下(80% 的大數(shù)據(jù)用例可利用 20% 的技術(shù)實現(xiàn))，我們不需要把所有不同的數(shù)據(jù)架構(gòu)和工具(Hadoop、Hbase、 Hive、Pig、Cassandra 以及 Mahout)都打包進來。

機器學(xué)習

好吧，數(shù)據(jù)架構(gòu)似乎可以用系統(tǒng)搞定，機器學(xué)習總得要人來調(diào)教吧。如果需求是高度定制化的話，也許數(shù)據(jù)科學(xué)家是必要的。這里面的很多事情都可以抽象出來，像推薦引擎和個性化系統(tǒng)等。比方說，數(shù)據(jù)科學(xué)家的很大一部分工作是做出“特征”模式，即把輸入數(shù)據(jù)組合好，讓機器有效學(xué)習。過程差不多就是數(shù)據(jù)科學(xué)家把數(shù)據(jù)擺弄好然后塞進機器，再按一下“啟動”即可，數(shù)據(jù)科學(xué)家的工作只是需要幫助機器以一種有意義的方式來審視這個世界。

可是如果按照單個領(lǐng)域來看，特征創(chuàng)建也是可以模板化的。比方說，每個電子商務(wù)網(wǎng)站都有購買流和用戶細分的概念。如果領(lǐng)域?qū)＜铱梢灾苯訉⑵渌悸肪幋a進系統(tǒng)，將領(lǐng)域體現(xiàn)到系統(tǒng)里面去，那么數(shù)據(jù)科學(xué)家這個翻譯和中介是不是就可以省掉了?

分析

從數(shù)據(jù)當中自動分析出最有價值的東西從來都不是一件易事。但是提供針對單個領(lǐng)域的透視鏡是有可能的—這可以讓業(yè)務(wù)專家做試驗，就像數(shù)據(jù)科學(xué)家那樣。這似乎是一個最容易解決的問題，因為市場上早已經(jīng)有了各種特定領(lǐng)域的分析產(chǎn)品。

但是這些產(chǎn)品對于領(lǐng)域?qū)＜襾碚f約束太多，不易接近。界面友好性絕對還有改進的空間。我們還需要考慮機器如何從分析得出的結(jié)果中學(xué)習。這是關(guān)鍵的反饋環(huán)路，業(yè)務(wù)專家希望能修改這個環(huán)路。這又是一個提供模板化界面的機會。

正如 CMS 領(lǐng)域的情況一樣，這些解決方案也不能包治百病。但是針對泛化的一組數(shù)據(jù)問題采用技術(shù)解決方案可以緩解數(shù)據(jù)科學(xué)家的瓶頸問題。一旦領(lǐng)域?qū)＜夷軌蛑苯痈鷻C器學(xué)習系統(tǒng)協(xié)作，我們就能夠進入大數(shù)據(jù)的新時代—一個人和機器可以相互學(xué)習的新世紀。也許到了那個時候，大數(shù)據(jù)能解決的問題就能多于它制造的問題了。

責任編輯：王程程來源： 36氪

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="htne1"><span id="htne1"></span></tr>