自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

偽數(shù)據(jù)科學(xué)家 VS 真數(shù)據(jù)科學(xué)家

大數(shù)據(jù)
數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域也是通才,比如會(huì)掌握這些專業(yè)知識(shí):健壯性、實(shí)驗(yàn)設(shè)計(jì)、算法復(fù)雜度、儀表盤和數(shù)據(jù)可視化。一些數(shù)據(jù)科學(xué)家也是數(shù)據(jù)策略師——他們可以開發(fā)數(shù)據(jù)收集策略,并使用數(shù)據(jù)來發(fā)現(xiàn)可操作的、能對(duì)商業(yè)產(chǎn)生影響的見解。這就要求數(shù)據(jù)科學(xué)家具有創(chuàng)造性,能根據(jù)業(yè)務(wù)要求,制定分析、提出解決方案。

[[199142]]

如今數(shù)據(jù)科學(xué)書籍、認(rèn)證和文憑,如雨后春筍般層出不窮。但許多僅僅是鏡花水月:許多人鉆了這一新名詞的空子,將舊酒(比如統(tǒng)計(jì)學(xué)和R編程)放在了“數(shù)據(jù)科學(xué)”這個(gè)新瓶里。本文選自《數(shù)據(jù)天才:數(shù)據(jù)科學(xué)家修煉之道》。

R語(yǔ)言編程跟偽數(shù)據(jù)科學(xué)為何扯上了關(guān)系?

R是一種有20多年歷史的開源統(tǒng)計(jì)編程語(yǔ)言及編譯環(huán)境,是商業(yè)化產(chǎn)品S+的后繼者。R一直以來都局限于內(nèi)存數(shù)據(jù)處理,在統(tǒng)計(jì)圈子里非常流行,并因其出色的可視化效果為人稱道。一些新型的開發(fā)環(huán)境通過創(chuàng)建R程序包或者將其擴(kuò)展到分布式架構(gòu)里(比如將R與Hadoop結(jié)合的RHadoop),將R(限于在內(nèi)存里處理數(shù)據(jù))的能力擴(kuò)大。其他程序語(yǔ)言當(dāng)然也存在跟偽數(shù)據(jù)科學(xué)沾邊的情況,比如說SAS,但不及R這么流行。說到SAS,它價(jià)格高昂,在政府機(jī)構(gòu)或者實(shí)體企業(yè)的應(yīng)用更為廣泛。但在過去10年數(shù)據(jù)快速增長(zhǎng)的領(lǐng)域(如搜索引擎、社交媒體、移動(dòng)數(shù)據(jù)、協(xié)同過濾推薦等)運(yùn)用不多。R跟C、Perl或者Python的語(yǔ)法不一樣(后三者語(yǔ)法根源一樣),其簡(jiǎn)易性使得寫R的程序員比較廣泛。R還有很多程序包和不錯(cuò)的用戶界面,SAS卻難學(xué)很多。

管理決策層在搭建其數(shù)據(jù)科學(xué)家團(tuán)隊(duì)時(shí),有時(shí)也不是很清楚他們想要的到底是什么。

他們往往最終招募的是很純粹的技術(shù)極客、計(jì)算機(jī)科學(xué)家,或者缺乏恰當(dāng)大數(shù)據(jù)經(jīng)驗(yàn)的人。人力資源部門對(duì)于數(shù)據(jù)科學(xué)的了解也不會(huì)好到哪里,因此導(dǎo)致更為嚴(yán)重的問題,他們給出的招聘廣告就是不斷重復(fù)類似的關(guān)鍵詞:Java、Python、MapReduce、R、Hadoop和NoSQL。

數(shù)據(jù)科學(xué)真的就是這些技能的混合嗎?

MapReduce只是一個(gè)將數(shù)據(jù)分解為子集,在不同機(jī)器上分開處理,并把所有結(jié)果集合起來,從而處理大數(shù)據(jù)的泛化框架。因此它涉及的是處理大數(shù)據(jù)的分布式框架,用到的這些服務(wù)器和設(shè)備則組成云(Cloud)。

Hadoop是MapReduce的一種實(shí)現(xiàn),就像C++是面向?qū)ο缶幊痰膶?shí)現(xiàn)一樣。

NoSQL意味著“Not Only SQL(意為不單只是SQL)”,是指能更新穎、更高效地訪問(比如MapReduce)數(shù)據(jù)的數(shù)據(jù)庫(kù)或數(shù)據(jù)庫(kù)管理系統(tǒng),有時(shí)它是作為SQL(標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)查詢語(yǔ)言)之下的隱藏層而存在的。

除了MapReduce以外,還有其他框架——例如,圖形數(shù)據(jù)庫(kù)和環(huán)境,它們依賴于節(jié)點(diǎn)和邊這類概念,來管理和訪問數(shù)據(jù)(通常是空間數(shù)據(jù))。這些概念并不一定是新的。在谷歌存在之前,分布式體系結(jié)構(gòu)已被應(yīng)用到搜索技術(shù)環(huán)境中了。15年前,我寫Perl腳本進(jìn)行哈希連接(一種NoSQL連接,用來連接或合并數(shù)據(jù)庫(kù)中的兩個(gè)表)。然而,現(xiàn)在一些數(shù)據(jù)庫(kù)廠商提供的哈希連接,是SQL連接的一個(gè)快速替代品。哈希連接在本書后面還會(huì)討論到。它們使用哈希表,并依賴于名稱-值對(duì)的形式。我想說的結(jié)論是,有時(shí)MapReduce、NoSQL、Hadoop、Python(一種優(yōu)秀的腳本語(yǔ)言,往往用于處理文本和非結(jié)構(gòu)化數(shù)據(jù))會(huì)被認(rèn)為是Perl的后繼者,但它們根源于幾十年前就開發(fā)出的系統(tǒng)和技術(shù),只是在過去的10年里變得更成熟而已,但數(shù)據(jù)科學(xué)并不只是這些。

事實(shí)上,你可以成為一名真正的數(shù)據(jù)科學(xué)家,且不需要掌握這些技能。NoSQL和MapReduce不是新概念——在這些關(guān)鍵詞被創(chuàng)建之前,就有很多人接觸到它們。

成為一名數(shù)據(jù)科學(xué)家,你需要以下能力。

  • 敏銳的商業(yè)頭腦。
  • 真正的大數(shù)據(jù)專業(yè)知識(shí)(例如,可以在幾個(gè)小時(shí)內(nèi)快速地處理一個(gè)5 000萬行的數(shù)據(jù)集)。
  • 認(rèn)知數(shù)據(jù)的能力。
  • 對(duì)模型具有猜疑精神。
  • 了解大數(shù)據(jù)“詛咒”。
  • 有能力溝通并理解管理人員正在試圖解決哪些問題。
  • 能正確評(píng)估付你工資所能帶來的回報(bào)(ROI)或效益提升(lift)。
  • 能夠快速地識(shí)別一個(gè)簡(jiǎn)單的、健壯的、可擴(kuò)展的解決方案。
  • 能夠說服并推動(dòng)管理人員,即使不情愿,也要為了公司、用戶和股東的利益,轉(zhuǎn)到正確的方向上。
  • 真正熱愛數(shù)據(jù)分析。
  • 成功案例的實(shí)際應(yīng)用經(jīng)驗(yàn)。
  • 數(shù)據(jù)架構(gòu)知識(shí)。
  • 數(shù)據(jù)收集和清理技能。
  • 計(jì)算復(fù)雜度的基礎(chǔ)知識(shí)——如何開發(fā)健壯的、高效的、可擴(kuò)展的、可移植的架構(gòu)。
  • 良好的算法知識(shí)。

數(shù)據(jù)科學(xué)家在商業(yè)分析、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域也是通才,比如會(huì)掌握這些專業(yè)知識(shí):健壯性、實(shí)驗(yàn)設(shè)計(jì)、算法復(fù)雜度、儀表盤和數(shù)據(jù)可視化。一些數(shù)據(jù)科學(xué)家也是數(shù)據(jù)策略師——他們可以開發(fā)數(shù)據(jù)收集策略,并使用數(shù)據(jù)來發(fā)現(xiàn)可操作的、能對(duì)商業(yè)產(chǎn)生影響的見解。這就要求數(shù)據(jù)科學(xué)家具有創(chuàng)造性,能根據(jù)業(yè)務(wù)要求,制定分析、提出解決方案。

要理解數(shù)據(jù)科學(xué),所需的基本數(shù)學(xué)知識(shí)包括:

代數(shù),如果可能的話,包括基本矩陣?yán)碚摗?/p>

微積分入門課程。要掌握的理論不多,只需要理解計(jì)算的復(fù)雜度和O標(biāo)記法即可。了解特殊函數(shù),包括對(duì)數(shù)、指數(shù)、冪函數(shù)。微分方程、積分和復(fù)數(shù)不是必要的。

統(tǒng)計(jì)與概率的入門課程,要了解隨機(jī)變量、概率、均值、方差、百分位數(shù)、實(shí)驗(yàn)設(shè)計(jì)、交叉驗(yàn)證、擬合度和穩(wěn)健統(tǒng)計(jì)的概念(不需要了解技術(shù)細(xì)節(jié),而是達(dá)到本書介紹的程度即可)。

從技術(shù)的角度,要掌握的重要技能和知識(shí)有R、Python(或Perl)、Excel、SQL、圖形(可視化)、FTP、基本的UNIX命令(sort、grep、head、tail、管道和重定向操作符、cat、cron定時(shí)等),以及對(duì)如何設(shè)計(jì)和訪問數(shù)據(jù)庫(kù)有基本了解。了解分布式系統(tǒng)如何工作和在哪里能發(fā)現(xiàn)瓶頸(是在硬盤和內(nèi)存之間的數(shù)據(jù)傳輸,還是在互聯(lián)網(wǎng)上),這也很重要。***,要了解網(wǎng)絡(luò)爬蟲基本知識(shí),這有助于獲取互聯(lián)網(wǎng)上能找到的非結(jié)構(gòu)化數(shù)據(jù)。

偽數(shù)據(jù)科學(xué)的例子

這里有個(gè)偽數(shù)據(jù)科學(xué)的例子,說明數(shù)據(jù)科學(xué)家要開展工作,為什么需要遵循標(biāo)準(zhǔn)和***實(shí)踐。這里討論的例子,并不是說它們是不好的產(chǎn)品——實(shí)際上,它們有很多的內(nèi)在價(jià)值——但跟真的數(shù)據(jù)科學(xué)無關(guān)。原因有以下兩點(diǎn):

首先,部分統(tǒng)計(jì)學(xué)家沒有參與到大數(shù)據(jù)革***。雖然有些人還寫了關(guān)于應(yīng)用數(shù)據(jù)科學(xué)的書,但只是重新包裝原來的統(tǒng)計(jì)課程。

第二,適合大數(shù)據(jù)集的方法需要變化——按2005年的大數(shù)據(jù)定義,當(dāng)有2 000萬行數(shù)據(jù)時(shí),才有資格成為大數(shù)據(jù)——但2010年后不能再這樣劃分,因?yàn)榇髷?shù)據(jù)至少是TB級(jí)的。

不少人認(rèn)為數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)新名字,他們把數(shù)據(jù)科學(xué)和偽數(shù)據(jù)科學(xué),以及2005年的大數(shù)據(jù)定義與2013年的大數(shù)據(jù)定義弄混淆了。現(xiàn)代數(shù)據(jù)也有很大的不同,已經(jīng)被描述為3個(gè)V:速度(velocity)(實(shí)時(shí)、快速流動(dòng))、多樣化(variety)(結(jié)構(gòu)化、非結(jié)構(gòu)化,如微博內(nèi)容)和大數(shù)據(jù)量(volume)。我會(huì)增加真實(shí)性(veracity)和價(jià)值(value)。

例子:

某一本數(shù)據(jù)科學(xué)電子書

查看一所著名大學(xué)2012年的數(shù)據(jù)科學(xué)訓(xùn)練手冊(cè),書的大部分內(nèi)容是關(guān)于舊的統(tǒng)計(jì)理論。這本書用R來說明各種概念。當(dāng)用邏輯回歸處理僅僅1萬行數(shù)據(jù)時(shí),并不是大數(shù)據(jù)科學(xué),它是偽數(shù)據(jù)科學(xué)。這本電子書全部關(guān)于小數(shù)據(jù),***幾章例外,在那里你會(huì)學(xué)到一點(diǎn)SQL(嵌入在R代碼中)的知識(shí)和如何使用R包從Twitter提取微博內(nèi)容,且創(chuàng)造出作者所說的詞云(它和云計(jì)算沒關(guān)系)。

即使提取Twitter內(nèi)容的項(xiàng)目也還是小數(shù)據(jù),也沒有分布式體系結(jié)構(gòu)(例如,MapReduce)。事實(shí)上,該書從來沒有談到數(shù)據(jù)架構(gòu)。該書的水平是初級(jí)的。每章以簡(jiǎn)單的方式(適合高中學(xué)生閱讀)簡(jiǎn)短介紹大數(shù)據(jù)和數(shù)據(jù)科學(xué),跟該書實(shí)際涉獵的小數(shù)據(jù)科學(xué)不搭,跟項(xiàng)目和技術(shù)展示脫節(jié)。

也許作者增加了這些簡(jiǎn)短的段落,是為了可以將他的“R統(tǒng)計(jì)”的電子書,重新改名為“數(shù)據(jù)科學(xué)的介紹”。它是免費(fèi)的、很好的、寫得很棒的書,且會(huì)使高中學(xué)生對(duì)統(tǒng)計(jì)和編程感興趣。但它與數(shù)據(jù)科學(xué)無關(guān)。 

責(zé)任編輯:龐桂玉 來源: 36大數(shù)據(jù)
相關(guān)推薦

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2019-02-25 22:57:22

數(shù)據(jù)工程師數(shù)據(jù)科學(xué)機(jī)器學(xué)習(xí)

2012-12-27 09:52:23

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2014-07-03 09:38:19

2019-08-26 09:47:56

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2020-04-09 15:32:20

數(shù)據(jù)科學(xué)AutoML代智能

2022-04-25 09:48:31

數(shù)據(jù)科學(xué)崗位離職

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2015-08-28 09:22:07

數(shù)據(jù)科學(xué)

2018-08-20 19:24:40

數(shù)據(jù)科學(xué)數(shù)據(jù)清理數(shù)據(jù)分析

2022-11-03 14:13:24

騰訊科學(xué)家

2018-03-30 08:58:34

Web 開發(fā)Python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)