自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)科學家正在崛起

大數(shù)據(jù)
2012年美國大選成就了一批大數(shù)據(jù)技術(shù)人員,也拉開了數(shù)據(jù)科學家們崛起的大幕。數(shù)據(jù)科學家們,都與具體的行業(yè)緊密相聯(lián),有扎實的統(tǒng)計基礎(chǔ),也有豐富的行業(yè)經(jīng)驗。

美國2012總統(tǒng)大選是奧巴馬的勝利,但實際上也是統(tǒng)計學家的勝利。奧巴馬當選之夜,我看見推特上有一條消息被瘋狂轉(zhuǎn)載:

NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATES

當然這是一句玩笑話,但Nate Silver是誰?他號稱“競選預(yù)測之神諭”:2008年的總統(tǒng)大選他預(yù)測對了最終結(jié)果,而且美國50州的投票結(jié)果他預(yù)測對了49個;今年的大選他又預(yù)測對了,并且是50州全對。Silver是一名統(tǒng)計學家,畢業(yè)于芝加哥大學,隨后在畢馬威會計師事務(wù)所“度過了令自己后悔的四年時間”(不喜歡那里的工作),后來轉(zhuǎn)向預(yù)測棒球選手的成績,再后來轉(zhuǎn)向政治方面的數(shù)據(jù)分析和預(yù)測??偨y(tǒng)大選的預(yù)測是一件噪聲很大的工作,各家有各家的預(yù)測和分析,各種突發(fā)事件可能會導(dǎo)致某位候選人的支持短期內(nèi)大幅變動。Silver的工作就像機器學習中的“集成學習”(他自己的描述是“貝葉斯統(tǒng)計”,用自己的先驗信息和數(shù)據(jù)得到后驗),集合眾多民意調(diào)查結(jié)果,根據(jù)自己的經(jīng)驗判斷去平均它們(具體過程我不清楚)。

我想說的不是這個預(yù)測本身,而是我所感覺到的統(tǒng)計學家的變化。換個時髦的詞,叫數(shù)據(jù)科學家。他們和具體的行業(yè)緊密相聯(lián),有扎實的統(tǒng)計基礎(chǔ),也有豐富的行業(yè)經(jīng)驗。不僅如此,大家都會玩編程、做數(shù)據(jù)可視化??纯碨ilver在紐約時報的博客就有感覺了。

數(shù)據(jù)科學家正在“入侵”一些我們以前不能想象的行業(yè),例如總統(tǒng)競選。除了Silver和其他一大批統(tǒng)計學家做預(yù)測之外,奧巴馬還有一個數(shù)據(jù)分析部門,利用各種預(yù)測建模和數(shù)據(jù)挖掘手段來提高奧巴馬連任總統(tǒng)的概率;例如這里有他們一則招聘廣告,里面提到了R、MySQL、Python等工具。我再給自己無恥地打一個廣告:今天我在推特上看見這個部門里的一位數(shù)據(jù)分析師(見下圖,左為奧巴馬,右為數(shù)據(jù)分析師)提到了RStudio和我的knitr包,本碼農(nóng)以后也可以海吹一下牛皮“曾經(jīng)間接幫助美國總統(tǒng)贏得大選”……

如果你搜索一下數(shù)據(jù)科學家,你會看到各種光鮮的描述(什么炙手可熱啦性感啦),很多光鮮的東西都是坑,當然不絕對;我上大學時大家都覺得精算師像神一樣,讀(人大)統(tǒng)計的很多同學都是奔精算去的,但我覺得精算就是坑(因為我不喜歡它,再神對我也沒用)。媒體報道容易流于表面,這沒什么奇怪的,數(shù)據(jù)科學家應(yīng)該是一類綜合人才,他并不應(yīng)該只是一門技術(shù)的好手,例如純統(tǒng)計。對統(tǒng)計學家來說,貝葉斯誰不會?半夜三點把你叫醒你都能三秒內(nèi)背出貝葉斯定理,但讓你把貝葉斯統(tǒng)計用到總統(tǒng)競選上,可能就沒多少人做得了這事情了(參見施濤老師的考古文)。一方面,你要會收集數(shù)據(jù)(各種網(wǎng)絡(luò)數(shù)據(jù)來源需要惡心的清洗整理),另一方面,你要有靠譜的先驗信息(自己的經(jīng)驗也好,輿情分析也好),可是你只有那個貝葉斯公式,就像賣火柴的小女孩手中的火柴。

我并不想跟傳統(tǒng)學院派打仗,但我認為統(tǒng)計教育需要輕微改革。我們需要增強數(shù)據(jù)和編程方面的教育,諸如實變函數(shù)和測度論之類的數(shù)學課對統(tǒng)計專業(yè)來說應(yīng)該改為選修,這并不是說讓學生偷懶,而是學科細化分支的結(jié)果:知識在一代一代積累更新,我們不能要求每一代學生都從盤古開天辟地時的知識學起。有志于投身學術(shù)研究的可以那樣追根溯源皓首窮經(jīng),但統(tǒng)計學家在這個數(shù)據(jù)時代有更豐富的使命。既然現(xiàn)實中的數(shù)據(jù)都是惡心得要死(各種不整齊、各種求程序包養(yǎng)),何不在學生時代就先惡心一下?信息時代圖形的重要性也日益突出,但Excel的三維餅圖條形圖只能讓人覺得圖形有個毛線用;各種軟件輸出的靜態(tài)圖形在網(wǎng)絡(luò)時代只能看不能“摸”,要鼠標干嘛(去看看前文提到的Silver的博客,或者通向白宮的512條路,那些才是網(wǎng)絡(luò)時代該有的統(tǒng)計圖形)。

數(shù)據(jù)科學家的概念在美國提出也就是近兩年的事情,在中國發(fā)展如何,我們拭目以待。

原文鏈接:http://cos.name/2012/11/the-rise-of-data-scientists/

責任編輯:彭凡 來源: 統(tǒng)計之都
相關(guān)推薦

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學家

2018-12-24 08:37:44

數(shù)據(jù)科學家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2018-10-16 14:37:34

數(shù)據(jù)科學家數(shù)據(jù)分析數(shù)據(jù)科學

2012-06-12 09:33:59

2018-02-28 15:03:03

數(shù)據(jù)科學家數(shù)據(jù)分析職業(yè)

2016-08-02 17:00:12

Hadoop大數(shù)據(jù)系統(tǒng)

2020-03-20 14:40:48

數(shù)據(jù)科學Python學習

2020-04-09 15:32:20

數(shù)據(jù)科學AutoML代智能

2016-04-11 14:15:06

數(shù)據(jù)科學數(shù)據(jù)挖掘工具

2022-04-25 09:48:31

數(shù)據(jù)科學崗位離職

2015-08-25 13:20:29

數(shù)據(jù)科學

2015-08-28 09:22:07

數(shù)據(jù)科學

2018-08-20 19:24:40

數(shù)據(jù)科學數(shù)據(jù)清理數(shù)據(jù)分析

2022-11-03 14:13:24

騰訊科學家

2012-12-27 09:52:23

數(shù)據(jù)科學家大數(shù)據(jù)

2014-07-03 09:38:19

2019-08-26 09:47:56

數(shù)據(jù)科學家數(shù)據(jù)分析

2019-12-04 15:02:22

數(shù)據(jù)科學家故事數(shù)據(jù)分析

2019-01-08 16:25:42

數(shù)據(jù)科學機器學習神經(jīng)網(wǎng)絡(luò)
點贊
收藏

51CTO技術(shù)棧公眾號