數(shù)據(jù)科學(xué)究竟是什么?
數(shù)據(jù)科學(xué)是一門將數(shù)據(jù)變得有用的學(xué)科。它包含三個(gè)重要概念:
- 統(tǒng)計(jì)
- 機(jī)器學(xué)習(xí)
- 數(shù)據(jù)挖掘/分析
數(shù)據(jù)科學(xué)的定義
如果你回顧一下數(shù)據(jù)科學(xué)這個(gè)術(shù)語的[早期歷史](),會發(fā)現(xiàn)有兩個(gè)主題密切相連:
- 大數(shù)據(jù)意味著計(jì)算機(jī)的使用頻率增加。
- 統(tǒng)計(jì)學(xué)家很難將紙張上所寫算法用計(jì)算機(jī)實(shí)現(xiàn)。
由此,數(shù)據(jù)科學(xué)得以出現(xiàn)。早先,人們將數(shù)據(jù)科學(xué)家視作會編碼的統(tǒng)計(jì)學(xué)家。如今看來,這種說法并不準(zhǔn)確,首先讓我們回到數(shù)據(jù)科學(xué)本身。
2003年,《數(shù)據(jù)科學(xué)雜志》曾提出:“所謂的‘數(shù)據(jù)科學(xué)’,指的是那些任何與數(shù)據(jù)相關(guān)的內(nèi)容”。對此,我表示贊同,現(xiàn)在一切都無法與數(shù)據(jù)分割。
之后,對數(shù)據(jù)科學(xué)的定義便層出不窮,例如Conway的維恩圖,以及Mason和Wiggins的經(jīng)典觀點(diǎn)。
維基百科上對數(shù)據(jù)科學(xué)的定義更接近于我給學(xué)生講授的內(nèi)容:
數(shù)據(jù)科學(xué)僅是一種概念,它結(jié)合了統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)及其相關(guān)方法,旨在利用數(shù)據(jù)對實(shí)際現(xiàn)象進(jìn)行“理解和分析”。
簡單來講:數(shù)據(jù)科學(xué)是一門將數(shù)據(jù)變得有用的學(xué)科。
現(xiàn)在你也許不禁會問,“這會不會太簡單了,‘有用’怎么就能包含所有的術(shù)語呢?”
先看下圖,該圖內(nèi)容與維基百科給出的定義十分契合:
這些都是什么,我們又如何知道處于圖中所描述的哪個(gè)階段呢?
統(tǒng)計(jì)學(xué)家和機(jī)器學(xué)習(xí)工程師的區(qū)別不在于前者使用R,而后者使用Python。由于眾多原因,按照SQL、R、Python進(jìn)行分類是不合理的,其中最重要的原因是軟件會更新。目前,已經(jīng)可以用SQL來處理機(jī)器學(xué)習(xí)問題。
新手依舊喜歡采用這種方式進(jìn)行區(qū)分,甚至很多大學(xué)課程也是如此安排,但這不夠合理。并且,最好不要采用直方圖、t檢驗(yàn)以及神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。如果你足夠聰明,并且擁有自己的觀點(diǎn),你可以使用相同的算法解決所有的數(shù)學(xué)科學(xué)問題。
我建議可按如下方式進(jìn)行區(qū)分:
None-One-Many
這究竟指的是什么呢?沒錯(cuò),就是決定!當(dāng)所有你需要的事實(shí)對你可見時(shí),你可以通過描述性分析做出盡可能多的決定。
我們的行動和決定會影響到我們周圍的世界。
接下來我們將繼續(xù)探討如何讓數(shù)據(jù)變得有用。對我來說,有用的概念與影響世界的行動緊密相連。舉個(gè)形象的例子:如果我們相信圣誕老人的存在,那圣誕老人這個(gè)概念就不重要了,除非它可能會以某種方式影響我的行為。然后,取決于這種行為的潛在后果,它可能開始變得非常重要。
下圖是決策導(dǎo)向圖,您可以通過以下三步讓數(shù)據(jù)變得有用。
數(shù)據(jù)挖掘
如果你不知道你要作何決定,最好的辦法就是去尋找靈感。這就是所謂的數(shù)據(jù)挖掘、數(shù)據(jù)分析、描述性分析、探索性數(shù)據(jù)分析或知識發(fā)現(xiàn)。
分析的黃金準(zhǔn)則:只對你所見的下結(jié)論。
除非你知道如何制定你的決策,否則就從尋找靈感開始吧。做法很簡單,只需要你將數(shù)據(jù)集想象為你在黑暗的房間中發(fā)現(xiàn)的一堆底片。數(shù)據(jù)挖掘就是讓設(shè)備盡可能快地公開所有的圖片,這樣你就能看到這些圖片上是否有什么鼓舞人心的東西。和照片一樣,不要把你看到的東西想得太嚴(yán)肅。你沒有拍這些照片,所以你對屏幕之外的東西了解不多。數(shù)據(jù)挖掘的黃金法則是:只對你能看到的做出結(jié)論,不對你看不到的做出結(jié)論,因?yàn)槟阈枰y(tǒng)計(jì)數(shù)據(jù)和更多的專業(yè)知識。
除此之外,你還應(yīng)盡力做到最好。數(shù)據(jù)挖掘的專業(yè)知識是通過檢查數(shù)據(jù)的速度來判斷的,不要迷戀那些看似有趣的東西。
暗房一開始很嚇人,但其實(shí)也沒什么大不了的。只要學(xué)會操作設(shè)備就行。這是R語言的教程,這是Python語言的教程。當(dāng)你開始玩得開心時(shí),你可以稱自己為數(shù)據(jù)分析師,當(dāng)你能夠以閃電般的速度曝光照片以及所有其他類型的數(shù)據(jù)集時(shí),你就可以稱為專家分析師。
統(tǒng)計(jì)推斷
靈感很容易獲取,但嚴(yán)謹(jǐn)卻很難做到,如果你想掌握數(shù)據(jù),則需要專業(yè)課程的學(xué)習(xí)。作為一名統(tǒng)計(jì)學(xué)專業(yè)的本科生和研究生,我認(rèn)為統(tǒng)計(jì)學(xué)推論(簡稱統(tǒng)計(jì)學(xué))是這三個(gè)領(lǐng)域中最難且最具哲學(xué)思想的。想要做好它需要花費(fèi)不少的時(shí)間。
如果你打算做出高質(zhì)量且風(fēng)險(xiǎn)可控的決策,由于決策不僅僅依賴你所得到的數(shù)據(jù),此時(shí)你需要在你的分析團(tuán)隊(duì)中加入統(tǒng)計(jì)技能。
在情況不確定的時(shí)候,或許統(tǒng)計(jì)學(xué)能夠改變你的想法。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)從本質(zhì)上來講,是使用示例而非指令來實(shí)現(xiàn)操作的。我也曾寫過一些關(guān)于機(jī)器學(xué)習(xí)的文章,包括機(jī)器學(xué)習(xí)與人工智能有何不同、如何入門機(jī)器學(xué)習(xí)、企業(yè)運(yùn)用機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)教訓(xùn)以及向孩子介紹監(jiān)督學(xué)習(xí)等。
數(shù)據(jù)工程
數(shù)據(jù)工程指的是將數(shù)據(jù)傳遞給數(shù)據(jù)科學(xué)團(tuán)隊(duì)的工作。它本身就是一個(gè)復(fù)雜的領(lǐng)域,通常而言,它更接近于軟件工程,而不是統(tǒng)計(jì)學(xué)。
數(shù)據(jù)工程與數(shù)據(jù)科學(xué)的差異是前后的區(qū)別。
獲取數(shù)據(jù)之前的大部分技術(shù)工作都可以被稱為“數(shù)據(jù)工程”,而獲取到數(shù)據(jù)后我們所做的一切都是“數(shù)據(jù)科學(xué)”。
決策智能
決策智能是關(guān)于決策的,包括基于數(shù)據(jù)的大規(guī)模決策,這使得它變成了一門工程學(xué)科。利用社會和管理學(xué)科的觀點(diǎn),增強(qiáng)數(shù)據(jù)科學(xué)的應(yīng)用。
決策只能是社會和管理學(xué)科的組成部分。換句話說,它是這些數(shù)據(jù)科學(xué)的超集,而不涉及為通用用途創(chuàng)建基本方法之類的研究工作。