自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不學(xué)好數(shù)學(xué)也想當(dāng)數(shù)據(jù)科學(xué)家?不存在的

企業(yè)動態(tài)
隨著越來越多優(yōu)秀開源項目的涌現(xiàn),各類數(shù)據(jù)科學(xué)工具都實現(xiàn)了“半自動化”,數(shù)據(jù)分析的背后數(shù)學(xué)原理似乎不再是數(shù)據(jù)科學(xué)家的必備技能。

大數(shù)據(jù)文摘作品

編譯:文明 修竹 高寧 天培

數(shù)據(jù)科學(xué)家需不需要有扎實的數(shù)學(xué)基礎(chǔ)呢?

隨著越來越多優(yōu)秀開源項目的涌現(xiàn),各類數(shù)據(jù)科學(xué)工具都實現(xiàn)了“半自動化”,數(shù)據(jù)分析的背后數(shù)學(xué)原理似乎不再是數(shù)據(jù)科學(xué)家的必備技能。

而在近期,諸如谷歌Cloud AutoML之類的人工智能自動化平臺也不斷趨于成熟,甚至讓人可以不用編程就能建立機器學(xué)習(xí)模型。

這么看來,數(shù)據(jù)科學(xué)家確實不再需要扎實的數(shù)學(xué)基礎(chǔ)了?

著名數(shù)據(jù)科學(xué)論壇KDnuggets的網(wǎng)紅博主 Tirthajyoti Sarkar表示,當(dāng)然不是啦,強烈反對!

為什么數(shù)據(jù)科學(xué)依舊離不開數(shù)學(xué)?我們又需要會哪些數(shù)學(xué)知識?讓我們聽這位大咖一一道來。

聲明

首先,我不是一名IT工程師,我在半導(dǎo)體領(lǐng)域工作,更確切的說是高功率半導(dǎo)體領(lǐng)域。作為一名技術(shù)開發(fā)工程師,我的日常工作內(nèi)容主要涉及半導(dǎo)體物理,硅制造過程的有限元模擬,以及電子電路理論。當(dāng)然,這其中會涉及一些數(shù)學(xué),但令人難過的是,我并沒有用到過數(shù)據(jù)科學(xué)家們所需要的那些數(shù)學(xué)。

我有不少朋友在IT行業(yè)工作,我也目睹了不少傳統(tǒng)IT工程師充滿激情的學(xué)習(xí)或者參與到令人激動的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)/人工智能領(lǐng)域。我現(xiàn)在涉足這個領(lǐng)域是為了學(xué)習(xí)一些這行所需要的技術(shù),希望把這些技術(shù)應(yīng)用在半導(dǎo)體裝置或工藝設(shè)計領(lǐng)域。但當(dāng)我開始通過自學(xué)深入了解這些令人激動的內(nèi)容時,我很快發(fā)現(xiàn)我在大學(xué)里學(xué)的那些基礎(chǔ)的數(shù)學(xué)知識,我已經(jīng)記不清了。

雖然我擁有美國一所著名大學(xué)的電氣工程博士學(xué)位,但在沒有復(fù)習(xí)一些必須的數(shù)學(xué)知識的前提下,想要牢固的掌握機器學(xué)習(xí)或者數(shù)據(jù)科學(xué)技術(shù)還是有一些困難。我必須要說的是IT工程師工作內(nèi)容和長期的培訓(xùn)使得他們遠離了應(yīng)用數(shù)據(jù)領(lǐng)域。他們雖然每天處理大量的數(shù)據(jù)和信息,卻并沒有對這些數(shù)據(jù)建立嚴(yán)謹(jǐn)?shù)哪P?。通常,由于巨大的時間壓力,他們工作的重點是“立即處理完當(dāng)前需求然后處理下一個”而不是科學(xué)性的深度挖掘這些數(shù)據(jù)。遺憾的是,數(shù)據(jù)科學(xué)永遠是一門科學(xué),而僅僅有數(shù)據(jù)是遠遠不夠的。

這些工具和技術(shù)包括了,模擬物理或信息過程從而探尋潛在動力學(xué)過程,嚴(yán)格地評價數(shù)據(jù)來源的質(zhì)量,訓(xùn)練人們從信息流中識別隱藏模式的識別能力,或者理解模型的局限性。這些內(nèi)容都是科學(xué)過程中的標(biāo)志。

應(yīng)用科學(xué)或者應(yīng)用工程學(xué)課程中通常包含這些內(nèi)容,一些相似領(lǐng)域中的高水平研究工作中也包含了這些內(nèi)容。遺憾的是,即便是工作超過十年的傳統(tǒng)IT工程師(開發(fā)運營,數(shù)據(jù)庫或者QA/測試)都缺乏對這些知識的學(xué)習(xí)。原因很簡單,用不到。

變革的時代

現(xiàn)在不一樣了!

在大多數(shù)情況下,擁有***的SQL查詢知識,清晰的商業(yè)需求,以及一定的RDBMS知識就足夠完成提取-轉(zhuǎn)換-裝載(ETL)循環(huán)的工作,這就是一名IT工程師在公司中所產(chǎn)生的價值。但如果有人突然開始問你一些奇怪的問題,例如,你怎么知道人工生成的測試數(shù)據(jù)是否足夠隨機?你怎么知道下一個數(shù)據(jù)點是否分布在3-sigma的范圍內(nèi)?遇到這些問題,你該怎么辦?或者,僅是隔壁計算機科學(xué)的研究生偶爾的打趣--計算機進行任何有意義的數(shù)學(xué)運算的數(shù)據(jù)表(即:矩陣)的運算負荷會隨矩陣大小(行或者列)的增加呈非線性增長,也會讓IT工程師感到困惑和惱火。

數(shù)據(jù)成為了風(fēng)口上的話題,這些問題出現(xiàn)的頻率越來越高,也越來越緊急。

主管、技術(shù)經(jīng)理以及決策者們已經(jīng)不再滿足傳統(tǒng)ETL工具給出的干巴巴的表格描述了。他們想要看到表格下面隱藏的模式以及列與列之間的相關(guān)關(guān)系。他們希望得到完整的描述和推論統(tǒng)計,這些描述和統(tǒng)計可能有助于預(yù)測建模,并擴展出遠遠超出數(shù)據(jù)集所包含數(shù)據(jù)范圍的投射能力。

今天的數(shù)據(jù)必須講述一個故事、或者唱一首美妙的歌。但是,要聽懂它優(yōu)美的旋律,你必須精通音樂的基本音符,而這些音符就是數(shù)學(xué)。

不再啰嗦,讓我們來找出問題的癥結(jié)所在。一名普通的IT工程師要跨入商業(yè)分析、數(shù)據(jù)科學(xué)或者數(shù)據(jù)挖掘領(lǐng)域,他必須學(xué)習(xí)或復(fù)習(xí)哪些基本的數(shù)學(xué)知識。接下來,我將給出我的觀點。

基礎(chǔ)代數(shù),函數(shù),集合理論,繪圖,幾何學(xué)

讓我們從最基礎(chǔ)的內(nèi)容開始。現(xiàn)代數(shù)學(xué)的大廈是建立在一些基本內(nèi)容如集合論、泛函分析以及數(shù)論等內(nèi)容上的。從應(yīng)用數(shù)學(xué)學(xué)習(xí)的角度看,我們可以通過一些簡明的模塊來簡化這些基本內(nèi)容的學(xué)習(xí)(沒有特別的順序):

a) 集合論基礎(chǔ),b) 實數(shù)和復(fù)數(shù)及其基本屬性,c) 多項式函數(shù)、指數(shù)、對數(shù)、三角恒等式,d) 線性和二次方程,e) 不平等、無窮級數(shù)、二項式定理,f) 排列組合,g) 繪圖、笛卡兒坐標(biāo)系和極坐標(biāo)系、圓錐曲線論,h) 基礎(chǔ)幾何定理、三角形的性質(zhì)。

微積分

當(dāng)年牛頓想要解釋天體運行的規(guī)律,但他卻沒有一個足夠好的數(shù)學(xué)工具來描述他提出的物理概念。在英格蘭的城市爆發(fā)瘟疫的期間,他搬到了他在鄉(xiāng)下的農(nóng)場,在這里,他提出了現(xiàn)代數(shù)學(xué)的一個分支--微積分。從那以后,微積分被認(rèn)為是任何分析研究學(xué)科如理論科學(xué)、應(yīng)用科學(xué)、工程學(xué)、社會科學(xué)和經(jīng)濟學(xué)等通往高等教育的大門。

毫不意外的,微積分的概念和應(yīng)用出現(xiàn)在數(shù)據(jù)科學(xué)和機器學(xué)習(xí)中。涉及的重要概念包括:

a) 單變量函數(shù)的極限、連續(xù)性以及可微性,b) 中值定理、不定型以及L’Hospita規(guī)則,c) ***值和最小值,d) 乘積和鏈?zhǔn)椒▌t,e) 泰勒級數(shù),f) 積分計算的基本和平均價值定理,g) 定積分和廣義積分的計算,h) Beta和Gamma函數(shù), i) 雙變量函數(shù)的極限、連續(xù)性和偏微分,j) 常微分和偏微分方程基礎(chǔ)。

線性代數(shù)

一個長期沒有聯(lián)系的獵頭突然在領(lǐng)英上加你好友?淘寶突然向你推薦一種超好吃的餅干?網(wǎng)易云音樂為你推薦了***你口味的小眾歌曲?

學(xué)習(xí)了線性代數(shù)基礎(chǔ)后,你就有了學(xué)習(xí)科技行業(yè)的核心內(nèi)容所需的數(shù)學(xué)知識儲備,這種感覺是不是很愉快?

所需學(xué)習(xí)的必要內(nèi)容如下(排序不分先后且可能有遺漏):

a) 矩陣和向量的基本性質(zhì)--標(biāo)量乘法、線性變換、轉(zhuǎn)置、共軛、秩以及行列式,b) 內(nèi)積和外積,c) 矩陣乘法規(guī)則以及各種算法,d) 矩陣的逆,e) 特殊矩陣--方陣,單位矩陣,三角矩陣,稀疏矩陣和稠密矩陣的概念,單位向量,對稱矩陣,Hermitian矩陣,反Hermitian矩陣和酉矩陣,f) 矩陣分解的概念/矩陣LU分解,Gaussian/Gauss-Jordan消元法求解Ax = b的線性方程組,g) 向量空間,基,極化,正交性,標(biāo)準(zhǔn)正交,線性最小二乘,h) 奇異值分解,i) 特征值,特征向量,對角化。

統(tǒng)計和概率

“只有死亡和稅收是永遠不變的,其他一切都遵從正態(tài)分布。”

在關(guān)于數(shù)據(jù)科學(xué)的討論中,無論怎么強調(diào)要扎實掌握統(tǒng)計學(xué)和概率學(xué)基本概念的重要性都不為過。實際上,許多該行業(yè)的從業(yè)都者認(rèn)為機器學(xué)習(xí)就是統(tǒng)計學(xué)習(xí)。我從著名的《統(tǒng)計學(xué)習(xí)基礎(chǔ)(An Introduction to Statistical Learning)》開始了我***個機器學(xué)習(xí)MOOC課程,幾乎瞬間我就意識到我在這門學(xué)科上存在不少概念空白。為了彌補這些空白,我開始學(xué)習(xí)其他有關(guān)基本統(tǒng)計學(xué)和概率學(xué)的MOOC課程,并研讀相關(guān)主題的文章或觀看視頻。這門學(xué)科范圍很廣,因此針對性的學(xué)習(xí)計劃是掌握大部分基本概念的關(guān)鍵。我盡量把它們一一列取出來,但是我也有些擔(dān)心,畢竟這不是我擅長的領(lǐng)域。

  1. 數(shù)據(jù)摘要和描述性統(tǒng)計,集中趨勢,方差,協(xié)方差,相關(guān)性;
  2. 概率:基本概念,期望,概率微積分,貝葉斯定理,條件概率;
  3. 概率分布函數(shù)——均勻分布,正態(tài)分布,二項分布,卡方分布,t分布,中心極限定理;
  4. 采樣,度量,誤差,隨機數(shù);
  5. 假設(shè)檢驗,A/B測試,置信區(qū)間,p值;
  6. 方差分析;
  7. 線性回歸;
  8. 冪,效應(yīng)量,檢測手段;
  9. 研究性學(xué)習(xí)和試驗計劃。

***化理論,算法分析

這些話題跟應(yīng)用數(shù)學(xué)領(lǐng)域的傳統(tǒng)話語沒什么不同,它們大多是相關(guān)的并廣泛應(yīng)用到多個專業(yè)領(lǐng)域研究——理論計算機科學(xué),控制理論或運籌學(xué)。然而在機器學(xué)習(xí)實踐中,對這些強大技術(shù)有基本掌握是非常有用的,值得在這里一提。

比如,幾乎所有的機器學(xué)習(xí)算法/技術(shù)目的都是在特定約束條件下,使得某種估計誤差最小化。這是一個***化問題,通常用線性規(guī)劃或類似的技術(shù)解決。另一方面,這些技術(shù)在幫助理解計算機算法的時間復(fù)雜度上效果顯著,因為當(dāng)算法應(yīng)用到大型數(shù)據(jù)集時,時間復(fù)雜度就非常重要了。在這個大數(shù)據(jù)時代,通常人們期望一名數(shù)據(jù)科學(xué)家可以提取、轉(zhuǎn)換和分析數(shù)十億條記錄,他或她必須非常謹(jǐn)慎的選擇合適的算法,因為不同算法會導(dǎo)致最終性能的天壤之別。一般的理論和算法性質(zhì)可以在計算機科學(xué)課上學(xué)習(xí),但是要理解時間復(fù)雜度是如何分析和計算的(比如針對給定大小的數(shù)據(jù)集,該算法需要運行多長時間?),就必須要熟悉基本的數(shù)學(xué)概念比如動態(tài)規(guī)劃或者遞歸方程。熟悉數(shù)學(xué)歸納法的證明技術(shù)也非常有用。

后記

看到有這么多數(shù)學(xué)知識要學(xué),是不是有點望而卻步了?覺得自己要重新上一遍大學(xué)了?不用擔(dān)心,你可以根據(jù)需要邊做邊學(xué),但最重要的是保持思想的開放。不慌不慌,這些主題你也許大多已經(jīng)在大學(xué)學(xué)過,也可能是***次接觸,不過當(dāng)你學(xué)完后,你一定可以慢慢聽到數(shù)據(jù)中隱藏的“旋律”。到那時,你就已經(jīng)朝著成為數(shù)據(jù)科學(xué)家的方向邁出了一大步。

來源:

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

 

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2020-04-29 13:45:42

機器學(xué)習(xí)ML數(shù)據(jù)科學(xué)家

2018-06-21 08:31:13

數(shù)據(jù)數(shù)據(jù)科學(xué)大數(shù)據(jù)

2017-08-04 15:53:10

大數(shù)據(jù)真?zhèn)螖?shù)據(jù)科學(xué)家

2018-06-19 09:00:25

數(shù)據(jù)科學(xué)數(shù)據(jù)算法

2018-08-10 08:35:49

2017-08-22 10:25:43

IT人才數(shù)據(jù)科學(xué)HR

2016-10-17 15:12:36

2018-12-24 08:37:44

數(shù)據(jù)科學(xué)家數(shù)據(jù)模型

2012-12-06 15:36:55

CIO

2016-08-17 09:50:27

大數(shù)據(jù)數(shù)據(jù)科學(xué)家

2012-12-26 10:51:20

數(shù)據(jù)科學(xué)家

2018-02-28 15:03:03

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析職業(yè)

2018-10-16 14:37:34

數(shù)據(jù)科學(xué)家數(shù)據(jù)分析數(shù)據(jù)科學(xué)

2020-03-20 14:40:48

數(shù)據(jù)科學(xué)Python學(xué)習(xí)

2016-04-11 14:15:06

數(shù)據(jù)科學(xué)數(shù)據(jù)挖掘工具

2015-08-25 13:20:29

數(shù)據(jù)科學(xué)

2012-06-12 09:33:59

2017-12-18 10:50:14

數(shù)據(jù)科學(xué)家人工智能自動化

2017-04-12 10:15:21

大數(shù)據(jù)數(shù)據(jù)獲取數(shù)據(jù)分析

2019-12-04 15:02:22

數(shù)據(jù)科學(xué)家故事數(shù)據(jù)分析
點贊
收藏

51CTO技術(shù)棧公眾號