解讀數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)之間鮮為人知的區(qū)別
譯文【51CTO.com快譯】數(shù)據(jù)科學(xué)和數(shù)據(jù)挖掘在許多人看來(lái)很相似,因此必須了解它們之間的一些主要的區(qū)別。
如今,數(shù)據(jù)科學(xué)家通常被認(rèn)為是最有前途和最有利可圖的工作之一。美國(guó)勞工統(tǒng)計(jì)局預(yù)計(jì),到2029年,美國(guó)對(duì)于數(shù)據(jù)科學(xué)家的市場(chǎng)需求將增加到37700人。
然而,盡管人們對(duì)數(shù)據(jù)科學(xué)的工作越來(lái)越感興趣,但并不知道如何從事這個(gè)職業(yè)。因此應(yīng)該了解數(shù)據(jù)科學(xué)的職業(yè)生涯,這其中包括了解不同數(shù)據(jù)流程之間的差異。
一些行業(yè)網(wǎng)站和大學(xué)正在提供有關(guān)數(shù)據(jù)科學(xué)的學(xué)習(xí)課程。然而,對(duì)于初學(xué)者來(lái)說(shuō),他們對(duì)于如何入門(mén)以及如何選擇有效的路徑并不總是很清楚。因?yàn)閿?shù)據(jù)技術(shù)領(lǐng)域中一些相似的領(lǐng)域存在顯著的差異。因此需要了解數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)之間的重要區(qū)別。
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)是一門(mén)專(zhuān)注于數(shù)據(jù)分析并在此基礎(chǔ)上取得最佳解決方案的科學(xué)。在以往,這些問(wèn)題是由數(shù)學(xué)和統(tǒng)計(jì)學(xué)專(zhuān)家來(lái)處理的。隨著人工智能的進(jìn)步得到了更廣泛的應(yīng)用,這使得將優(yōu)化和信息學(xué)納入分析方法成為可能。
實(shí)踐證明,這種新方法更加有效,因此人們必須精通這一技能才能成為數(shù)據(jù)科學(xué)家。例如,像Safetrading這樣的加密貨幣平臺(tái)都使用人工智能來(lái)檢查提供交易信號(hào)的服務(wù),從而提高了準(zhǔn)確性和速度。
數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)的定義
數(shù)據(jù)挖掘是一種基于大量信息分析的自動(dòng)數(shù)據(jù)搜索。其目標(biāo)是識(shí)別趨勢(shì)和模式,這是傳統(tǒng)分析技術(shù)無(wú)法做到的。復(fù)雜的數(shù)學(xué)算法用于分割數(shù)據(jù)并估計(jì)后續(xù)事件的可能性。而每個(gè)數(shù)據(jù)科學(xué)家都需要了解數(shù)據(jù)挖掘。
在哪里使用數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)應(yīng)用在人們工作和生活的不同領(lǐng)域,可以應(yīng)對(duì)以下情況:
- 使用預(yù)測(cè)分析來(lái)防止欺詐
- 使用機(jī)器學(xué)習(xí)簡(jiǎn)化營(yíng)銷(xiāo)實(shí)踐
- 使用數(shù)據(jù)分析創(chuàng)建更有效的精算流程
在哪里使用數(shù)據(jù)挖掘?
如今,數(shù)據(jù)挖掘在商業(yè)、科技、醫(yī)藥、電信等行業(yè)領(lǐng)域得到了廣泛的應(yīng)用。
信用卡交易數(shù)據(jù)分析、住房和公共服務(wù)數(shù)據(jù)分析、基于客戶偏好的商店誠(chéng)信卡計(jì)劃、國(guó)家安全(入侵檢測(cè))、人類(lèi)基因組研究只是數(shù)據(jù)挖掘應(yīng)用的一些用例。
成為數(shù)據(jù)科學(xué)家的六個(gè)步驟
正如人們所看到的,這兩個(gè)術(shù)語(yǔ)對(duì)于不懂它們的人來(lái)說(shuō)可能是相似的。首先了解的就是這兩種技術(shù)應(yīng)用的領(lǐng)域非常不同。
盡管如此,很多人希望走上一條正確的途徑成為數(shù)據(jù)科學(xué)家。以下是行業(yè)人士成為數(shù)據(jù)科學(xué)家的六個(gè)步驟:
1.學(xué)習(xí)數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí)
為了掌握數(shù)據(jù)科學(xué)的基礎(chǔ)知識(shí),希望成為數(shù)據(jù)分析工程師的初學(xué)者需要學(xué)習(xí)統(tǒng)計(jì)學(xué)、概率論、線性代數(shù)等課程,這對(duì)于能夠快速有效地處理數(shù)據(jù)排列非常重要。
2.程序設(shè)計(jì)
精通程序設(shè)計(jì)將是一大優(yōu)勢(shì)。初學(xué)者需要學(xué)習(xí)編程語(yǔ)言,這樣就可以充分利用編程的能力。
在選擇編程語(yǔ)言時(shí),可以考慮學(xué)習(xí)Python。它非常適合初學(xué)者,其語(yǔ)法相對(duì)簡(jiǎn)單,功能豐富,并且在勞動(dòng)力市場(chǎng)中需求旺盛。
3.機(jī)器學(xué)習(xí)
采用機(jī)器學(xué)習(xí)技術(shù),不再需要編寫(xiě)詳細(xì)的指令來(lái)完成某些任務(wù)。因此,機(jī)器學(xué)習(xí)對(duì)于幾乎所有領(lǐng)域都非常重要,但最重要的是,在數(shù)據(jù)科學(xué)領(lǐng)域,采用機(jī)器學(xué)習(xí)將非常有效。
4.數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)可視化
數(shù)據(jù)挖掘是一個(gè)重要的研究過(guò)程。它包括根據(jù)不同的選項(xiàng)對(duì)隱藏的數(shù)據(jù)模型進(jìn)行分析,將這些數(shù)據(jù)模型轉(zhuǎn)換為有用的信息,這些信息在數(shù)據(jù)倉(cāng)庫(kù)中收集和生成,以促進(jìn)旨在降低成本并增加收入的業(yè)務(wù)決策。
5.實(shí)踐經(jīng)驗(yàn)
學(xué)習(xí)理論知識(shí)很重要,但重要的是豐富的實(shí)踐經(jīng)驗(yàn)。初學(xué)者可以采用數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)Kaggle發(fā)布的許多開(kāi)放數(shù)據(jù)集。另外,初學(xué)者可以借鑒其他貢獻(xiàn)者發(fā)布的腳本,并從成功的經(jīng)驗(yàn)中學(xué)習(xí)。
6.資格確認(rèn)
初學(xué)者在學(xué)完基礎(chǔ)知識(shí)并進(jìn)行實(shí)踐之后,需要分析數(shù)據(jù)并嘗試參加比賽和認(rèn)證考試,然后開(kāi)始求職。具有認(rèn)證資格將成為他們求職的一個(gè)優(yōu)勢(shì)。
數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘:總結(jié)性思考
正如人們所見(jiàn),數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘之間有著密切的聯(lián)系,尤其是在數(shù)據(jù)科學(xué)領(lǐng)域。學(xué)習(xí)者可以在網(wǎng)絡(luò)免費(fèi)獲得在線課程和書(shū)籍,并不斷練習(xí)和參加比賽。而在掌握專(zhuān)業(yè)知識(shí)和開(kāi)展實(shí)踐之后,他們將成為使用數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)科學(xué)家。
理解數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘的區(qū)別是非常重要的
數(shù)據(jù)技術(shù)領(lǐng)域有很多方面。如果考慮從事這方面的工作,則應(yīng)了解數(shù)據(jù)科學(xué)與數(shù)據(jù)挖掘之間的區(qū)別。
原文標(biāo)題:Deciphering The Seldom Discussed Differences Between Data Mining and Data Science,作者:Ryan Kh
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】