自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別

大數(shù)據(jù)
小編說:從數(shù)據(jù)分析的角度來看,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有很多相似之處,但不同之處也十分明顯,例如,數(shù)據(jù)挖掘并沒有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù),數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)進(jìn)行的,等等。從某種意義上說,機(jī)器學(xué)習(xí)的科學(xué)成分更重一些,而數(shù)據(jù)挖掘的技術(shù)成分更重一些。

小編說:從數(shù)據(jù)分析的角度來看,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有很多相似之處,但不同之處也十分明顯,例如,數(shù)據(jù)挖掘并沒有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù),數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)進(jìn)行的,等等。從某種意義上說,機(jī)器學(xué)習(xí)的科學(xué)成分更重一些,而數(shù)據(jù)挖掘的技術(shù)成分更重一些。

本文選自《大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)》

機(jī)器學(xué)習(xí)(Machine Learning,ML)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。其專門研究計(jì)算機(jī)是怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu),使之不斷改善自身的性能。

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫界提供的數(shù)據(jù)管理技術(shù)。

學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征,不具有學(xué)習(xí)能力的系統(tǒng)很難稱之為一個(gè)真正的智能系統(tǒng),而機(jī)器學(xué)習(xí)則希望(計(jì)算機(jī))系統(tǒng)能夠利用經(jīng)驗(yàn)來改善自身的性能,因此該領(lǐng)域一直是人工智能的核心研究領(lǐng)域之一。在計(jì)算機(jī)系統(tǒng)中,“經(jīng)驗(yàn)”通常是以數(shù)據(jù)的形式存在的,因此,機(jī)器學(xué)習(xí)不僅涉及對(duì)人的認(rèn)知學(xué)習(xí)過程的探索,還涉及對(duì)數(shù)據(jù)的分析處理。實(shí)際上,機(jī)器學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一。由于幾乎所有的學(xué)科都要面對(duì)數(shù)據(jù)分析任務(wù),因此機(jī)器學(xué)習(xí)已經(jīng)開始影響到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域,甚至影響到計(jì)算機(jī)科學(xué)之外的很多學(xué)科。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具。然而數(shù)據(jù)挖掘不僅僅要研究、拓展、應(yīng)用一些機(jī)器學(xué)習(xí)方法,還要通過許多非機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)倉儲(chǔ)、大規(guī)模數(shù)據(jù)、數(shù)據(jù)噪聲等實(shí)踐問題。機(jī)器學(xué)習(xí)的涉及面也很寬,常用在數(shù)據(jù)挖掘上的方法通常只是“從數(shù)據(jù)學(xué)習(xí)”。然而機(jī)器學(xué)習(xí)不僅僅可以用在數(shù)據(jù)挖掘上,一些機(jī)器學(xué)習(xí)的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大,如增強(qiáng)學(xué)習(xí)與自動(dòng)控制等。所以筆者認(rèn)為,數(shù)據(jù)挖掘是從目的而言的,機(jī)器學(xué)習(xí)是從方法而言的,兩個(gè)領(lǐng)域有相當(dāng)大的交集,但不能等同。

典型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)過程

下圖是一個(gè)典型的推薦類應(yīng)用,需要找到“符合條件的”潛在人員。要從用戶數(shù)據(jù)中得出這張列表,首先需要挖掘出客戶特征,然后選擇一個(gè)合適的模型來進(jìn)行預(yù)測(cè),***從用戶數(shù)據(jù)中得出結(jié)果。

把上述例子中的用戶列表獲取過程進(jìn)行細(xì)分,有如下幾個(gè)部分。

業(yè)務(wù)理解:理解業(yè)務(wù)本身,其本質(zhì)是什么?是分類問題還是回歸問題?數(shù)據(jù)怎么獲取?應(yīng)用哪些模型才能解決?

數(shù)據(jù)理解:獲取數(shù)據(jù)之后,分析數(shù)據(jù)里面有什么內(nèi)容、數(shù)據(jù)是否準(zhǔn)確,為下一步的預(yù)處理做準(zhǔn)備。

數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)會(huì)有噪聲,格式化也不好,所以為了保證預(yù)測(cè)的準(zhǔn)確性,需要進(jìn)行數(shù)據(jù)的預(yù)處理。

特征提?。禾卣魈崛∈菣C(jī)器學(xué)習(xí)最重要、最耗時(shí)的一個(gè)階段。

模型構(gòu)建:使用適當(dāng)?shù)乃惴?,獲取預(yù)期準(zhǔn)確的值。

模型評(píng)估:根據(jù)測(cè)試集來評(píng)估模型的準(zhǔn)確度。

模型應(yīng)用:將模型部署、應(yīng)用到實(shí)際生產(chǎn)環(huán)境中。

應(yīng)用效果評(píng)估:根據(jù)最終的業(yè)務(wù),評(píng)估最終的應(yīng)用效果。

整個(gè)過程會(huì)不斷反復(fù),模型也會(huì)不斷調(diào)整,直至達(dá)到理想效果。

機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例

1 尿布和啤酒的故事

先來看一則有關(guān)數(shù)據(jù)挖掘的故事——“尿布與啤酒”。

總部位于美國阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪擁有世界上***的數(shù)據(jù)倉庫系統(tǒng)。為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對(duì)其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其各門店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用NCR數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。一個(gè)意外的發(fā)現(xiàn)是:跟尿布一起購買最多的商品竟然是啤酒!這是數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析的結(jié)果,反映了數(shù)據(jù)的內(nèi)在規(guī)律。那么,這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎?是否有利用價(jià)值?

于是,沃爾瑪派出市場(chǎng)調(diào)查人員和分析師對(duì)這一數(shù)據(jù)挖掘結(jié)果進(jìn)行調(diào)查分析,從而揭示出隱藏在“尿布與啤酒”背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們?cè)谫I完尿布后又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購買的機(jī)會(huì)很多,于是沃爾瑪就在其各家門店將尿布與啤酒擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長。

2 決策樹用于電信領(lǐng)域故障快速定位

電信領(lǐng)域比較常見的應(yīng)用場(chǎng)景是決策樹,利用決策樹來進(jìn)行故障定位。比如,用戶投訴上網(wǎng)慢,其中就有很多種原因,有可能是網(wǎng)絡(luò)的問題,也有可能是用戶手機(jī)的問題,還有可能是用戶自身感受的問題。怎樣快速分析和定位出問題,給用戶

一個(gè)滿意的答復(fù)?這就需要用到?jīng)Q策樹。

下圖就是一個(gè)典型的用戶投訴上網(wǎng)慢的決策樹的樣例。

3 圖像識(shí)別領(lǐng)域

百度的百度識(shí)圖能夠有效地處理特定物體的檢測(cè)識(shí)別(如人臉、文字或商品)、通用圖像的分類標(biāo)注。

來自Google研究院的科學(xué)家發(fā)表了一篇博文,展示了Google在圖形識(shí)別領(lǐng)域的***研究進(jìn)展?;蛟S未來Google的圖形識(shí)別引擎不僅能夠識(shí)別出圖片中的對(duì)象,還能夠?qū)φ麄€(gè)場(chǎng)景進(jìn)行簡短而準(zhǔn)確的描述。這種突破性的概念來自機(jī)器語言翻譯方面的研究成果:通過一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將一種語言的語句轉(zhuǎn)換成向量表達(dá),并采用第二種RNN將向量表達(dá)轉(zhuǎn)換成目標(biāo)語言的語句。

而Google將以上過程中的***種RNN用深度卷積神經(jīng)網(wǎng)絡(luò)CNN替代,這種網(wǎng)絡(luò)可以用來識(shí)別圖像中的物體。通過這種方法可以實(shí)現(xiàn)將圖像中的對(duì)象轉(zhuǎn)換成語句,對(duì)圖像場(chǎng)景進(jìn)行描述。概念雖然簡單,但實(shí)現(xiàn)起來十分復(fù)雜,科學(xué)家表示目前實(shí)驗(yàn)產(chǎn)生的語句合理性不錯(cuò),但距離***仍有差距,這項(xiàng)研究目前僅處于早期階段。下圖展示了通過此方法識(shí)別圖像對(duì)象并產(chǎn)生描述的過程。

4 自然語言識(shí)別

自然語言識(shí)別一直是一個(gè)非常熱門的領(lǐng)域,最有名的是蘋果的Siri,支持資源輸入,調(diào)用手機(jī)自帶的天氣預(yù)報(bào)、日常安排、搜索資料等應(yīng)用,還能夠不斷學(xué)習(xí)新的聲音和語調(diào),提供對(duì)話式的應(yīng)答。

微軟的Skype Translator可以實(shí)現(xiàn)中英文之間的實(shí)時(shí)語音翻譯功能,將使得英文和中文普通話之間的實(shí)時(shí)語音對(duì)話成為現(xiàn)實(shí)。

Skype Translator的運(yùn)作機(jī)制如圖。

在準(zhǔn)備好的數(shù)據(jù)被錄入機(jī)器學(xué)習(xí)系統(tǒng)后,機(jī)器學(xué)習(xí)軟件會(huì)在這些對(duì)話和環(huán)境涉及的單詞中搭建一個(gè)統(tǒng)計(jì)模型。當(dāng)用戶說話時(shí),軟件會(huì)在該統(tǒng)計(jì)模型中尋找相似的內(nèi)容,然后應(yīng)用到預(yù)先“學(xué)到”的轉(zhuǎn)換程序中,將音頻轉(zhuǎn)換為文本,再將文本轉(zhuǎn)換成另一種語言。

雖然語音識(shí)別一直是近幾十年來的重要研究課題,但是該技術(shù)的發(fā)展普遍受到錯(cuò)誤率高、麥克風(fēng)敏感度差異、噪聲環(huán)境等因素的阻礙。將深層神經(jīng)網(wǎng)絡(luò)(DNNs)技術(shù)引入語音識(shí)別,極大地降低了錯(cuò)誤率、提高了可靠性,最終使這項(xiàng)語音翻譯技術(shù)得以廣泛應(yīng)用。

責(zé)任編輯:趙寧寧 來源: 數(shù)據(jù)科學(xué)
相關(guān)推薦

2021-07-27 13:30:25

人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2024-03-01 19:26:22

2022-08-09 11:12:02

數(shù)據(jù)倉庫數(shù)據(jù)挖掘數(shù)據(jù)集

2013-10-29 09:13:14

程序員數(shù)據(jù)挖掘

2018-06-25 11:35:01

2014-07-16 16:54:38

2019-11-21 14:01:37

Python數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)

2018-04-23 11:11:52

數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)Python

2020-03-13 14:13:48

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)編程

2016-04-12 17:12:29

機(jī)器學(xué)習(xí)數(shù)據(jù)清洗美團(tuán)

2013-06-14 10:45:15

NFVSDNOpenFlow

2020-07-13 14:50:51

機(jī)器學(xué)習(xí)模型算法

2016-04-11 14:35:59

機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘數(shù)據(jù)模型

2023-03-10 08:57:31

機(jī)器學(xué)習(xí)電商數(shù)據(jù)挖掘

2013-01-08 15:11:19

OpenStackKVM

2024-03-04 08:00:00

PythonOrange3機(jī)器學(xué)習(xí)

2010-10-14 13:18:55

MySQL存儲(chǔ)過程

2023-09-04 16:12:26

機(jī)器學(xué)習(xí)數(shù)據(jù)科學(xué)

2013-07-11 10:49:58

FedoraUbuntu

2023-04-04 08:10:45

SQL數(shù)據(jù)可視化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)