自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

明確解釋:機器學習與統(tǒng)計建模有何不同

人工智能
這篇文章提出了一個非常重要的區(qū)別,我們應(yīng)該將其理解為數(shù)據(jù)科學領(lǐng)域的活躍部分。 上面的維恩圖最初是由SAS Institute發(fā)布的,但是它們的圖顯示統(tǒng)計和機器學習之間沒有重疊,據(jù)我所知,這是一個疏忽。

它們彼此之間非常不同,所有數(shù)據(jù)科學家都必須了解原因和方式!

 

明確解釋:機器學習與統(tǒng)計建模有何不同
> Source: Inspired by a diagram from SAS Institute

這篇文章提出了一個非常重要的區(qū)別,我們應(yīng)該將其理解為數(shù)據(jù)科學領(lǐng)域的活躍部分。 上面的維恩圖最初是由SAS Institute發(fā)布的,但是它們的圖顯示統(tǒng)計和機器學習之間沒有重疊,據(jù)我所知,這是一個疏忽。 我已盡我所能和理解,重新創(chuàng)建了該圖。 該維恩圖非常恰當?shù)靥岢隽藬?shù)據(jù)科學所有分支的區(qū)別和重疊。

我想相信數(shù)據(jù)科學現(xiàn)在是總稱,其他所有術(shù)語都可以描述為數(shù)據(jù)科學的分支,每個分支都是不同的,但與其他分支卻是如此相似!

機器學習與統(tǒng)計建模:這是一個古老的問題,每個數(shù)據(jù)科學家/機器學習工程師或任何在這些領(lǐng)域開始工作的人都會遇到。 在研究這些領(lǐng)域時,有時機器學習感覺與統(tǒng)計建模息息相關(guān),這使我們想知道如何區(qū)分兩者,或者哪種標簽最適合哪種模型。 當然,如今機器學習已成為流行語,但這并不意味著我們開始將統(tǒng)計模型標記為機器學習模型,因為與流行的看法相反,它們是不同的! 讓我們詳細了解差異。

這篇文章的流程將是:

  • 機器學習和統(tǒng)計建模的定義
  • 機器學習與統(tǒng)計建模之間的差異
  • 什么時候使用?

 

明確解釋:機器學習與統(tǒng)計建模有何不同

定義

機器學習

在不依賴于基于規(guī)則的編程的情況下,對將數(shù)據(jù)轉(zhuǎn)換為智能動作的計算機算法開發(fā)感興趣的研究領(lǐng)域稱為機器學習。

統(tǒng)計建模

通常將統(tǒng)計模型指定為一個或多個隨機變量與其他非隨機變量之間的數(shù)學關(guān)系。 因此,統(tǒng)計模型是"理論的形式表示"。

現(xiàn)在,無聊的冗長的定義已不復存在,讓我們更深入地了解這兩個域之間的區(qū)別。

機器學習與統(tǒng)計建模之間的差異

1.歷史和學術(shù)相關(guān)性

在1950年代左右,機器學習開始出現(xiàn)之前,統(tǒng)計建模就已經(jīng)出現(xiàn)了。1950年代,第一個機器學習程序—塞繆爾(Samuel)的檢查程序引入了。

世界各地的所有大學現(xiàn)在都在啟動其機器學習和AI計劃,但并沒有關(guān)閉其統(tǒng)計部門。

機器學習與計算機科學系和獨立的AI系協(xié)同教學,它們處理構(gòu)建預測算法,這些算法能夠通過學習從數(shù)據(jù)中"學習"而無需任何預先指定的規(guī)則,從而能夠自行"智能化"。 上面ML的定義。

鑒于

統(tǒng)計建模與數(shù)學系共同教授,其重點是建立模型,該模型可以首先找到不同變量之間的關(guān)系,然后可以預測可以描述為其他自變量的函數(shù)的事件。

2.不確定度容限

這是兩個域之間重要的區(qū)別點。

在統(tǒng)計建模中,我們要注意許多不確定性估計(例如置信區(qū)間,假設(shè)檢驗),并且必須考慮到所有假設(shè)都必須滿足,才能信任特定算法的結(jié)果。 因此,它們具有較低的不確定性容限。

例如:如果我們建立了線性回歸模型,則在使用該模型的結(jié)果之前,必須檢查是否滿足以下假設(shè):

  • 因變量和自變量之間的線性關(guān)系
  • 錯誤項的獨立性
  • 錯誤項(殘差)需要正態(tài)分布
  • 平均獨立
  • 無多重共線性
  • 需要方差

相反,如果我們建立了邏輯模型,則必須考慮以下假設(shè):

  • 二元邏輯回歸要求因變量為二進制,而序數(shù)邏輯回歸要求因變量為序。
  • 觀察結(jié)果必須彼此獨立。
  • 無多重共線性
  • 自變量和對數(shù)奇數(shù)的線性

鑒于

在機器學習算法中,幾乎沒有或不需要假設(shè)。 ML算法對統(tǒng)計線性,殘差的正態(tài)分布等沒有嚴格要求,因此比統(tǒng)計模型靈活得多。因此,它們具有較高的不確定性容限。

3.數(shù)據(jù)需求與方法

統(tǒng)計模型無法在非常大的數(shù)據(jù)集上進行操作,它們需要屬性較少且觀測值數(shù)量可觀的可管理數(shù)據(jù)集。 在統(tǒng)計模型中,屬性的數(shù)量絕不會超過10–12,因為它們極易過擬合(在訓練數(shù)據(jù)集上表現(xiàn)出色,但在看不見的數(shù)據(jù)上表現(xiàn)差強人意,因為它確實非常接近訓練數(shù)據(jù)集,這是不希望出現(xiàn)的情況)

此外,大多數(shù)統(tǒng)計模型都遵循參數(shù)化方法(例如:線性回歸,邏輯回歸)

鑒于

機器學習算法是學習者算法,要學習它們需要大量數(shù)據(jù)。 因此,他們需要具有大量屬性和觀察結(jié)果的數(shù)據(jù)。 越大越好! ML算法在某種程度上需要大數(shù)據(jù)。

此外,大多數(shù)機器學習模型都遵循非參數(shù)方法(K最近鄰,決策樹,隨機森林,梯度提升方法,SVM等)。

什么時候使用?

這主要取決于以下說明的因素。 我們將講解理論上的要點,并舉例說明。

在以下情況下,統(tǒng)計模型應(yīng)該是您的首選:

  • 不確定性很低,因為當您開始構(gòu)建模型時,大多數(shù)假設(shè)都已滿足
  • 數(shù)據(jù)大小不是很大
  • 如果要隔離少量變量的影響
  • 總體預測中的不確定性/邊際誤差是可以的
  • 各種自變量之間的相互作用相對較少,可以預先指定
  • 需要高解釋性

機器學習可能是更好的選擇

  • 當要預測的結(jié)果沒有很強的隨機性時; 例如,在視覺模式識別中,對象必須是E或不是E
  • 可以對無限數(shù)量的精確重復進行訓練(例如,每個字母重復1000次或?qū)⒛硞€單詞翻譯成德語)來訓練學習算法
  • 當以整體預測為目標時,無法描述任何一個自變量的影響或變量之間的關(guān)系
  • 人們對估計預測中的不確定性或所選預測器的影響不是很感興趣
  • 數(shù)據(jù)量巨大
  • 一個不需要隔離任何特殊變量的影響
  • 低可解釋性,模型成為"黑匣子"是可以的

例如:如果您與一家信用卡公司合作,并且他們想建立一個跟蹤客戶流失的模型,那么他們很可能更喜歡一個統(tǒng)計模型,該模型將具有10–12個預測變量,他們可以根據(jù)自己的業(yè)務(wù)領(lǐng)域知識進行解釋和否決 ,在這種情況下,他們將不會喜歡黑盒算法,因為對可解釋性的需求比預測的準確性更高。

另一方面,如果您正在為想要構(gòu)建強大的推薦引擎的Netflix和Amazon之類的客戶工作,那么在這種情況下,結(jié)果準確性的要求高于模型的可解釋性,因此,機器學習模型將 在這里就足夠了。

有了這個,我們到這篇文章的結(jié)尾。

您可以在以下文章中了解有關(guān)數(shù)據(jù)挖掘和機器學習之間的區(qū)別以及前4個機器學習算法的完整詳細信息:

  • 明確解釋:機器學習與數(shù)據(jù)挖掘有何不同
  • 定義,混淆,區(qū)別-全部說明
  • 明確解釋:4種機器學習算法
  • 定義,目的,流行算法和用例-全部說明

觀看此空間,以獲取有關(guān)機器學習,數(shù)據(jù)科學和統(tǒng)計學的更多信息!

學習愉快:)

責任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2021-12-02 14:10:34

ChromeChromium瀏覽器

2016-10-17 13:59:10

機器學習人工智能

2020-09-25 18:10:06

Python 開發(fā)編程語言

2023-12-12 11:45:54

云服務(wù)數(shù)據(jù)科學家云計算

2017-05-31 14:52:53

虛擬機Docker容器

2021-07-02 15:28:55

LTE5G網(wǎng)絡(luò)

2017-01-13 16:26:56

開發(fā)

2023-05-11 09:57:27

谷歌OpenAI開發(fā)聊天機器人

2018-11-14 22:14:59

2023-04-17 17:56:38

5G

2018-05-31 08:17:53

RAIDNAS重疊

2011-12-21 09:01:28

云計算編程開發(fā)

2010-07-28 10:09:01

2010-08-06 18:23:43

DB2常用函數(shù)

2022-02-25 23:44:44

云計算DRP安全

2015-08-10 09:47:24

SDS存儲虛擬化

2012-02-29 09:50:52

云計算虛擬化

2018-08-28 16:10:36

2022-03-02 07:52:13

React類組件函數(shù)式組件

2022-04-06 08:00:00

GitHubGitLab開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號