自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“假設(shè)”家族大起底!如何正確區(qū)分科學(xué)假設(shè)、統(tǒng)計(jì)假設(shè)和機(jī)器學(xué)習(xí)假設(shè)?

開發(fā) 開發(fā)工具
什么是科學(xué)假設(shè)?什么是統(tǒng)計(jì)假設(shè)?什么又是機(jī)器學(xué)習(xí)假設(shè)呢?雖然同為假說,這三個(gè)東西其實(shí)還真不太一樣!今天,文摘菌就帶你來區(qū)分一下“假設(shè)”三兄弟。

[[259407]]

大數(shù)據(jù)文摘出品

來源:machinelearningmastery

編譯:Stats熊、睡不著的iris、錢天培

什么是科學(xué)假設(shè)?什么是統(tǒng)計(jì)假設(shè)?什么又是機(jī)器學(xué)習(xí)假設(shè)呢?

雖然同為假說,這三個(gè)東西其實(shí)還真不太一樣!

今天,文摘菌就帶你來區(qū)分一下“假設(shè)”三兄弟。

了解完它們的區(qū)別后,你會對假設(shè)一詞在不同領(lǐng)域會有更深刻的認(rèn)識,對于更好的使用假設(shè)會有更深入的理解。同時(shí)。對于機(jī)器學(xué)習(xí)的入門者來說,這樣一篇文章對于個(gè)人今后在該領(lǐng)域的發(fā)展就是如虎添翼。

通常,我們所理解的監(jiān)督性機(jī)器學(xué)習(xí),是一個(gè)類似于研究從輸入映射到輸出的目標(biāo)函數(shù)問題。

這個(gè)過程可以被分為如何選取假設(shè)空間,以及評估候選的假設(shè)空間。

作為一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的初學(xué)者來說,假設(shè)這個(gè)詞的概念可能讓他們會產(chǎn)生困惑,有時(shí)會產(chǎn)生歧義,比如在統(tǒng)計(jì)領(lǐng)域我們會有假設(shè)檢驗(yàn),而在科學(xué)領(lǐng)域我們又會有科學(xué)假說。

這些定義互有關(guān)聯(lián),卻不盡相同。

所以什么是假設(shè)呢?

[[259408]]

假設(shè)是一種對事物的解釋。

它是一種憑借經(jīng)驗(yàn)和知識所提出的猜測性想法,需要一定的評估依據(jù)。

一個(gè)好的假設(shè)是可驗(yàn)證的,驗(yàn)證結(jié)果有可能是對的,也可能是錯(cuò)的。

在科學(xué)界,假說一定是可以被證偽的,即通過觀察檢驗(yàn)結(jié)果,可以證實(shí)這個(gè)假說是錯(cuò)誤的。同時(shí),在驗(yàn)證結(jié)果出來之前,假說的框架結(jié)構(gòu)一定要確定好。

...任何一個(gè)或一系列假說想要成為科學(xué)定理或者科學(xué)理論,一定要滿足這樣一個(gè)基本條件—那就是,它是可以被證偽的。

選自《What is This Thing Called Science?》1999年,第三版,第61-62頁

一個(gè)好的假說既能滿足現(xiàn)有證據(jù),又可以用來預(yù)測新的觀察或新的情況。

一個(gè)假說如果說完全滿足現(xiàn)有證據(jù),同時(shí)可以被驗(yàn)證,那么它將會成為理論或者成為理論的一部分。

小結(jié)一下,科學(xué)假說是指符合證據(jù)、同時(shí)可以被證實(shí)或者被反駁的猜測性解釋。

統(tǒng)計(jì)學(xué)中的假設(shè)又該如何定義呢?

大多統(tǒng)計(jì)問題是研究觀測樣本之間潛在關(guān)系。

統(tǒng)計(jì)學(xué)上的假設(shè)檢驗(yàn)通常是計(jì)算產(chǎn)生“影響”的臨界值,通過計(jì)算臨界值可以來判定觀測樣本之間是否存在某種關(guān)系。

如果似然值很小,這種影響結(jié)果就可能會是真實(shí)的,如果似然值很大,那我們可能觀測到了統(tǒng)計(jì)波動,這種影響可能并不真實(shí)。

舉例來說,通過推斷兩組樣本之間均值所存在的關(guān)系,可以判斷它們是否具有相同的統(tǒng)計(jì)分布,或者它們之間又有哪些差異。

舉個(gè)例子,我們可以假設(shè)兩組樣本的均值相同。

這種假設(shè)對我們來說沒什么影響,也叫作零假設(shè)。通過假設(shè)檢驗(yàn),我們可以得到拒絕該假設(shè)或者保留該假設(shè)。即便我們不能拒絕零假設(shè),也不等于我們接受零假設(shè)是對的,因?yàn)榻Y(jié)果只是一個(gè)概率。

..在社會科學(xué)研究中,我們通過建立假設(shè)、制定標(biāo)準(zhǔn)來衡量是否保留或拒絕我們的假設(shè),通常都是零假設(shè)。

《Statistics in plain English》2010年第三版,64-65頁

在我們的例子中,如果零假設(shè)被否定,其相對立的備擇假設(shè)就認(rèn)為均值之間存在差異。

  • 零假設(shè)(H0):沒有影響
  • 備擇假設(shè)(H1):存在影響

統(tǒng)計(jì)學(xué)中的假設(shè)檢驗(yàn)通常不會評判影響的大小,只會近似估計(jì)被觀測樣本之間是否存在差異。

小結(jié)一下,統(tǒng)計(jì)學(xué)中的假設(shè)指的是用概率來解釋樣本觀測值之間是否存在關(guān)系。

***,什么是機(jī)器學(xué)習(xí)中的假設(shè)呢?

[[259410]]

機(jī)器學(xué)習(xí),尤其是監(jiān)督性學(xué)習(xí),是用已有數(shù)據(jù)學(xué)習(xí)得到一個(gè)***的函數(shù)來表示輸入到輸出之間的映射關(guān)系。

說的專業(yè)些,這個(gè)叫做函數(shù)逼近。就是說我們想找到一個(gè)接近于我們目標(biāo)函數(shù)(我們假設(shè)它存在)的方程,可以滿足在問題定義域里所有觀測結(jié)果都可以從輸入映射到輸出結(jié)果。

在機(jī)器學(xué)習(xí)中,一個(gè)近似目標(biāo)函數(shù)并且將輸入映射到輸出的模型被稱為假設(shè)。

算法選取(比如神經(jīng)網(wǎng)絡(luò))和算法配置(如網(wǎng)絡(luò)拓?fù)浜统瑓?shù))決定了模型可能表示的假設(shè)空間。

機(jī)器學(xué)習(xí)算法的學(xué)習(xí)是尋找最接近目標(biāo)函數(shù)的假設(shè),即將已選取的假設(shè)空間轉(zhuǎn)化成***或***的假設(shè)。

“學(xué)習(xí)”是在可能的假設(shè)空間中尋找一個(gè)表現(xiàn)良優(yōu)的假設(shè)空間,即使在訓(xùn)練集之外新樣本上也能適用。

選自《Artificial Intelligence: A Modern Approach》2009年第二版,第695頁。

這種機(jī)器學(xué)習(xí)的框架很常見,通??梢詭椭覀冞x取算法、理解學(xué)習(xí)和泛化問題,甚至是“偏差-方差”的權(quán)衡。舉例來說,訓(xùn)練集通常是學(xué)習(xí)假設(shè),而測試數(shù)據(jù)集是用來評估假設(shè)。

我們通常會用小寫(h)來表示給予的特定假設(shè),用大寫(H)來表示被探索的假設(shè)空間。

  • 假設(shè)(h):單一假設(shè),如一個(gè)實(shí)例或特定的候選模型,可以將輸入映射到輸出,同時(shí)也可以對模型進(jìn)行評估和預(yù)測。
  • 假設(shè)集(H):一個(gè)包括所有可能的輸入映射到輸出之間關(guān)系的假設(shè)空間,通常受選取的問題框架、模型和模型調(diào)參所限制。

在選擇算法和配置過程中,我們需要選取一個(gè)對目標(biāo)函數(shù)來說是***的逼近函數(shù)作為假設(shè)空間。這是非常具有挑戰(zhàn)的,通常對于一系列不同的假設(shè)空間進(jìn)行抽查會更為有效。

如果假設(shè)空間包含真函數(shù),則學(xué)習(xí)問題是可實(shí)現(xiàn)的。不幸的是,我們不能總是判斷一個(gè)給定的學(xué)習(xí)問題是否可以實(shí)現(xiàn),因?yàn)檎嬲暮瘮?shù)是未知的。

選自《Artificial Intelligence: A Modern Approach》2009年第二版,697頁。

這是一個(gè)困難的問題。通常,我們通過限制假設(shè)空間的大小和評估假設(shè)的復(fù)雜性來簡化搜索過程。

假設(shè)空間的表達(dá)性和假設(shè)搜索的復(fù)雜性之間存在一種權(quán)衡關(guān)系。

選自《Artificial Intelligence: A Modern Approach》2009年第二版,697頁。

小結(jié)一下,機(jī)器學(xué)習(xí)中的假設(shè)是一個(gè)近似目標(biāo)函數(shù)的候選模型,用于表示輸入樣本到輸出樣本之間的映射關(guān)系。

總結(jié)

[[259411]]

讓我們重新梳理一遍對假設(shè)的三個(gè)定義:

  • 科學(xué)假說是一種對于觀察現(xiàn)象的猜測性解釋,并且是可以被證偽的。
  • 統(tǒng)計(jì)中的假設(shè)是用概率的方式來解釋數(shù)據(jù)樣本之間的關(guān)系。
  • 機(jī)器學(xué)習(xí)中的假設(shè)是一個(gè)近似目標(biāo)函數(shù)的候選模型,用于表示輸入樣本到輸出樣本之間的映射關(guān)系。

機(jī)器學(xué)習(xí)的假設(shè)定義要比科學(xué)中的定義更加廣泛。

和科學(xué)假說一樣,機(jī)器學(xué)習(xí)也是基于現(xiàn)有證據(jù),可以被證偽,并對新情況進(jìn)行預(yù)測。

在機(jī)器學(xué)習(xí)中的假設(shè):

  • 涵蓋現(xiàn)有證據(jù):即訓(xùn)練數(shù)據(jù)集
  • 可以被證偽:有一個(gè)測試集來評估模型表現(xiàn),并且與基礎(chǔ)模型作對比,確定訓(xùn)練過程是否有效。
  • 適用于新的情況:可被用來對新數(shù)據(jù)集進(jìn)行預(yù)測。

相關(guān)報(bào)道:

https://machinelearningmastery.com/what-is-a-hypothesis-in-machine-learning/

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2009-08-25 15:04:45

C#測試假設(shè)條件

2024-05-10 08:33:17

AILLM大語言模型

2019-06-24 10:13:17

區(qū)塊鏈數(shù)字貨幣比特幣

2010-07-15 10:04:46

2010-09-16 16:25:19

2020-07-29 17:56:25

數(shù)據(jù)中心IT

2017-10-11 15:17:05

數(shù)據(jù)中心容量IT

2020-08-20 20:33:57

大數(shù)據(jù)R假設(shè)檢驗(yàn)

2010-02-24 10:24:10

Python線程

2017-10-10 22:50:56

2024-07-23 10:02:49

2023-03-03 09:01:19

2025-01-08 07:00:00

MySQL數(shù)據(jù)庫判重

2015-05-19 16:21:05

2023-08-01 14:28:00

OpenAI模型token

2022-04-06 11:10:00

模型訓(xùn)練項(xiàng)目

2010-08-26 09:40:00

2023-08-18 10:24:07

人工智能AI

2018-07-16 15:54:31

2010-08-25 13:13:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號