自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

人工智能 機(jī)器學(xué)習(xí)
是什么將“統(tǒng)計(jì)”從“機(jī)器學(xué)習(xí)”中分離出來的?這是一個(gè)被討論過無數(shù)次的問題。關(guān)于這個(gè)問題的文章有很多,人們對其好壞莫衷一是。但是我發(fā)現(xiàn),在“統(tǒng)計(jì)”和“機(jī)器學(xué)習(xí)”的爭論上,人們往往會(huì)“只見森林,不見樹木”。

是什么將“統(tǒng)計(jì)”從“機(jī)器學(xué)習(xí)”中分離出來的?

這是一個(gè)被討論過無數(shù)次的問題。關(guān)于這個(gè)問題的文章有很多,人們對其好壞莫衷一是。但是我發(fā)現(xiàn),在“統(tǒng)計(jì)”和“機(jī)器學(xué)習(xí)”的爭論上,人們往往會(huì)“只見森林,不見樹木”。

 

[[194029]]

Aatash Shah曾在他的文章中作過這樣的定義:

  • “機(jī)器學(xué)習(xí)”是一種能夠直接從數(shù)據(jù)中學(xué)習(xí),而無需依賴規(guī)則編程的算法。
  • “建立統(tǒng)計(jì)模型”的意思是以數(shù)學(xué)方程式來表示數(shù)據(jù)變量間的關(guān)系。

Shah更多是從“機(jī)器學(xué)習(xí)”和“統(tǒng)計(jì)模型”的不同目的出發(fā),對兩者進(jìn)行定義的。他把“機(jī)器學(xué)習(xí)”看成一種實(shí)踐活動(dòng),把“統(tǒng)計(jì)模型”則視為抽象理論。(我在這里講到的“統(tǒng)計(jì)模型”事實(shí)上就是“統(tǒng)計(jì)”。)但實(shí)際上,“統(tǒng)計(jì)”與“機(jī)器學(xué)習(xí)”的關(guān)系要復(fù)雜得多,僅憑定義概念來分析這兩者的關(guān)系是遠(yuǎn)遠(yuǎn)不夠的。

對于這一關(guān)系的哲學(xué)性思考和研究,很快就演變成了下面這些問題:

  • “機(jī)器學(xué)習(xí)”是建立在“統(tǒng)計(jì)”的基礎(chǔ)之上的嗎?
  • “機(jī)器學(xué)習(xí)”是不是一組傳統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)?
  • 這兩個(gè)概念間是否存在共通之處?有沒有一個(gè)相對統(tǒng)一的概念?

我認(rèn)為以這樣的方式建構(gòu)和設(shè)計(jì)的、所謂的高水平方法,其實(shí)是錯(cuò)誤的,也是非常浪費(fèi)時(shí)間的。

那么在這種情況下,“回歸分析”究竟是不是“機(jī)器學(xué)習(xí)”的一種特殊形式呢?

Gregory Piatetsky-Shapiro是KDnuggets公司總裁,關(guān)于這個(gè)問題,他的觀點(diǎn)很好地反駁,并且打破了“回歸可能過于簡單,以至于不能稱之為機(jī)器學(xué)習(xí)”的這一說法。

在一些機(jī)器學(xué)習(xí)研究專家看來,傳統(tǒng)的“線性回歸”可能過于簡單,不能被稱為真正的“機(jī)器學(xué)習(xí)”,而只能算是“統(tǒng)計(jì)”。但我認(rèn)為“機(jī)器學(xué)習(xí)”和“統(tǒng)計(jì)”之間的界限其實(shí)是非常模糊和任意的。比如說,C4.5決策樹算法也不是很復(fù)雜,但它卻被劃分為了“機(jī)器學(xué)習(xí)”。

其實(shí),很多更高級、更先進(jìn)的算法都產(chǎn)生于線性回歸,比如“脊回歸”、“最小角度回歸”和LASSO,而且這些算法大多都被機(jī)器學(xué)習(xí)專家使用過。所以,想要更好地理解這些算法,你必須要先了解基本的“線性回歸”。

因此,“線性回歸”應(yīng)該是所有機(jī)器學(xué)習(xí)研究者必備工具之一。

Diego Kuonen和 CStat PStat CSci都是瑞士日內(nèi)瓦大學(xué)“數(shù)據(jù)科學(xué)”的教授,他們分別是“數(shù)據(jù)咨詢所”的CEO和CAO。他們針對這個(gè)問題提出了以下見解:

每一個(gè)有監(jiān)督的分析模型(來自統(tǒng)計(jì)、數(shù)據(jù)科學(xué)或是機(jī)器學(xué)習(xí))都會(huì)作出一種假設(shè),即模型輸出的分布是如何依賴模型輸入的。如果分析模型沒有作出任何假設(shè),那么除了那些觀察到的數(shù)據(jù)之外,就沒有任何可供理性分析的根據(jù)了。

因此,把結(jié)論僅建立在一個(gè)“有效模型”(“有效模型”指的就是那些假設(shè)經(jīng)過了驗(yàn)證的模型)的基礎(chǔ)之上才是正確的做法。

為了實(shí)現(xiàn)理解數(shù)據(jù)的終極目標(biāo),我們需要使用兩種工具——“統(tǒng)計(jì)模型”和“機(jī)器學(xué)習(xí)模型”。Diego似乎不太關(guān)心使用的是哪種工具,而是關(guān)注這個(gè)工具使用得是否恰當(dāng)、有效模型是否建立,以及最終的數(shù)據(jù)理解是不是增加了。如果最終的結(jié)論是建立在無效模型之上的,那么關(guān)于統(tǒng)計(jì)數(shù)據(jù)與機(jī)器學(xué)習(xí)間關(guān)系的爭論就是毫無意義的。

我個(gè)人對這些問題的思考已經(jīng)持續(xù)了好多年。當(dāng)我最初意識到“線性回歸”、“決策樹”這些簡單的概念也能夠被視為“機(jī)器學(xué)習(xí)”時(shí),我感到非常震驚。因?yàn)樵谀侵暗膶W(xué)習(xí)中,從來沒有人對我提起過“機(jī)器學(xué)習(xí)”一詞。我以為,所有跟我處于同樣專業(yè)水平的人都會(huì)有如此的反應(yīng)。

認(rèn)真思考了“數(shù)據(jù)研究”和“機(jī)器學(xué)習(xí)”之間的關(guān)系之后,我認(rèn)為數(shù)據(jù)研究實(shí)際上是一個(gè)研究過程,而機(jī)器學(xué)習(xí)是推動(dòng)這一研究進(jìn)行的工具。那么給“統(tǒng)計(jì)”下一個(gè)現(xiàn)代化的定義即——“統(tǒng)計(jì)”一門是從數(shù)據(jù)中學(xué)習(xí)的,能夠測量、控制和溝通不確定性的科學(xué)。比起這些復(fù)雜的概念,我更樂于將“統(tǒng)計(jì)研究”的定義簡化為“大規(guī)模的高速統(tǒng)計(jì)數(shù)據(jù)分析”。

同樣簡單地理解,機(jī)器學(xué)習(xí)有三個(gè)組成部分:第一,數(shù)據(jù);第二,模型或者估計(jì)函數(shù);第三,需要降到最低的成本或損失。機(jī)器學(xué)習(xí)的整個(gè)raison detre過程實(shí)際上是其運(yùn)用類似的統(tǒng)計(jì)問題來優(yōu)化損失函數(shù)的過程。

那么這時(shí),我們再回到最初的問題——“線性回歸”,也就是“回歸分析”最基本的形式,是否滿足了這些要求呢?

 

“回歸分析”真的算是“機(jī)器學(xué)習(xí)”嗎?

當(dāng)然了,這個(gè)問題還沒有完全解決。假設(shè)這樣一個(gè)情景:我有十個(gè)數(shù)據(jù),繪制了前面九個(gè)數(shù)據(jù)結(jié)果,我讓第十個(gè)數(shù)據(jù)重新返回測試,然后親自解這個(gè)方程,并手繪測試結(jié)果——這樣算是機(jī)器學(xué)習(xí)嗎?如果不算(很明顯不算是機(jī)器學(xué)習(xí)),那么究竟怎樣才算是“機(jī)器學(xué)習(xí)”呢?

與上述觀點(diǎn)不同的是,Mike Yeomans曾經(jīng)在他的文章中提到,我們應(yīng)該把機(jī)器學(xué)習(xí)簡單地看作是統(tǒng)計(jì)數(shù)據(jù)的一個(gè)分支。Kuonen對這個(gè)觀點(diǎn)表示了贊同,他同時(shí)還指出,盡管可能有人會(huì)說“數(shù)據(jù)研究其實(shí)是大規(guī)模、高速度的統(tǒng)計(jì)”(Daryl Pregibon, 1999),但他發(fā)現(xiàn)了他們的方法存在不同之處。我曾向Cannon Gray的總裁Kevin Gray征求了意見,他將這個(gè)話題引入到另一個(gè)問題中,思考著這個(gè)話題的討論是否有必要。

在此,我要感謝所有對這篇文章作出過貢獻(xiàn)的人,特別要感謝Diego Kuonen教授在寫作中的投入和反饋。

責(zé)任編輯:未麗燕 來源: 圖普科技編譯
相關(guān)推薦

2021-01-22 10:27:28

人工智能機(jī)器學(xué)習(xí)技術(shù)

2014-08-22 10:06:46

機(jī)器學(xué)習(xí)

2017-09-01 13:19:21

機(jī)器學(xué)習(xí)Logostic回歸

2017-11-09 10:27:02

BPM信息化CIO

2020-12-29 14:09:55

機(jī)器學(xué)習(xí)技術(shù)工程師

2017-07-25 16:06:32

白熊視頻程序員人工智能

2021-04-21 10:47:48

機(jī)器學(xué)習(xí)邏輯回歸

2017-05-17 08:24:08

TensorFlow機(jī)器學(xué)習(xí)線性回歸

2020-12-19 10:54:25

機(jī)器學(xué)習(xí)線性回歸算法

2020-12-23 07:54:56

Python機(jī)器學(xué)習(xí)邏輯回歸算法

2020-12-20 20:31:56

Python機(jī)器學(xué)習(xí)多元線性回歸

2020-04-26 17:04:31

安全機(jī)器學(xué)習(xí)數(shù)據(jù)

2017-09-18 10:48:06

深度學(xué)習(xí)零基礎(chǔ)入門

2014-06-19 14:14:35

機(jī)器學(xué)習(xí)

2018-08-03 10:30:16

算法回歸機(jī)器學(xué)習(xí)

2023-11-29 14:34:15

機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)

2020-11-10 08:37:05

Python線性回歸機(jī)器學(xué)習(xí)

2022-08-16 15:17:37

機(jī)器學(xué)習(xí)算法模型

2020-12-25 15:24:24

人工智能

2016-01-11 10:44:38

惡意軟件惡意軟件分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號