自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不!機(jī)器學(xué)習(xí)才不只是統(tǒng)計(jì)學(xué)的美化!

開發(fā) 開發(fā)工具 機(jī)器學(xué)習(xí)
本文不是要反對(duì)人工智能冬季的說法,也并非要爭(zhēng)論機(jī)器學(xué)習(xí)的發(fā)展都應(yīng)歸功于某一個(gè)學(xué)術(shù)團(tuán)體而非其他。本文論述的目的在于要正確的評(píng)估機(jī)器學(xué)習(xí)。

不!機(jī)器學(xué)習(xí)才不只是統(tǒng)計(jì)學(xué)的美化!

大數(shù)據(jù)文摘出品

編譯:JIN、Hope、蔣寶尚

題圖上這張?jiān)谏缃幻襟w上瘋狂傳播的惡搞漫畫博得了不少轉(zhuǎn)發(fā),這似乎暗示著,對(duì)機(jī)器學(xué)習(xí)的炒作熱度開始消退。然而,機(jī)器學(xué)習(xí)真的只是被美化的統(tǒng)計(jì)學(xué)嗎?

哈佛大學(xué)數(shù)據(jù)科學(xué)碩士、機(jī)器學(xué)習(xí)從業(yè)者Joe Davison認(rèn)為,遠(yuǎn)不止如此。

他從統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)分別出發(fā),對(duì)比了兩者的不同之處,希望讓人們正確認(rèn)知機(jī)器學(xué)習(xí)和人工智能。這篇博客在海外科技網(wǎng)站Medium上獲得了超過7.4k的認(rèn)同。

一起來看看。

越來越多的人都開始認(rèn)為機(jī)器學(xué)習(xí)真的沒有什么可值得興奮的,它只不過是對(duì)老舊的統(tǒng)計(jì)技術(shù)的重新包裝罷了。

然而問題是,事實(shí)并非如此。

可以看出,深度學(xué)習(xí)傳播的狂熱分子不流行了。甚至是那些站在科學(xué)頂端的專家們,現(xiàn)在對(duì)使用這個(gè)術(shù)語都失去了極大的熱情,僅剩些許懊惱,反而更傾向于淡化現(xiàn)代神經(jīng)網(wǎng)絡(luò)的力量,避免讓大量群眾認(rèn)為 import keras 能夠克服每一個(gè)障礙。

就像Yann LeCun所說的那樣,雖然深度學(xué)習(xí)已經(jīng)超過機(jī)器學(xué)習(xí)成為新的流行詞,但是這種對(duì)態(tài)度的過度矯正導(dǎo)致了人們對(duì)人工智能的發(fā)展、未來和實(shí)用性產(chǎn)生了不良的懷疑。另外,現(xiàn)在流傳著人工智能冬季即將逼近的說法,從這一點(diǎn)就可以預(yù)見,人工智能研究會(huì)像過去幾十年那樣停滯不前。

本文不是要反對(duì)人工智能冬季的說法,也并非要爭(zhēng)論機(jī)器學(xué)習(xí)的發(fā)展都應(yīng)歸功于某一個(gè)學(xué)術(shù)團(tuán)體而非其他。本文論述的目的在于要正確的評(píng)估機(jī)器學(xué)習(xí)。人工智能可見的發(fā)展不僅僅局限于大型計(jì)算機(jī)和更優(yōu)的數(shù)據(jù)集。近期在深度神經(jīng)網(wǎng)絡(luò)及其相關(guān)領(lǐng)域的成功,正說明了機(jī)器學(xué)習(xí)代表著科學(xué)技術(shù)進(jìn)步的最前沿。

機(jī)器學(xué)習(xí)!=統(tǒng)計(jì)學(xué)

“當(dāng)你集資時(shí),需要人工智能。當(dāng)你招聘時(shí),需要機(jī)器學(xué)習(xí)。當(dāng)你執(zhí)行任務(wù)時(shí),需要邏輯回歸。”

—推特網(wǎng)友

正如標(biāo)題所說,本文主要強(qiáng)調(diào)機(jī)器學(xué)習(xí)不只是統(tǒng)計(jì)學(xué)的美化。當(dāng)然,這種“統(tǒng)計(jì)學(xué)的美化”觀念的形成是不無道理的,因?yàn)樵跈C(jī)器學(xué)習(xí)中廣泛使用了統(tǒng)計(jì)學(xué)的概念,如回歸、權(quán)重、偏差、模型等等。

[[241471]]

另外,許多模型都近似于統(tǒng)計(jì)函數(shù):由邏輯組成的分類模型的softmax輸出;將訓(xùn)練圖像分類器的過程處理為邏輯回歸。

雖然,單從技術(shù)角度來說,這種觀念思路是正確的,但將整個(gè)機(jī)器學(xué)習(xí)簡(jiǎn)單歸化為統(tǒng)計(jì)學(xué)的附屬物就太過一概而論了。統(tǒng)計(jì)學(xué)是數(shù)學(xué)領(lǐng)域,涉及對(duì)數(shù)據(jù)的理解和解釋。機(jī)器學(xué)習(xí)則只是一類計(jì)算算法(所以,它其實(shí)誕生于計(jì)算機(jī)科學(xué))。

在許多情況下,這些算法在幫助理解數(shù)據(jù)方面完全無用,并且只能在無法解釋的預(yù)測(cè)模型中發(fā)揮一些作用。在某些情況下,例如在強(qiáng)化學(xué)習(xí)中,算法甚至根本不會(huì)使用到已有的數(shù)據(jù)集。此外,在圖像處理的情況下,將像素作為特征,將圖像作為數(shù)據(jù)集的處理方式也只不過是開始時(shí)的延申。

當(dāng)然,這并非意味著機(jī)器學(xué)習(xí)的發(fā)展就全都?xì)w功于計(jì)算機(jī)科學(xué)家,而非統(tǒng)計(jì)學(xué)家。像任何研究領(lǐng)域一樣,機(jī)器學(xué)習(xí)今天的成功是多個(gè)學(xué)術(shù)領(lǐng)域共同努力的結(jié)果,而統(tǒng)計(jì)學(xué)和數(shù)學(xué)則是貢獻(xiàn)最大的領(lǐng)域。

然而,如果要正確評(píng)估機(jī)器學(xué)習(xí)方法的強(qiáng)大影響力和潛力,首先就需要糾正錯(cuò)誤觀念:人工智能的現(xiàn)代發(fā)展也不過是老舊的統(tǒng)計(jì)技術(shù)有了更大的計(jì)算機(jī)和更好的數(shù)據(jù)集。

機(jī)器學(xué)習(xí)不需要高級(jí)統(tǒng)計(jì)學(xué)知識(shí)

[[241472]]

這里我想說,在學(xué)習(xí)機(jī)器學(xué)習(xí)期間,我有幸參加了一個(gè)深度學(xué)習(xí)技術(shù)的精彩課程,這是我本科計(jì)算機(jī)科學(xué)課程的一部分。在我們指定的項(xiàng)目中,就有一個(gè)是在TensorFlow中執(zhí)行和訓(xùn)練Wasserstein GAN。

當(dāng)時(shí),我僅僅只上過一門統(tǒng)計(jì)導(dǎo)論的選修課,并且大部分內(nèi)容我也已經(jīng)忘記了,此次看來,我的統(tǒng)計(jì)技能并不是很強(qiáng)。但是,我依舊能夠讀懂一篇關(guān)于最新的生成機(jī)器學(xué)習(xí)模型的論文,并且能夠從頭執(zhí)行,實(shí)現(xiàn)操作,并通過在MS Celebs數(shù)據(jù)集上訓(xùn)練,從而生成非常有說服力的虛假圖像。

整個(gè)課程中,我的同學(xué)和我成功地訓(xùn)練了癌組織圖像分割,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,基于字符的文本生成和圖像樣式轉(zhuǎn)換,所有這些都只使用了過去幾年發(fā)明的機(jī)器學(xué)習(xí)的最新技術(shù)。

但是,如果你問我,或是那個(gè)班級(jí)的大多數(shù)學(xué)生,如何計(jì)算人口方差,或者定義邊緣概率,我們對(duì)此一無所知。

這似乎就與人工智能僅僅是對(duì)古老統(tǒng)計(jì)技術(shù)的重塑的說法有些不符了。

必須承認(rèn)的一點(diǎn)的是,在深度學(xué)習(xí)課程中,機(jī)器學(xué)習(xí)專家可能確實(shí)比計(jì)算機(jī)科學(xué)的本科生有更扎實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ)。除此之外,一般而言,信息理論需要對(duì)數(shù)據(jù)和概率有很強(qiáng)的理解能力,所以我建議,如果你有興趣成為數(shù)據(jù)科學(xué)家或機(jī)器學(xué)習(xí)工程師,最好能夠?qū)W習(xí)統(tǒng)計(jì)學(xué)知識(shí),發(fā)展統(tǒng)計(jì)技能,培養(yǎng)統(tǒng)計(jì)直覺。

但現(xiàn)在依然存在的問題是:如果機(jī)器學(xué)習(xí)僅僅只是統(tǒng)計(jì)學(xué)的附屬物,那么為什么沒有統(tǒng)計(jì)學(xué)背景的人同樣能夠深入理解機(jī)器學(xué)習(xí)的前沿概念呢?

[[241473]]

另外還應(yīng)該承認(rèn)的一點(diǎn)是,許多機(jī)器學(xué)習(xí)算法需要比大多數(shù)神經(jīng)網(wǎng)絡(luò)技術(shù)更強(qiáng)的統(tǒng)計(jì)學(xué)和概率學(xué)背景,但是這些方法通常被稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí),以此來減少統(tǒng)計(jì)學(xué)的色彩,將其與常規(guī)的統(tǒng)計(jì)學(xué)區(qū)分開。

同時(shí),在近年來機(jī)器學(xué)習(xí)大熱的創(chuàng)新技術(shù)中,大多數(shù)都屬于神經(jīng)網(wǎng)絡(luò)領(lǐng)域,所以可以說,機(jī)器學(xué)習(xí)并不是統(tǒng)計(jì)學(xué)。

當(dāng)然,機(jī)器學(xué)習(xí)也并非獨(dú)樹成林。實(shí)際上,任何人想要很好的應(yīng)用機(jī)器學(xué)習(xí),都會(huì)面臨各類數(shù)據(jù)處理的問題,因此,擁有對(duì)統(tǒng)計(jì)數(shù)據(jù)的理解力也是很有必要的。這并非說機(jī)器學(xué)習(xí)決不會(huì)使用到統(tǒng)計(jì)概念,同樣也不能一概而論地說機(jī)器學(xué)習(xí)就是統(tǒng)計(jì)學(xué)。

機(jī)器學(xué)習(xí)=映射+評(píng)估+優(yōu)化

客觀來說,我和同班同學(xué)在算法、計(jì)算復(fù)雜性、優(yōu)化方法,微積分、線性代數(shù)甚至一些概率方面都有很強(qiáng)的基礎(chǔ)。我認(rèn)為,上面提到的知識(shí)都與我們所處理的問題相關(guān),高級(jí)統(tǒng)計(jì)學(xué)則無法解決這些問題。

[[241474]]

機(jī)器學(xué)習(xí)是一類計(jì)算算法,它采用迭代“學(xué)習(xí)”的方法向某個(gè)函數(shù)逼近。華盛頓大學(xué)計(jì)算機(jī)科學(xué)教授Pedro Domingos提出了構(gòu)成機(jī)器學(xué)習(xí)算法的三個(gè)組成部分:映射、評(píng)估和優(yōu)化。

  • 映射(Representation)就是把輸入從一個(gè)空間轉(zhuǎn)化到另一個(gè)更加有用的空間。在卷積神經(jīng)網(wǎng)絡(luò)中,原始像素對(duì)于區(qū)分貓狗的作用不大,因此我們把這些像素映射到另一個(gè)空間中(例如從softmax輸出的邏輯值),使其能夠被解釋和評(píng)估。
  • 評(píng)估(Evaluation)的本質(zhì)就是損失函數(shù)。你的算法是否有效地把數(shù)據(jù)轉(zhuǎn)化到另一個(gè)更有用的空間?你在softmax的輸出與在one-hot編碼的分類結(jié)果是否相近?你是否正確預(yù)測(cè)了展開文本序列中下一個(gè)會(huì)出現(xiàn)的單詞(文本RNN)? 你的潛在分布離單位高斯(VAE)相差多少?這些問題的答案可以告訴你映射函數(shù)是否有效;更重要的是,它們定義了你需要學(xué)習(xí)的內(nèi)容。
  • 優(yōu)化(Optimization)是拼圖的最后一塊。當(dāng)你有了評(píng)估的方法之后,你可以對(duì)映射函數(shù)進(jìn)行優(yōu)化,然后提高你的評(píng)估參數(shù)。在神經(jīng)網(wǎng)絡(luò)中,這通常意味著使用一些隨機(jī)梯度下降的變量來根據(jù)某些定義的損失函數(shù)更新網(wǎng)絡(luò)的權(quán)重和偏差。 這樣一來,你就擁有了世界上最好的圖像分類器(2012年,杰弗里·辛頓就是這樣做到的)。

在訓(xùn)練圖像分類器時(shí),除了需要注意定義合適的損失函數(shù)之外,映射函數(shù)輸出值是邏輯值并不會(huì)有太大的影響。邏輯回歸等這些統(tǒng)計(jì)術(shù)語為我們討論模型空間提供了有用的詞匯,但是它們并沒有將優(yōu)化問題重新定義為數(shù)據(jù)理解問題。

深度學(xué)習(xí)技術(shù)

[[241475]]

深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步忽視了統(tǒng)計(jì)學(xué)的理念,簡(jiǎn)直是淋漓盡致。完全連接的節(jié)點(diǎn)由權(quán)重和偏差組成,似乎也還好,但是卷積層是什么原理?調(diào)整激活函數(shù)?塊的標(biāo)準(zhǔn)化?殘差層?隨機(jī)忽略?記憶和注意機(jī)制?

這些創(chuàng)新對(duì)于高性能深度學(xué)習(xí)網(wǎng)絡(luò)至關(guān)重要,但是它們遠(yuǎn)無法與傳統(tǒng)統(tǒng)計(jì)技術(shù)相提并論(因?yàn)樗鼈兛赡軌焊筒皇墙y(tǒng)計(jì)技術(shù))。

對(duì)1億個(gè)變量進(jìn)行回歸,沒問題?

我還要指出深度學(xué)習(xí)網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計(jì)模型的一個(gè)差別,就是它們的規(guī)模問題。深度神經(jīng)網(wǎng)絡(luò)的規(guī)模是巨大的。VGG-16 ConvNet架構(gòu)具有1.38億個(gè)參數(shù)。如果一個(gè)學(xué)生告訴導(dǎo)師要進(jìn)行一個(gè)具有超過1億變量的多重線性回歸,他會(huì)有什么反應(yīng)?這是很荒謬的。因?yàn)閂GG-16不是多重線性回歸,它是一種機(jī)器學(xué)習(xí)手段。

新的前沿

在過去的幾年里大家可能花了無數(shù)的時(shí)間去閱讀論文、帖子和文章,看到機(jī)器學(xué)習(xí)能夠做很多很炫酷的事情。其實(shí),深度學(xué)習(xí)比以前的這些技術(shù)不僅更加有效,而且它幫助我們解決了完全不一樣的全新的問題。

在2012年以前,涉及非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的問題是非常有挑戰(zhàn)性的,可訓(xùn)練的CNN和LSTM在使這個(gè)任務(wù)邁進(jìn)了一大步。它們?cè)谟?jì)算機(jī)視覺、自然語言處理、語音識(shí)別等領(lǐng)域已經(jīng)取得了非??捎^的成果,并且在人臉識(shí)別、自動(dòng)駕駛和人機(jī)對(duì)話等領(lǐng)域取得了長(zhǎng)足的進(jìn)步。

其實(shí),大多數(shù)的機(jī)器學(xué)習(xí)算法最終還是落實(shí)到用模型對(duì)數(shù)據(jù)進(jìn)行擬合,這能夠被認(rèn)為是一個(gè)統(tǒng)計(jì)過程。宇宙飛船本質(zhì)來說也就是帶翅膀的飛行機(jī)器,但是我們卻沒有看到有人嘲弄美國(guó)宇航局20世界對(duì)太空探索的激情,沒有人認(rèn)為這是對(duì)飛機(jī)的過度夸張化。

就像太空探索那樣,深度學(xué)習(xí)的到來并沒有解決世界上的所有問題。在很多領(lǐng)域我們還能夠看到有巨大的差距,尤其是在“人工智能”領(lǐng)域。深度學(xué)習(xí)為我們攻堅(jiān)復(fù)雜非結(jié)構(gòu)化數(shù)據(jù)的問題做出了顯著貢獻(xiàn)。機(jī)器學(xué)習(xí)仍舊是世界技術(shù)進(jìn)步和革新的前沿。這不僅僅是墻上帶著閃亮框架的一個(gè)裂縫。

相關(guān)報(bào)道:

https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3

【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】

     大數(shù)據(jù)文摘二維碼

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2017-03-25 21:13:38

JavaScript排序

2010-08-05 09:29:08

jQuery

2013-04-25 13:58:15

編程

2015-11-24 10:05:07

私有云虛擬化負(fù)載遷移

2018-03-13 15:00:22

智慧交通高鐵無人駕駛

2021-11-05 11:17:45

互聯(lián)網(wǎng)996大廠

2024-11-26 11:02:17

2018-06-28 18:10:41

華為

2016-10-13 18:06:09

云計(jì)算多云模型

2015-02-04 09:45:40

2015-12-15 17:19:55

戴爾云計(jì)算

2021-01-06 10:51:39

云計(jì)算云服務(wù)IT

2021-06-10 19:02:37

大數(shù)據(jù)統(tǒng)計(jì)學(xué)機(jī)器學(xué)習(xí)

2015-03-31 09:28:28

Hadoop大數(shù)據(jù)技術(shù)大數(shù)據(jù)未來道路

2018-06-27 17:24:24

華為

2022-11-02 11:48:03

Vanilla OSGNOMEUbuntu

2011-11-17 13:25:43

垃圾郵件

2011-09-15 13:25:02

2019-12-13 17:36:00

機(jī)器學(xué)習(xí)設(shè)計(jì)數(shù)學(xué)

2021-07-26 22:33:41

切片結(jié)構(gòu)體代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)