機器學(xué)習(xí)=「新瓶裝舊酒」的數(shù)據(jù)統(tǒng)計?No!
最近,關(guān)于深度學(xué)習(xí)和人工智能的一個梗在社交媒體上廣為流傳,認為二者只是墻上一道鑲了嶄新邊框的裂縫,暗諷機器學(xué)習(xí)只是重新包裝過的統(tǒng)計學(xué),本質(zhì)上是「新瓶裝舊酒」。然而事實真的是這樣嗎?本文對這種看法提出了異議,認為機器學(xué)習(xí) ≠ 數(shù)據(jù)統(tǒng)計,深度學(xué)習(xí)為我們處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)問題做出了重大貢獻,而人工智能應(yīng)該得到其應(yīng)得的贊賞。
隨著深度學(xué)習(xí)的熱度開始消退,這個梗最近開始在社交媒體上廣為流傳,引起了互聯(lián)網(wǎng)上眾人的譏笑。機器學(xué)習(xí)沒什么好激動的,它只是對統(tǒng)計技術(shù)的一種補充——這種觀點越來越普遍;但問題是這個觀點并不正確。
我明白,成為一個極度狂熱的深度學(xué)習(xí)傳播者并不時尚。哪怕是 2013 年試圖讓所有人都知道深度學(xué)習(xí)的機器學(xué)習(xí)專家,現(xiàn)在再提起這個術(shù)語也只有失望,他們現(xiàn)在更傾向于弱化現(xiàn)代神經(jīng)網(wǎng)絡(luò)的力量,唯恐人們將他們與還認為「import keras」是萬金油的人混為一談。而他們自認為與后者相比,自己還是相當(dāng)有優(yōu)勢的。
雖然正如 Yann LeCun 所說,深度學(xué)習(xí)已經(jīng)不再是一個時髦的詞,但這種矯枉過正的態(tài)度已經(jīng)對人工智能的進步、未來和實用性產(chǎn)生了不良的影響。這一點在關(guān)于人工智能寒冬的討論中體現(xiàn)得尤為明顯,在這個寒潮里,人工智能被預(yù)言將會像幾十年前一樣停滯多年。
然而這篇文章并不是對人工智能進入寒冬表示質(zhì)疑,也不是想說深度學(xué)習(xí)的進步更應(yīng)歸功于哪個學(xué)術(shù)團隊;相反,它只是想說,人工智能應(yīng)該得到其應(yīng)得的贊賞;它發(fā)展的水平已經(jīng)超越超級計算機和更優(yōu)的數(shù)據(jù)集;機器學(xué)習(xí)最近也在深度神經(jīng)網(wǎng)絡(luò)和相關(guān)工作中取得了巨大成功,代表了世界上最先進的技術(shù)水平。
機器學(xué)習(xí)≠數(shù)據(jù)統(tǒng)計
「融資的時候, 我們講人工智能 ;找工作的時候,我們說深度學(xué)習(xí);但做項目的時候,我們講 logistic 回歸?!?
——推特上每個人都這么說 |
這篇文章的主題是,機器學(xué)習(xí)不僅是對數(shù)據(jù)統(tǒng)計的再包裝——這一領(lǐng)域有更大型的計算機和更好聽的名字。這個概念來源于統(tǒng)計學(xué)的概念和術(shù)語,這些概念和術(shù)語在機器學(xué)習(xí)中非常常見,像回歸、權(quán)重、偏置、模型等等。此外,很多模型近似統(tǒng)計函數(shù):分類模型的 softmax 輸出由 logits 組成,使得圖像分類器的訓(xùn)練過程成為 logistic 回歸。
盡管這種思路在技術(shù)層面是對的,但將機器學(xué)習(xí)作為一個整體看作只是統(tǒng)計學(xué)的一個分支還為時過早。這種比較沒有什么意義。統(tǒng)計學(xué)是處理數(shù)據(jù)和解釋數(shù)據(jù)的數(shù)學(xué)領(lǐng)域。機器學(xué)習(xí)只不過是一種計算算法(誕生于計算機科學(xué))。很多情況下,這些算法在幫助理解數(shù)據(jù)方面毫無用處,只能幫助某些類型的不可理解的預(yù)測建模。例如在強化學(xué)習(xí)中,算法可能都不會使用已有的數(shù)據(jù)集。另外,在圖像處理中,將圖像視為以像素為特征的數(shù)據(jù)集,從一開始就有點牽強。
問題的關(guān)鍵當(dāng)然不在于這個榮譽應(yīng)該屬于計算科學(xué)家還是屬于統(tǒng)計學(xué)家;就像其它領(lǐng)域一樣,能取得今天的成功是各個學(xué)術(shù)學(xué)科的功勞,其中當(dāng)然包括統(tǒng)計學(xué)和數(shù)學(xué)。然而,為了正確評估機器學(xué)習(xí)方法的巨大影響力和潛力,有必要先打破這個錯誤的觀念:現(xiàn)代人工智能的發(fā)展,無非就是古老的統(tǒng)計技術(shù)擁有了更強大的計算機和更好的數(shù)據(jù)集。
機器學(xué)習(xí)無需高深的統(tǒng)計學(xué)知識
先聽我說,入門機器學(xué)習(xí)的時候,我幸運地選了一門非常棒的課程,是專門講深度學(xué)習(xí)的。這也是我本科計算機課程的一部分。我們要完成的一個項目是在 TensorFlow 上實現(xiàn)和訓(xùn)練 Wasserstein GAN。
當(dāng)時我只修了一門必修的統(tǒng)計學(xué)入門課,但我很快就把大部分內(nèi)容都忘了。不用說,我的統(tǒng)計能力并不強。然而,我卻能讀懂一篇最先進的生成機器學(xué)習(xí)模型的論文,并且從頭實現(xiàn)了它——通過在 MS Celebs 數(shù)據(jù)集上訓(xùn)練,生成了能以假亂真的虛擬圖像。
在整個課程中,我和同學(xué)們成功地訓(xùn)練了針對癌癥組織的圖像分割、神經(jīng)機器翻譯、基于字符的文本生成以及圖像轉(zhuǎn)換的模型,這些模型都采用了近幾年剛剛發(fā)明的尖端機器學(xué)習(xí)技術(shù)。
然而,你要是問我或者我的同學(xué)如何計算一組數(shù)據(jù)的方差,或者定義邊緣概率,我們應(yīng)該會交個白卷。
這似乎與人工智能只是對古老統(tǒng)計技術(shù)的重新包裝的觀點有些矛盾。
的確,在深度學(xué)習(xí)課程中,機器學(xué)習(xí)專家的統(tǒng)計基礎(chǔ)可能比計算機專業(yè)的本科生更強。一般來說,信息論需要對數(shù)據(jù)和概率有很深的理解,所以我建議,所有想成為數(shù)據(jù)科學(xué)家或機器學(xué)習(xí)工程師的人最好能夠?qū)y(tǒng)計概念有直觀的理解。但問題是:如果機器學(xué)習(xí)只是統(tǒng)計學(xué)的分支,那么沒有統(tǒng)計學(xué)背景的人怎么能對最前沿的機器學(xué)習(xí)概念有深入的理解呢?
還應(yīng)該承認,許多機器學(xué)習(xí)算法對統(tǒng)計學(xué)與概率學(xué)背景知識的要求比多數(shù)神經(jīng)網(wǎng)絡(luò)技術(shù)要高,但這些方法通常也被稱為統(tǒng)計機器學(xué)習(xí)或者統(tǒng)計學(xué)習(xí),好像是想與常規(guī)的統(tǒng)計類別區(qū)別開。并且,近年來大多數(shù)機器學(xué)習(xí)中的的炒作性創(chuàng)新都來自神經(jīng)網(wǎng)絡(luò)領(lǐng)域,所以這點無關(guān)緊要。
當(dāng)然,機器學(xué)習(xí)并不是遺世獨立的。在現(xiàn)實世界中,任何想要做機器學(xué)習(xí)的人都可能在研究許多類別的數(shù)據(jù)問題,因此也需要對統(tǒng)計學(xué)科有較深的理解。這并不是說機器學(xué)習(xí)從不使用或構(gòu)建統(tǒng)計概念,這說的不是一回事。
機器學(xué)習(xí)=表示+評估+優(yōu)化
客觀來說,我和我的同學(xué)在算法、計算復(fù)雜度、優(yōu)化策略、微積分、線性代數(shù)甚至概率論方面基礎(chǔ)都很好。我想說的是,比起高級統(tǒng)計學(xué)知識,這些與我們正在解決的問題更加相關(guān)。
機器學(xué)習(xí)是一類反復(fù)「學(xué)習(xí)」某類函數(shù)近似值的計算算法。華盛頓大學(xué)計算科學(xué)教授 Pedro Domingos 曾列出構(gòu)成機器學(xué)習(xí)算法的三大組成部分:表示、評估和優(yōu)化。
表示涉及從一個空間到另一個更有效空間的輸入傳輸,解釋起來更加容易。請從卷積神經(jīng)網(wǎng)絡(luò)的視角考慮這個問題。原始像素在區(qū)分貓和狗上是沒有用的,所以我們將其轉(zhuǎn)換為更有效的表達形式(如 softmax 輸出中的 logits),這樣就可以解釋和評估了。
評估實際上就是損失函數(shù)。你的算法如何有效地將數(shù)據(jù)轉(zhuǎn)換到另一個更有效的空間上去?softmax 輸出和 one-hot 編碼標(biāo)簽(分類)到底有多么相似?你能否正確預(yù)測展開的文本序列(文本 RNN)的下一個單詞?隱藏分布與單位高斯分布的偏離有多遠(VAE)?這些問題都告訴你表達函數(shù)性能如何;更重要的是,它們定義了它需要學(xué)習(xí)做什么。
優(yōu)化是整個拼圖的最后一塊。一旦有了評估部分,你就可以優(yōu)化表達函數(shù),以改進評估標(biāo)準(zhǔn)。在神經(jīng)網(wǎng)絡(luò)中,這意味著使用隨機梯度下降的一些變體來根據(jù)給定的損失函數(shù)更新網(wǎng)絡(luò)的權(quán)重和偏置。你有世界上最好的圖像分類器(起碼 2012 年的 Geoffrey Hinton 有)。
在訓(xùn)練圖像分類器時,除了定義適當(dāng)?shù)膿p失函數(shù)外,學(xué)習(xí)的表達函數(shù)是否有邏輯輸出無關(guān)緊要。像 logistic 回歸這樣的統(tǒng)計學(xué)術(shù)語在我們討論模型空間時確實也有些作用,但在優(yōu)化問題和數(shù)據(jù)理解問題上都沒有被重新定義。
附言:人工智能這個詞挺蠢的。人工智能問題只是計算機目前還不善解決的一個問題。在十九世紀(jì),機械計算機也曾被認為是智能的?,F(xiàn)在這個術(shù)語與深度學(xué)習(xí)聯(lián)系如此緊密,我們就開始說通用人工智能(AGI)是比先進的模式匹配機制更智能的東西。然而,我們對通用智能還沒有一致的定義或理解。AI 所做的唯一一件事就是激發(fā)人們對所謂的「奇點」或類似終結(jié)者的殺手機器人的恐懼。我希望我們可以停止使用這樣一個空洞的、聳人聽聞的術(shù)語來替代真正的技術(shù)。
深度學(xué)習(xí)的技術(shù)
幾乎所有深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作都忽略了深度學(xué)習(xí)的統(tǒng)計特性。全連接點由權(quán)重和偏置組成,但卷積層呢?整流激活層?批標(biāo)準(zhǔn)化?殘差層?Dropout?存儲和注意力機制?
這些創(chuàng)新對于高性能深度網(wǎng)絡(luò)的發(fā)展至關(guān)重要,但它們與傳統(tǒng)的統(tǒng)計技術(shù)并不完全一致(可能因為它們根本不是統(tǒng)計技術(shù))。如果你不相信我,可以試著告訴統(tǒng)計學(xué)家你的模型過擬合了,然后問他們把模型的 1 億個參數(shù)砍掉一半是否行得通。
我們甚至不討論模型的可解釋性。
超過一億個變量的回歸——沒問題嗎?
深度網(wǎng)絡(luò)和傳統(tǒng)統(tǒng)計模型在規(guī)模上是有差異的。深度神經(jīng)網(wǎng)絡(luò)是巨大的。例如,卷積網(wǎng)絡(luò) VGG-16 大約有 1.38 億個參數(shù)。你覺得你的普通學(xué)術(shù)導(dǎo)師會如何回應(yīng)一個想要對 1 億多個變量進行多元回歸的學(xué)生?這個想法很荒謬,因為訓(xùn)練 VGG-16 不是多元回歸,而是機器學(xué)習(xí)問題。
新前沿
在過去的幾年里,你可能看了無數(shù)宣揚機器學(xué)習(xí)可以完成很酷的任務(wù)的論文、帖子、文章,所以我不再贅述了。然而,我要提醒你,深度學(xué)習(xí)不僅比以前的技術(shù)更重要,它還能幫助我們解決一系列全新的問題。
在 2012 年之前,涉及非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的問題充其量只是一項挑戰(zhàn)。僅可訓(xùn)練的 CNN 和 LSTM 就在這方面實現(xiàn)了巨大飛躍。在計算機視覺、自然語言處理、語音轉(zhuǎn)錄等領(lǐng)域都取得了相當(dāng)大的進步,并且在人臉識別、自動駕駛和 AI 對話等技術(shù)方面有了很大的提高。
確實,大多數(shù)機器學(xué)習(xí)算法最終都要將模型擬合到數(shù)據(jù)——從這個角度看,這是個統(tǒng)計過程。航天飛機也不過是一個帶翅膀的飛行器,但我們并沒有看到有人嘲笑美國宇航局在 20 世紀(jì)探索太空,也沒有人認為這是對飛機進行重新包裝而已。
與太空探索一樣,深度學(xué)習(xí)的出現(xiàn)并沒有解決世界上所有的問題。在許多領(lǐng)域,特別是在「人工智能」領(lǐng)域,仍有很多的事情需要我們?nèi)プ觥R簿褪钦f,它為我們處理復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù)問題做出了重大貢獻。機器學(xué)習(xí)會繼續(xù)引領(lǐng)世界技術(shù)進步和創(chuàng)新的前沿,而不僅僅是墻上一道鑲了嶄新邊框的裂縫。
原文鏈接:
https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3
【本文是51CTO專欄機構(gòu)“機器之心”的原創(chuàng)文章,微信公眾號“機器之心( id: almosthuman2014)”】