眾說紛紜 機(jī)器學(xué)習(xí)究竟是什么?
譯文所謂數(shù)據(jù)科學(xué)家,是指那些能夠利用最合適的工具與方法完成自身工作的專業(yè)人士。最出色的數(shù)據(jù)科學(xué)家能夠?qū)⒆约和暾闹R集與模式發(fā)現(xiàn)方案充分利用于統(tǒng)計(jì)分析工作當(dāng)中。
我們應(yīng)該如何對科學(xué)技術(shù)數(shù)據(jù)的積累總和進(jìn)行查閱?通常來講,這要用到所謂“高級分析”機(jī)制。這句話在表述上故意顯得比較模糊,其核心在于將一切技術(shù)手段納入其中——包括統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、可預(yù)測模型、自然語言處理以及支持向量機(jī)等等。
在一般人的印象中,“數(shù)據(jù)挖掘”的涵蓋范圍很廣、大部分相關(guān)工作似乎都能劃歸其下,包括對于隱私侵犯的關(guān)注以及應(yīng)用程序監(jiān)控等等。不過在我看來,這相當(dāng)于所有能在空中飛翔的鳥類都稱為“禿鷲”——明顯并不準(zhǔn)確。究其原因,數(shù)據(jù)挖掘的指向?qū)ο鬄榻Y(jié)構(gòu)化數(shù)據(jù),這類方案通常會涉及到具體的技術(shù)機(jī)制,例如回歸分析、決策樹等等,而且一般不會被用于對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行內(nèi)容分析。
與之類似“機(jī)器學(xué)習(xí)”也被越來越多地提及并成為一種包羅萬象的概念。或者機(jī)器學(xué)習(xí)至少已經(jīng)成為一種針對當(dāng)前數(shù)據(jù)的便捷處理手段,科學(xué)家們用它來指代從新數(shù)據(jù)(大部分屬于非結(jié)構(gòu)化數(shù)據(jù))中自動獲取并發(fā)現(xiàn)知識與模式的尖端技術(shù)范疇。而人們對于機(jī)器學(xué)習(xí)定義的探尋似乎也延伸到了更為廣泛且界線模糊的領(lǐng)土之上。
這是我在最近閱讀了《了解機(jī)器學(xué)習(xí):個(gè)人探索之路》一文后建立起來的印象。在這篇文章中,來自圣迭戈州立大學(xué)與True Bearing Analytics公司的Joseph R. Barr以作者的角度探討了機(jī)器學(xué)習(xí)的發(fā)展歷史以及他個(gè)人在學(xué)習(xí)這一課題過程中的感悟。他指出,“將機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、可預(yù)測性分析以及高級分析或多或少視為同義詞其實(shí)并無不妥。” 我不知道將機(jī)器學(xué)習(xí)與前面提到的其它技術(shù)相提并論是否具有實(shí)際意義。正如前面已經(jīng)提到,機(jī)器學(xué)習(xí)主要用于非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)挖掘則專門針對結(jié)構(gòu)化數(shù)據(jù)集。此外,與數(shù)據(jù)挖掘類似、機(jī)器學(xué)習(xí)關(guān)心的主要是歷史數(shù)據(jù)當(dāng)中的多樣化形式,相比之下預(yù)測性分析更側(cè)重于尋找其中適用于未來新數(shù)據(jù)收集測試機(jī)制的可預(yù)測模式。然而機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘乃至可預(yù)測性分析的針對范圍較窄,高級分析則是一項(xiàng)更為寬泛的概念、足以將前面幾項(xiàng)全部容納進(jìn)來。
在我看來,機(jī)器學(xué)習(xí)一只腳立足于數(shù)據(jù)科學(xué)、另一方面則以計(jì)算機(jī)科學(xué)為基礎(chǔ)?;谶@樣的理解,我認(rèn)同Barr在文章中所言:“機(jī)器學(xué)習(xí)發(fā)展自多個(gè)彼此不一定存在交集的數(shù)學(xué)學(xué)科,其中最值得注意的子類包括數(shù)理統(tǒng)計(jì)、計(jì)算與算法、信息理論以及數(shù)學(xué)優(yōu)化等……在過去,機(jī)器學(xué)習(xí)是與人工智能緊密結(jié)合在一起的……大多數(shù)與機(jī)器學(xué)習(xí)相關(guān)的議題主要關(guān)注凸包的理論可能性、組合、凸度與優(yōu)化、統(tǒng)計(jì)、信息以及計(jì)算。對于這份名單,我會向其中添加額外的三個(gè)條目:啟發(fā)法、經(jīng)驗(yàn)與應(yīng)用。”
這實(shí)在是一門相當(dāng)艱深的學(xué)科,值得我們深入探索與了解。通過以上描述,我們可以看到機(jī)器學(xué)習(xí)擁有一條令人心生畏懼的學(xué)習(xí)曲線,大家需要在大學(xué)課堂以及實(shí)驗(yàn)室當(dāng)中耗費(fèi)多年才能窺探其門徑。這實(shí)際上也是Barr這篇文章的核心所在:他本人就是一位機(jī)器學(xué)習(xí)教學(xué)兼數(shù)據(jù)科學(xué)專家,而他面臨的難題在于如何為未來的數(shù)據(jù)科學(xué)家們設(shè)置一個(gè)正確的機(jī)器學(xué)習(xí)定義。
定義范圍的變化表明這些挑戰(zhàn)已經(jīng)給機(jī)器學(xué)習(xí)本身帶來影響與反映。在機(jī)器學(xué)習(xí)這一宏觀概念之下,不同學(xué)科以創(chuàng)新方式不斷交叉而又相互促進(jìn),而這將拓展每一位數(shù)據(jù)科學(xué)家的思維方式并決定他們在使用這一術(shù)語時(shí)為機(jī)器學(xué)習(xí)設(shè)立的概念定義。
原文鏈接:http://www.infoworld.com/d/big-data/whats-machine-learning-it-depends-who-you-ask-244787