學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)需要盡早知道的三件事
我已經(jīng)在學(xué)術(shù)界和工業(yè)界進(jìn)行了許多年的機(jī)器學(xué)習(xí)建模工作,在看了一系列討論“大數(shù)據(jù)”實(shí)用性問(wèn)題的優(yōu)秀視頻 Scalable ML 后,我開(kāi)始思考總結(jié)一些在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí),我希望能夠盡早明白的事情。視頻來(lái)源于 Mikio Braun,介紹了 Scala 和 Spark 相關(guān)的知識(shí)。
我希望在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)能夠盡早明白的事情有三項(xiàng):
將模型應(yīng)用到產(chǎn)品中并不是一件簡(jiǎn)單的小事;
在課本中我們很難學(xué)習(xí)到真正的特征選擇和特征提取技巧;
模型評(píng)估階段非常重要。
下面讓我一個(gè)一個(gè)地介紹它們。
1. 將模型應(yīng)用到產(chǎn)品中并不是一件簡(jiǎn)單的小事
我在 Data-Product 上有一場(chǎng)介紹如何將常微分方程應(yīng)用到產(chǎn)品中的演講。之后我花了好一段時(shí)間才意識(shí)到,自己一個(gè)人來(lái)處理包括模型衰退、產(chǎn)品中模型評(píng)價(jià)、開(kāi)發(fā)與運(yùn)維溝通等事務(wù)是多么的困難。Yhat 的 ScienceOps 是針對(duì)這個(gè)問(wèn)題的一個(gè)解決方案。一開(kāi)始我并沒(méi)有意識(shí)到它有多棒,現(xiàn)在我發(fā)現(xiàn)我很難在市場(chǎng)中找到該產(chǎn)品的直接競(jìng)爭(zhēng)者,我真的覺(jué)得他們正在解決這個(gè)非常重要的問(wèn)題。漸漸地,我意識(shí)到我沒(méi)有聰明到可以處理運(yùn)維成員負(fù)責(zé)的事務(wù)——所以我很樂(lè)意將這項(xiàng)工作外包。
2. 在課本中我們很難學(xué)習(xí)到真正的特征選擇和特征提取技巧
特征選擇和提取方法和技巧常常無(wú)法從課本中學(xué)習(xí)。這些技巧只能從像 Kaggle 競(jìng)賽或現(xiàn)實(shí)世界中的項(xiàng)目中學(xué)習(xí),甚至有時(shí)候需要實(shí)際應(yīng)用這些技巧和方法才能學(xué)會(huì)它們。而這些工作在整個(gè)數(shù)據(jù)科學(xué)項(xiàng)目流程中占據(jù)了相當(dāng)一部分比重。
3. 模型評(píng)估階段非常重要
除非你已經(jīng)將模型應(yīng)用到測(cè)試集數(shù)據(jù)上了,否則你都不能說(shuō)已經(jīng)進(jìn)入到預(yù)測(cè)分析階段。像交叉驗(yàn)證、評(píng)估指標(biāo)等評(píng)估技巧都是非常寶貴的,因?yàn)樗鼈冎恍鑼⒛愕臄?shù)據(jù)分離成測(cè)試集和訓(xùn)練集。但是實(shí)際生活通常并不會(huì)將已經(jīng)定義好測(cè)試集、訓(xùn)練集的數(shù)據(jù)給你,所以將真實(shí)世界中的數(shù)據(jù)劃分為測(cè)試數(shù)據(jù)和訓(xùn)練數(shù)據(jù),是一項(xiàng)充滿(mǎn)創(chuàng)造性的工作,其中可能包含許多情感因素。在 Dato 上有許多討論模型評(píng)估的優(yōu)秀文章。
我認(rèn)為 Mikio Braun 對(duì)訓(xùn)練集和測(cè)試集的解釋值得一讀。我也很喜歡他畫(huà)的圖并將其包含在文中,方便不熟悉訓(xùn)練集和測(cè)試集概念的讀者理解。
我們?cè)谡撐?、?huì)議甚至在討論我們解決問(wèn)題時(shí)所用的方法的時(shí)候,經(jīng)常忽略了模型評(píng)價(jià)。“我們?cè)谄渲惺褂昧?SVM ”這句話(huà)并沒(méi)有告訴我任何信息,這沒(méi)有告訴我你的數(shù)據(jù)來(lái)源,你選擇的特征,你的模型評(píng)估方法,你如何將其應(yīng)用到產(chǎn)品中,以及你在其中如何使用交叉驗(yàn)證或模型查錯(cuò)。我認(rèn)為我們需要更多關(guān)于機(jī)器學(xué)習(xí)中這些“骯臟”的方面問(wèn)題的討論。
我的朋友 Ian 在 Data Science Delivered 上有一個(gè)很好的筆記,適合需要為真實(shí)情況建立機(jī)器學(xué)習(xí)模型的任何層次的人員閱讀。同時(shí)也適合希望雇傭數(shù)據(jù)科學(xué)家的招聘人員或者與數(shù)據(jù)科學(xué)團(tuán)隊(duì)打交道的經(jīng)理閱讀——如果你正在找人詢(xún)問(wèn)“你是如何處理這些骯臟的數(shù)據(jù)的”。