自動分析工具:數(shù)據(jù)科學(xué)家職業(yè)的終結(jié)者?
數(shù)據(jù)科學(xué)家的工作的一部分就是把他們的工作自動化。 比如說通過一些預(yù)測性的API工具來實(shí)現(xiàn)工作的自動化。 然而, 這些API已經(jīng)在某些領(lǐng)域開始取代數(shù)據(jù)科學(xué)家的工作了。這對這個(gè)職業(yè)來說可不是什么好事。
我們現(xiàn)在處于大數(shù)據(jù)2.0時(shí)代。 利用機(jī)器學(xué)習(xí)來進(jìn)行預(yù)測性分析的需求越來越強(qiáng)勁。正如InsightsOne的CEO Waqar Hasan指出的那樣“預(yù)測分析是大數(shù)據(jù)時(shí)代的‘殺手級應(yīng)用’。”而麥肯錫也預(yù)測說在今后的幾年內(nèi),關(guān)于機(jī)器學(xué)習(xí)的人才將會出現(xiàn)短缺。 與此同時(shí), 我們也開始看到有一些公司開始針對大眾提供機(jī)器學(xué)習(xí)和預(yù)測分析的服務(wù)。 例如Apigee在收購了InsightsOne后就推出了預(yù)測性分析的API平臺。
我在上大學(xué)計(jì)算機(jī)科學(xué)的時(shí)候?qū)W到的***課就是“我們的工作的***目標(biāo)就是要讓我們自己沒有工作。”我們的工作就是要讓程序把我們現(xiàn)在的工作做得更快,更好,更可靠。數(shù)據(jù)科學(xué)也是如此。
技術(shù)將取代數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家的絕大部分工作花在了建立預(yù)測模型:選取與預(yù)測相關(guān)的變量。選擇合適的模型,確定***的參數(shù)等等。目前,這類的工作已經(jīng)能夠有一些自動化的解決方案了。如Emerald Logic的FACET以及Google和Erastz Labs提供的API。這些API把復(fù)雜的機(jī)器學(xué)習(xí)模型從數(shù)據(jù)中抽象出來。用戶可以專注于數(shù)據(jù)的采集以及清洗,而把數(shù)據(jù)送給這些API,就能夠生成一個(gè)預(yù)測模型了。
這些新的工具意味著,在這種新的模式下,不需要數(shù)據(jù)科學(xué)家的參與了,公司里的每個(gè)人都能夠參與數(shù)據(jù)科學(xué)的項(xiàng)目。高管確定戰(zhàn)略方向,中層經(jīng)理們確定分析預(yù)測的具體目標(biāo),軟件工程師可以專注于項(xiàng)目實(shí)施。這里需要每個(gè)人都多少懂一些機(jī)器學(xué)習(xí)。不過如果不去深究算法和理論,只關(guān)注基本概念和一些具體的應(yīng)用實(shí)例的話,機(jī)器學(xué)習(xí)即使對于非技術(shù)人員來說也能夠很快了解。
事實(shí)上,如果由具體應(yīng)用領(lǐng)域的專家來負(fù)責(zé)機(jī)器學(xué)習(xí)項(xiàng)目的話,往往能夠更好地將應(yīng)用領(lǐng)域的知識結(jié)合到機(jī)器學(xué)習(xí)項(xiàng)目中去,比如能夠更好的選出那些合適的特征變量,從而能夠做出更好的預(yù)測模型。
機(jī)器學(xué)習(xí)是“人工智能“的技術(shù)。通過數(shù)據(jù)來建立更好的”智能“。那么我們在人工智能領(lǐng)域還需要手工去進(jìn)行模型和算法的選擇嗎?我們當(dāng)然有智能的自動的方式來實(shí)現(xiàn)。在人工智能領(lǐng)域有一個(gè)趨勢,就是”元人工智能算法(meta AI Algorithm)“,也就是對給定問題,能夠自動的找到合適的人工智能算法和合適的參數(shù)。
利用這種方式來進(jìn)行機(jī)器學(xué)習(xí)的原理就是利用如概率推理來進(jìn)行參數(shù)設(shè)定以及對特征變量設(shè)定不同權(quán)重等等。也可以采用窮舉的方法來進(jìn)行。今天我們的計(jì)算能力已經(jīng)足以讓我們進(jìn)行這樣大量的測試。窮舉測試可以采用常規(guī)的交叉驗(yàn)證,或者采用類似于FACET那樣的漸進(jìn)式技術(shù)。
測試可以從對數(shù)據(jù)的最簡單分析開始,比如如果我們發(fā)現(xiàn)數(shù)據(jù)在二元分類時(shí)有明顯的不平衡性時(shí),我們可以試著選擇異常檢測的算法。
數(shù)據(jù)科學(xué)家將來做什么呢?
有人會說, 目前不能自動化的領(lǐng)域太多了。 確實(shí),把所有機(jī)器學(xué)習(xí)領(lǐng)域都自動化是很困難的。 不過, 目前API在預(yù)測方面已經(jīng)能夠比擬那些“傳統(tǒng)“的分析技術(shù)了。 這方面API創(chuàng)造的價(jià)值巨大。
由于這些新的工具的出現(xiàn), 數(shù)據(jù)科學(xué)家的角色也在發(fā)生變化。現(xiàn)在要成為數(shù)據(jù)科學(xué)家可能要比以前容易了。 由于預(yù)測性API的出現(xiàn), 原來由數(shù)據(jù)科學(xué)家來做的工作變得更加容易了。這些工作可以由數(shù)據(jù)庫工程師或者軟件工程師來進(jìn)行了。 這也就是有些人說的“數(shù)據(jù)科學(xué)不是科學(xué)”。 而我要說的是, 數(shù)據(jù)科學(xué)正在不斷演進(jìn)。
在預(yù)測API領(lǐng)域,數(shù)據(jù)科學(xué)家依然在團(tuán)隊(duì)里扮演重要角色。 他幫助團(tuán)隊(duì)成員自主地使用這些API。 他們更多地是作為一個(gè)主管的角色來指導(dǎo)大家使用,而不像以前那樣需要親自動手。
更重要的是, 數(shù)據(jù)科學(xué)家還需要不斷開發(fā)機(jī)器學(xué)習(xí)的自動化工具。例如,出來目前的“監(jiān)督學(xué)習(xí)(Supervised Learning “的API外,也開始出現(xiàn)了“強(qiáng)化學(xué)習(xí)(Reinforcement Learning)“的API。此外, 還需要提供一些工具能夠使得具體應(yīng)用領(lǐng)域?qū)<夷軌虬阉麄兊闹R更方便地融入到算法中去。