MIT做了一個全自動的大數(shù)據(jù)分析系統(tǒng)
信息爆炸引爆了大數(shù)據(jù)時代的到來,前一兩年大數(shù)據(jù)到達了炒作的高峰,而馬云則稱今后 30年 屬于數(shù)據(jù)技術(shù)(DT)。但是最近一段時間大數(shù)據(jù)似乎沒有那么大的動靜了,這固然有技術(shù)炒作周期曲線的規(guī)律作用,也跟大數(shù)據(jù)遭遇到的一些瓶頸有關(guān)。
這個***的瓶頸之一便是人。隱藏在大數(shù)據(jù)里面的模式挖掘很長程度上需要依靠人的建模和直覺,但是數(shù)據(jù)科學家的數(shù)量卻跟不上大數(shù)據(jù)的規(guī)模發(fā)展。不過 MIT 正在為打破這個瓶頸而努力,其研發(fā)的一款名為 Data Science Machine(數(shù)據(jù)科學機器)的軟件實現(xiàn)了無人參與下的大數(shù)據(jù)分析,經(jīng)過對比發(fā)現(xiàn),其表現(xiàn)已經(jīng)與數(shù)據(jù)分析師不分高下。
Data Science Machine 由 MIT CSAIL 的 Max Kanter 和他的指導(dǎo)老師 Kalyan Veeramachaneni 等人設(shè)計。其關(guān)鍵突破是它不僅會尋找模式,還會自己設(shè)計特征集。學機器學習的人都知道特征工程的重要性。特征工程是指利用數(shù)據(jù)的領(lǐng)域知識來創(chuàng)建特征以便讓機器學習算法可以工作的過程,這個過程往往需要人的直覺。而 Data Science Machine 卻利用了關(guān)系數(shù)據(jù)庫的不同表間的結(jié)構(gòu)化關(guān)系作為線索來進行特征構(gòu)造,從中生成一批候選的特征集,然后再通過分析值的相關(guān)性來縮小特征集的范圍,從而免去了人的參與。然后,Data Science Machine 還會把這個特征集運用到樣本數(shù)據(jù)上,再用不同的方式重新組合特征來優(yōu)化預(yù)測的準確率。
為了測試這套系統(tǒng)的***款原型,研究人員讓它參與了三項數(shù)據(jù)科學方面的競賽,競賽的目標是在不常見的數(shù)據(jù)集中尋找出預(yù)測性的模式。三場競賽供有 906 支隊伍參加,Data Science Machine 的成績比其中的 615 支隊伍都要高。
在準確率方面,Data Science Machine 在其中兩場競賽的準確率分別達到了 94%和 96%。另外一場的準確率略低,為 87%。但是效率方面卻是人類不能比的,因為 Data Science Machine 得出結(jié)果用時在 2-12 小時之間,而人類團隊的預(yù)測性算法往往要折騰數(shù)月的時間。
目前 Data Science Machine 已能對哪些學生有可能退出 MIT 的在線課程做出分析,它選出的兩個特征分析學生開始寫作業(yè)時間的早晚,以及在網(wǎng)上學習課程的時間長短。盡管這種能力看起來還不夠強大,但是這只是開始,一旦機器具備真正的自我學習能力,在計算能力指數(shù)增長的作用下,其進化速度將是我們難以想象的。