真正的大數(shù)據(jù)問(wèn)題以及為什么只有機(jī)器學(xué)習(xí)才能解決它
為什么很多公司仍在努力構(gòu)建從采集數(shù)據(jù)到獲得洞察力的平穩(wěn)運(yùn)行的管道?他們希望投資和采用機(jī)器學(xué)習(xí)算法來(lái)分析數(shù)據(jù),并做出商業(yè)預(yù)測(cè)。
但是,不可避免的是,他們應(yīng)該意識(shí)到算法并不是魔法:如果采用的是垃圾數(shù)據(jù),得出的就不會(huì)是一流的見(jiàn)解。因此,他們雇傭了一些數(shù)據(jù)科學(xué)家,但通常他們90%的時(shí)間都花在數(shù)據(jù)清潔上,只剩下10%的時(shí)間來(lái)完成分析工作。
這個(gè)過(guò)程的缺點(diǎn)還在于企業(yè)喜歡采用終端算法的機(jī)器學(xué)習(xí)。Tamr公司的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Andy Palmer表示,他們應(yīng)該在數(shù)據(jù)早期清潔階段盡可能地應(yīng)用機(jī)器學(xué)習(xí),而不是依靠工作人員來(lái)處理龐大的數(shù)據(jù)集。該公司幫助組織使用機(jī)器學(xué)習(xí)突破他們的數(shù)據(jù)孤島。
許多公司在大數(shù)據(jù)收集系統(tǒng)上花費(fèi)了大量資金。他們強(qiáng)調(diào)的是數(shù)據(jù)數(shù)量而非質(zhì)量,這是顯而易見(jiàn)的。
Palmer說(shuō):“任何在大公司工作的人都可以告訴你,他們從大多數(shù)內(nèi)部系統(tǒng)獲得的數(shù)據(jù)很簡(jiǎn)單,簡(jiǎn)單明了。”
Tamr公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Andy Palmer和SiliconSLE Media公司移動(dòng)直播工作室CUBE的主持人Michael Stonebraker與Dave Vellante和Paul Gillin在會(huì)上進(jìn)行了探討,他們最近參加了在馬薩諸塞州劍橋舉行的麻省理工學(xué)院CDOIQ研討會(huì)。他們探討了大數(shù)據(jù)采用機(jī)器學(xué)習(xí)技術(shù),以及為什么Tamr認(rèn)為初創(chuàng)公司會(huì)比傳統(tǒng)公司提供更好、更具可擴(kuò)展性的大數(shù)據(jù)解決方案的原因。
大數(shù)據(jù)的清理和組織
Palmer和Stonebraker多年來(lái)一直關(guān)注大數(shù)據(jù)技術(shù)。早在2007年,他們就預(yù)測(cè)ApacheHadoop大數(shù)據(jù)框架不會(huì)帶來(lái)很多人所期望的結(jié)果。
Palmer說(shuō),“有人說(shuō)大數(shù)據(jù)將是一場(chǎng)災(zāi)難,這有些太激進(jìn)了。”
他表示,這并不是說(shuō)大數(shù)據(jù)集不好,顯然大數(shù)據(jù)是訓(xùn)練分析模型和人工智能的必要工具。有些人認(rèn)為,只要數(shù)據(jù)量夠大,其余的分析或人工智能方面就會(huì)到位,但這讓很多公司都感到失望。
企業(yè)現(xiàn)在意識(shí)到數(shù)據(jù)質(zhì)量不可忽視。他們還知道,數(shù)據(jù)科學(xué)家不應(yīng)該花費(fèi)80%到90%或更多的時(shí)間清理數(shù)據(jù),必須采用一種更好、更快的人工智能方法用于分析數(shù)據(jù)。
Palmer表示,其答案是將機(jī)器學(xué)習(xí)視為一種非常實(shí)用的工具,用于執(zhí)行這些龐大而無(wú)趣的任務(wù)。許多供應(yīng)商使用機(jī)器學(xué)習(xí)來(lái)使預(yù)測(cè)、推薦引擎等軟件的營(yíng)銷(xiāo)更具吸引力。Tamr公司將其用于最不具吸引力的事情:在任何人分析、預(yù)測(cè)、營(yíng)銷(xiāo)或銷(xiāo)售任何東西之前清理和組織大數(shù)據(jù)。
機(jī)器學(xué)習(xí)可以大規(guī)模處理數(shù)據(jù)
如今,并不缺乏針對(duì)數(shù)據(jù)沼澤問(wèn)題的建議解決方案。許多科技公司正在推出或更新其原始產(chǎn)品。然而,Stonebraker指出,這些系統(tǒng)中通常使用的主要技術(shù)存在關(guān)鍵缺陷。這些傳統(tǒng)技術(shù)包括ETL(提取、轉(zhuǎn)換、加載)系統(tǒng)和主數(shù)據(jù)管理系統(tǒng)。但其缺點(diǎn)是不能擴(kuò)展。
ETL基于這樣一個(gè)前提:明智的企業(yè)會(huì)為用戶想要的所有數(shù)據(jù)源提供全局?jǐn)?shù)據(jù)模型。然后讓每個(gè)業(yè)務(wù)部門(mén)查看他們獲得了哪些數(shù)據(jù),如何在全局?jǐn)?shù)據(jù)模型中獲取數(shù)據(jù),將其加載到數(shù)據(jù)倉(cāng)庫(kù)中等等。Stonebraker表示,人工密集型流程往往無(wú)法擴(kuò)展。他們通常會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中集成10或20個(gè)數(shù)據(jù)源。
那么這些數(shù)據(jù)足夠嗎?以現(xiàn)實(shí)世界中的一家公司為例。TAMR公司的客戶豐田汽車(chē)歐洲(TME)公司在各國(guó)都有經(jīng)銷(xiāo)商。如果有人在西班牙買(mǎi)了一輛豐田汽車(chē),然后將其開(kāi)到法國(guó),那么其在法國(guó)的經(jīng)銷(xiāo)商對(duì)此一無(wú)所知。
總的來(lái)說(shuō),豐田汽車(chē)歐洲(TME)公司擁有250個(gè)獨(dú)立的客戶數(shù)據(jù)庫(kù),擁有使用50種語(yǔ)言的4000萬(wàn)條記錄。該公司正在將它們集成到單個(gè)客戶數(shù)據(jù)庫(kù)中,以解決此客戶的服務(wù)問(wèn)題。機(jī)器學(xué)習(xí)提供了一種合理的方法來(lái)實(shí)現(xiàn)這一目標(biāo)。Stonebraker說(shuō),“我從未見(jiàn)過(guò)能夠處理這種規(guī)模的ETL系統(tǒng)。”
Stonebraker解釋說(shuō),主數(shù)據(jù)管理(MDM)無(wú)法擴(kuò)展的原因主要是因?yàn)樗腔谝?guī)則的。通用電氣公司是Tamr公司的另一家客戶,希望對(duì)其交易支出進(jìn)行分析,該公司在去年有2000萬(wàn)筆交易支出,希望將所有這些分類(lèi)為基于規(guī)則的層次結(jié)構(gòu)。
“所以通用電氣公司制定了500條規(guī)則,只采用了18條規(guī)則就將2000萬(wàn)筆交易中的200萬(wàn)筆進(jìn)行了分類(lèi),但其余的400多條規(guī)則并不會(huì)像那18條規(guī)則那樣更快地進(jìn)行分類(lèi)。”
他指出,這是收益遞減規(guī)律。他說(shuō),“企業(yè)將不得不寫(xiě)出大量無(wú)法理解的規(guī)則,如果不使用機(jī)器學(xué)習(xí)技術(shù),那么將會(huì)不堪重負(fù)。”
Stonebraker承認(rèn),機(jī)器學(xué)習(xí)技術(shù)不是萬(wàn)能的。真正的數(shù)據(jù)驅(qū)動(dòng)需要技術(shù)和文化的調(diào)整。事實(shí)上,據(jù)NewVantage Partners 公司的一項(xiàng)研究,77%的受訪企業(yè)高管表示,盡管有大量新軟件涌入市場(chǎng),他們的組織很難采用大數(shù)據(jù)/人工智能計(jì)劃。但這比去年的調(diào)查有所增加。這些高管列舉了采用機(jī)器學(xué)習(xí)的一些障礙,其中95%是文化或組織方面的障礙,而不是技術(shù)方面的障礙。Gartner公司分析師NickHeudecker說(shuō):“企業(yè)需要為此制定一個(gè)計(jì)劃,但大多數(shù)公司不會(huì)把大數(shù)據(jù)技術(shù)進(jìn)行計(jì)劃和處理。”
Stonebraker表示,盡管如此,技術(shù)仍然很重要,并且可能在某種程度上述案例顯示了通用電氣公司數(shù)據(jù)科學(xué)家如何在高達(dá)90%的時(shí)間內(nèi)過(guò)濾和分類(lèi),而不是致力于混合動(dòng)力汽車(chē)或燃?xì)廨啓C(jī)的開(kāi)發(fā)和維修。如果大數(shù)據(jù)對(duì)于現(xiàn)實(shí)世界的企業(yè)來(lái)說(shuō)是實(shí)用的,那么機(jī)器學(xué)習(xí)就是前進(jìn)的方向。
他說(shuō),“必須用機(jī)器學(xué)習(xí)取代人類(lèi),因?yàn)槿藗兌济靼?,大?guī)模傳統(tǒng)的數(shù)據(jù)集成技術(shù)根本不起作用。”
很多企業(yè)正在考慮這一點(diǎn),并將機(jī)器學(xué)習(xí)打造成他們產(chǎn)品的核心。Stonebraker說(shuō):“總的來(lái)說(shuō),傳統(tǒng)的供應(yīng)商落后于時(shí)代10年,而創(chuàng)業(yè)公司可以提供尖端的產(chǎn)品。”
這種“尖端”的東西是否提供了一種簡(jiǎn)便的數(shù)據(jù)貨幣化途徑?是否會(huì)彌補(bǔ)在數(shù)據(jù)沼澤中浪費(fèi)的時(shí)間?
Palmer指出,“我們正進(jìn)入一個(gè)更快消耗數(shù)據(jù)的階段。這一階段是否會(huì)最終滿足企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的高期望?我不知道。但可以肯定離它越來(lái)越近了。”