自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分析工具很難選? 看他們?nèi)绾瓮诰虼髷?shù)據(jù)價(jià)值

大數(shù)據(jù)
預(yù)測(cè)建模,機(jī)器學(xué)習(xí)和其他先進(jìn)的分析應(yīng)用程序,有助于挖掘大數(shù)據(jù)系統(tǒng)的商業(yè)價(jià)值,但對(duì)于許多用戶來(lái)說(shuō),這需要使用大量的工具,并付出一定努力才能達(dá)到預(yù)期。

預(yù)測(cè)建模,機(jī)器學(xué)習(xí)和其他先進(jìn)的分析應(yīng)用程序,有助于挖掘大數(shù)據(jù)系統(tǒng)的商業(yè)價(jià)值,但對(duì)于許多用戶來(lái)說(shuō),這需要使用大量的工具,并付出一定努力才能達(dá)到預(yù)期。

零售商Macy's五年前部署了Hadoop集群,在此之前,它面臨著一個(gè)嚴(yán)峻的問(wèn)題,那就是如何有效處理各種系統(tǒng)生成的銷售和營(yíng)銷數(shù)據(jù)。Macy's這些年一直在積極擴(kuò)展在線業(yè)務(wù),數(shù)據(jù)處理的問(wèn)題也變得越來(lái)越嚴(yán)重,因?yàn)樾枰M(jìn)行處理分析的數(shù)據(jù)量一直在增加。

該公司的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)有著嚴(yán)格的處理限制,無(wú)法處理非結(jié)構(gòu)化的信息——如文本。歷史數(shù)據(jù)基本上也是無(wú)法自由訪問(wèn)的,通常這些數(shù)據(jù)會(huì)被歸檔到磁帶上,運(yùn)往異地存儲(chǔ)設(shè)備。“數(shù)據(jù)科學(xué)家和其他分析師只能在特定時(shí)間段的數(shù)據(jù)上進(jìn)行數(shù)據(jù)查詢”,Macy's負(fù)責(zé)市場(chǎng)分析和客戶關(guān)系管理(CRM)系統(tǒng)的主管Seetha Chakrapany說(shuō)道,“他們受到了嚴(yán)重的束縛,無(wú)法很好地完成工作。”

Hadoop系統(tǒng)部署后,上述問(wèn)題得到了一定的緩解,該系統(tǒng)提供了大數(shù)據(jù)分析架構(gòu),也支持基本的商業(yè)智能(BI)和報(bào)表流程。“Hadoop集群能夠真正成為Macy's企業(yè)數(shù)據(jù)分析平臺(tái)”,Chakrapany 說(shuō)道。現(xiàn)在,分析團(tuán)隊(duì)一直在使用Hadoop平臺(tái),市場(chǎng)營(yíng)銷、銷售業(yè)務(wù),產(chǎn)品管理等部門的數(shù)千名用戶得以訪問(wèn)上百個(gè)BI儀表板,這些儀表板的數(shù)據(jù)都來(lái)源于Hadoop平臺(tái)上的分析。

但Macy's的大數(shù)據(jù)環(huán)境可不僅僅只有Hadoop集群。例如在前端,Macy's已經(jīng)部署了多種分析工具來(lái)滿足不同的應(yīng)用需求。在統(tǒng)計(jì)分析層面,這家零售商則使用SAS和Microsoft R Server完成,后者基于R開(kāi)源統(tǒng)計(jì)編程語(yǔ)言。

還有其他一些工具負(fù)責(zé)提供預(yù)測(cè)分析,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)能力。包括H2O,Salford Predictive Modeler,Apache Mahout開(kāi)源的機(jī)器學(xué)習(xí)平臺(tái)和KXEN——三年前由SAP收購(gòu),已經(jīng)集成到SAP BusinessObjects預(yù)測(cè)分析軟件中。數(shù)據(jù)展示上,Macy's使用Tableau提供的數(shù)據(jù)可視化工具以及AtScale提供的基于Hadoop技術(shù)的BI軟件。

更好地分析大數(shù)據(jù)

這些不同的工具是確保大數(shù)據(jù)分析架構(gòu)準(zhǔn)確有效的關(guān)鍵要素,Chakrapany 在2016年Hadoop峰會(huì)上的演講和隨后的采訪中說(shuō)到,使用統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)來(lái)進(jìn)行高級(jí)分析過(guò)程自動(dòng)化是大勢(shì)所趨,他強(qiáng)調(diào)。

Chakrapany說(shuō),“我們一直處于實(shí)驗(yàn)狀態(tài)。由于數(shù)據(jù)量巨大,不可能采用人工的方式來(lái)分析這些數(shù)據(jù)。所以,我們使用大量的統(tǒng)計(jì)算法來(lái)幫助我們認(rèn)清業(yè)務(wù)情況。包括客戶分析、訂單分析、產(chǎn)品和市場(chǎng)的數(shù)據(jù)分析,此外還有從網(wǎng)站捕獲的客戶點(diǎn)擊行為記錄。”

類似的情況也越來(lái)越多地出現(xiàn)在其他企業(yè)中。作為大數(shù)據(jù)平臺(tái),如Hadoop,NoSQL數(shù)據(jù)庫(kù)和Spark 處理引擎被企業(yè)廣泛采用。部署先進(jìn)的分析工具,幫助企業(yè)分析業(yè)務(wù)數(shù)據(jù)流,這類方式被越來(lái)越多的企業(yè)所接受。

2016年11月,TechTarget針對(duì)企業(yè)應(yīng)用BI和分析軟件進(jìn)行的一個(gè)調(diào)查顯示,7000的受訪者中,26.7%的人表示,他們的企業(yè)已經(jīng)部署了預(yù)測(cè)分析工具。接下來(lái)預(yù)測(cè)分析軟件在企業(yè)未來(lái)一年的計(jì)劃投資榜單中高居榜首。有39.5%的受訪者表示,預(yù)測(cè)分析軟件與數(shù)據(jù)可視化、自助服務(wù)BI和企業(yè)報(bào)表等所有更主流的BI技術(shù)對(duì)于企業(yè)來(lái)說(shuō)不可或缺,甚至更為重要。

2015下半年進(jìn)行的一項(xiàng)TDWI調(diào)查還發(fā)現(xiàn),越來(lái)越多企業(yè)計(jì)劃使用預(yù)測(cè)分析軟件來(lái)支持業(yè)務(wù)。在這種情況下,309 名BI,分析和數(shù)據(jù)管理方面的專業(yè)人士受訪者中,有87%的人表示,他們的企業(yè)已經(jīng)是上述技術(shù)的活躍用戶,或預(yù)計(jì)在三年內(nèi)實(shí)施這些技術(shù)。其他高級(jí)的分析形式,例如模擬和指令性分析,用戶數(shù)量也在逐漸增長(zhǎng)。

 

分析工具很難選? 看他們?nèi)绾瓮诰虼髷?shù)據(jù)價(jià)值

預(yù)測(cè)分析的使用增長(zhǎng)情況

用算法找到數(shù)據(jù)隱含的意義

機(jī)器學(xué)習(xí)工具和其他類型的人工智能技術(shù)——深度學(xué)習(xí),認(rèn)知計(jì)算也越來(lái)越多地受到關(guān)注,這些關(guān)注主要來(lái)源于技術(shù)用戶和供應(yīng)商,他們的分析團(tuán)隊(duì)期望使用自動(dòng)化算法來(lái)幫助他們進(jìn)一步探索數(shù)據(jù)集的意義。

Progressive Casualty Insurance Co是已經(jīng)開(kāi)始接觸這些技術(shù)的公司之一。這家保險(xiǎn)公司使用 Hadoop集群來(lái)加速其Snapshot程序, 該程序主要負(fù)責(zé)受保人的保險(xiǎn)費(fèi)用折扣,折扣力度則基于駕駛員的安全駕駛情況,其駕駛數(shù)據(jù)采集于車載診斷設(shè)備。

集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60個(gè)計(jì)算節(jié)點(diǎn)用于提升 Snapshot程序的速度,Progressive的大數(shù)據(jù)分析架構(gòu)包括一系列的工具,如SAS,R和H2O,該公司的數(shù)據(jù)科學(xué)家使用這些工具,在Hadoop系統(tǒng)中進(jìn)行數(shù)據(jù)分析和處理。

數(shù)據(jù)可視化軟件會(huì)備份大量的數(shù)據(jù),數(shù)據(jù)科學(xué)家在這些數(shù)據(jù)上運(yùn)行預(yù)測(cè)算法,以幫助參與該計(jì)劃的用戶評(píng)估其安全駕駛情況。他們還使用分析結(jié)果確定不良的駕駛習(xí)慣和可能的機(jī)械問(wèn)題,如發(fā)電機(jī)的信號(hào)異常,該問(wèn)題可以通過(guò)分析電壓異常波動(dòng)數(shù)據(jù)來(lái)判定。

預(yù)測(cè)分析和機(jī)器學(xué)習(xí)的功能十分強(qiáng)大,Pawan Divakarla——Progressive負(fù)責(zé)數(shù)據(jù)分析業(yè)務(wù)的主管說(shuō)道,“你有那么多的數(shù)據(jù),并且你具有很好的模型用于分析。你 需要一些東西來(lái)幫助你,讓工作變得更為有效。”

更深入的大數(shù)據(jù)分析

Yahoo在2006年成為第一個(gè)將Hadoop應(yīng)用于生產(chǎn)環(huán)境的用戶,當(dāng)時(shí),Hadoop的開(kāi)發(fā)者之一Doug Cutting正在這家網(wǎng)絡(luò)搜索和互聯(lián)網(wǎng)服務(wù)公司工作,Yahoo宣傳自己是當(dāng)今Hadoop平臺(tái)最大的用戶。Yahoo的大數(shù)據(jù)分析架構(gòu),包括40000多個(gè)節(jié)點(diǎn),300多個(gè)應(yīng)用,40個(gè)集群,Yahoo將Hadoop與Apache HBase數(shù)據(jù)庫(kù),Apache Storm 實(shí)時(shí)處理引擎和其他大數(shù)據(jù)技術(shù)結(jié)合使用。但這家公司并不滿足于現(xiàn)狀,它一直在努力將這些技術(shù)擴(kuò)展到新的領(lǐng)域。

Yahoo負(fù)責(zé)大數(shù)據(jù)和機(jī)器學(xué)習(xí)架構(gòu)的副總裁Andy Feng說(shuō)道,“即使在10年后,我們?nèi)匀粫?huì)發(fā)現(xiàn)這么做的好處,在過(guò)去的三年里,他花了大約95%的時(shí)間專注于機(jī)器學(xué)習(xí)工具和應(yīng)用上。在過(guò)去,可以構(gòu)建并運(yùn)行現(xiàn)有機(jī)器學(xué)習(xí)技術(shù)上的自動(dòng)算法不足以在Hadoop集群處理如此龐大的數(shù)據(jù)集,其準(zhǔn)確性無(wú)法令人滿意。”

“我們一直嘗試機(jī)器學(xué)習(xí),但我們的嘗試有著一定的約束,所以產(chǎn)生的結(jié)果是有限的,Yahoo負(fù)責(zé)云計(jì)算和大數(shù)據(jù)平臺(tái)產(chǎn)品開(kāi)發(fā)的高級(jí)總監(jiān)Sumeet Singh補(bǔ)充說(shuō)道。不過(guò),他和Feng都表示,近年來(lái),情況已經(jīng)大為好轉(zhuǎn)。“我們看到,人工智能和機(jī)器學(xué)習(xí)重回人們的視線,其中一個(gè)主要原因就是數(shù)據(jù)量的增長(zhǎng),”Singh指出。

例如,Yahoo現(xiàn)在正在運(yùn)行一個(gè)機(jī)器學(xué)習(xí)算法,該算法使用語(yǔ)義分析過(guò)程,更好地將付費(fèi)廣告搜索結(jié)果頁(yè)面與用戶輸入的搜索關(guān)鍵字進(jìn)行匹配,它將每個(gè)搜索的營(yíng)收提升了9%。另一個(gè)使用機(jī)器學(xué)習(xí)的應(yīng)用可以讓Yahoo Flickr在線照片和視頻服務(wù)的用戶能夠按照視覺(jué)內(nèi)容來(lái)對(duì)圖像進(jìn)行組織,而在以前,他們只能按照拍照日期排序。該算法還可以標(biāo)記那些不適合在工作中查看的照片,以幫助用戶避免在辦公室看照片時(shí)產(chǎn)生的尷尬情況,F(xiàn)eng說(shuō)。

Hadoop集群節(jié)點(diǎn)新增了圖形處理單元,讓這些應(yīng)用成為了可能。Feng表示,GPU可以進(jìn)行傳統(tǒng)CPU無(wú)法完成的圖像處理。Yahoo在大數(shù)據(jù)分析架構(gòu)中新增了Spark處理引擎,接管了一些處理工作。

此外,Yahoo還部署了MLlib,Spark的機(jī)器學(xué)習(xí)算法內(nèi)置庫(kù)。然而,這些算法太過(guò)于基礎(chǔ),Singh說(shuō)。這促使大數(shù)據(jù)團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)深度學(xué)習(xí)算法庫(kù)CaffeOnSpark, Yahoo已經(jīng)在GitHub網(wǎng)站上傳了該算法庫(kù),使用者可以自由下載。

責(zé)任編輯:未麗燕 來(lái)源: 網(wǎng)絡(luò)大數(shù)據(jù)
相關(guān)推薦

2013-07-03 16:30:14

2013-05-21 09:47:55

2017-11-28 17:41:39

大數(shù)據(jù)

2015-01-13 16:26:05

大數(shù)據(jù)Informatica

2013-10-21 10:54:05

微軟大數(shù)據(jù)SQL Server

2023-04-24 21:17:54

大數(shù)據(jù)數(shù)據(jù)挖掘

2011-08-16 09:13:33

2015-11-27 14:38:46

中國(guó)軟件資訊網(wǎng)

2016-12-13 19:47:31

大數(shù)據(jù)

2016-12-16 12:54:44

數(shù)據(jù)挖掘大數(shù)據(jù)

2014-10-11 09:54:14

大數(shù)據(jù)應(yīng)用大數(shù)據(jù)分析

2018-12-07 14:59:37

2010-07-16 13:59:52

IBMIMPACT

2013-05-17 14:10:38

2013-03-06 10:09:01

物聯(lián)網(wǎng)云計(jì)算大數(shù)據(jù)

2019-04-09 20:55:30

2015-10-26 23:27:22

明略數(shù)據(jù)大數(shù)據(jù)

2018-08-07 15:31:32

2019-09-04 19:58:46

數(shù)據(jù)挖掘數(shù)據(jù)分析學(xué)習(xí)

2015-08-13 10:56:47

數(shù)據(jù)挖掘
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)