自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何選擇最適合的大數(shù)據(jù)分析軟件?

大數(shù)據(jù)
現(xiàn)在很多廠商都說自己的產(chǎn)品是大數(shù)據(jù)分析軟件。如果只是根據(jù)功能去區(qū)分這些產(chǎn)品,的確是件難事,因?yàn)楹芏喙ぞ呔哂邢嗨频奶卣骱凸δ堋4送?,有些工具的差異是非常?xì)微的。

大數(shù)據(jù)

現(xiàn)在很多廠商都說自己的產(chǎn)品是大數(shù)據(jù)分析軟件。如果只是根據(jù)功能去區(qū)分這些產(chǎn)品,的確是件難事,因?yàn)楹芏喙ぞ呔哂邢嗨频奶卣骱凸δ?。此外,有些工具的差異是非常?xì)微的。所以,關(guān)鍵區(qū)分因素可能還是要根據(jù)企業(yè)的能力以及在數(shù)據(jù)分析方面的成熟度,重點(diǎn)考慮如何在易用性、算法復(fù)雜性和價格之間尋找平衡。

我們將在本文對九個主流大數(shù)據(jù)分析軟件廠商的產(chǎn)品進(jìn)行對比,即Alteryx、 IBM、KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的廠商提供的工具不止一個。這些廠商分別代表著大數(shù)據(jù)分析市場的不同方面。我們將結(jié)合之前文章中提到的特點(diǎn),對這些產(chǎn)品進(jìn)行對比,看這些產(chǎn)品是如何滿足企業(yè)用戶的業(yè)務(wù)需求。

分析師的專業(yè)知識和技能。有些工具的目標(biāo)受眾是新手用戶,有的是專業(yè)數(shù)據(jù)分析師,有的則是針對這兩種受眾設(shè)計(jì)的。

像IBM SPSS Modeler、RapidMiner工具、Oracle Advanced Analytics、SAP Predictive Analytics自動分析版本這些產(chǎn)品,通常針對的人群是沒有或只有一點(diǎn)統(tǒng)計(jì)學(xué)或數(shù)據(jù)分析背景的用戶。用戶對數(shù)據(jù)進(jìn)行分析、開發(fā)分析模型和設(shè)計(jì)分析工作流,基本不需要編程。每個廠商都把核心分析組件深藏在直觀的用戶界面下,引導(dǎo)分析師進(jìn)行數(shù)據(jù)準(zhǔn)備、分析、模型設(shè)計(jì)和驗(yàn)證等分析進(jìn)程,但是他們采用的方法可能有所不同,尤其是把一個獨(dú)立的產(chǎn)品(如RapidMiner)和一個套件產(chǎn)品(如Oracle產(chǎn)品)的一部分進(jìn)行對比時,尤為不同。

像IBM SPSS Statistics、KNIME Analytics Platform、SAP Predictive Analytics專家分析模塊、微軟Revolution Analytics和Teradata Aster Discovery Platform這些工具,提供的功能復(fù)雜程度遠(yuǎn)遠(yuǎn)超乎專家級用戶的預(yù)期。Oracle 針對Hadoop的R高級分析法(ORAAH)是Oracle大數(shù)據(jù)軟件連接套件中的一部分,它提供了R界面,用來管理Hadoop分布式文件系統(tǒng)(HDFS)數(shù)據(jù)和用R語言中編寫映射(mapper)和歸納(reducer)功能。這種靈活性對于更高水平的數(shù)據(jù)科學(xué)家來說更具吸引力。

Alteryx和SAS EnterpriseMiner可以根據(jù)用戶專業(yè)知識的水平調(diào)整功能,主要適用于這兩類用戶。總體而言,在支持更高級分析技術(shù)和模型評分方面,以及包括神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)分析和可視化功能等更廣泛的分析功能方面,SAS Enterprise Miner和IBM的SPSS工具更加獨(dú)樹一幟。

分析多樣性。根據(jù)不同的用戶案例和應(yīng)用,企業(yè)用戶可能需要支持不同類型的分析功能,使用特定類型的建模(例如回歸、聚類、分割、行為建模和決策樹)。這些功能已經(jīng)能夠廣泛支持高水平、不同形式的分析建模,但是還是有一些廠商投入數(shù)十年的精力,調(diào)整不同版本的算法,增加更加高級的功能。理解哪些模型與企業(yè)面臨的問題最相關(guān),根據(jù)產(chǎn)品如何最好地滿足用戶的業(yè)務(wù)需求進(jìn)行產(chǎn)品評估,這些都非常重要。

越成熟和高端(也相對更昂貴)的工具具有的分析廣度極大。Oracle Data Miner包括了一系列知名的機(jī)器學(xué)習(xí)方法,支持聚類、預(yù)測性挖掘和文本挖掘。IBM SPSS產(chǎn)品的兩個版本都提供多套分析技術(shù)和模型。SAS Enterprise Miner支持許多算法和技術(shù),包括決策樹、時間序列、神經(jīng)網(wǎng)絡(luò)、線性和邏輯回歸、序列和網(wǎng)絡(luò)線路分析、購物籃分析和連接分析。

新一代(有時價格更為便宜)產(chǎn)品支持不同的模型,但是算法復(fù)雜程度可能較窄。Alteryx Analytics Gallery的模型庫存包含以下功能,如回歸分析、決策樹、關(guān)聯(lián)規(guī)則分析、分類和時間序列分析。KNIME包含文本挖掘、圖像挖掘和時間序列分析的方法,也從其他開源項(xiàng)目(如Weka、R和JFreeChart)集成機(jī)器學(xué)習(xí)算法。

分析多樣性的另一方面是編程語言和統(tǒng)計(jì)工具(如R)的集成,將現(xiàn)有庫和用戶自定義功能進(jìn)行集成。事實(shí)上,與R集成可以說是越來越關(guān)鍵的區(qū)別點(diǎn)。Alteryx Designer、微軟Revolution Analytics、SAS Enterprise Miner、Teradata Aster Discovery Platform、Oracle ORAAH和KNIME的分析平臺,都提供R的接口,支持R的集成。

數(shù)據(jù)范圍分析。要分析的數(shù)據(jù)范圍涉及很多方面,如結(jié)構(gòu)化和非結(jié)構(gòu)化信息,傳統(tǒng)的本地?cái)?shù)據(jù)庫和數(shù)據(jù)倉庫、基于云端的數(shù)據(jù)源,大數(shù)據(jù)平臺(如Hadoop)上的數(shù)據(jù)管理等。但是,不同產(chǎn)品對非傳統(tǒng)數(shù)據(jù)湖(在Hadoop內(nèi)或其他用于提供橫向擴(kuò)展的NoSQL數(shù)據(jù)管理系統(tǒng)內(nèi))上的數(shù)據(jù)管理提供的支持程度不一。如何選擇產(chǎn)品,企業(yè)必須考慮獲取和處理數(shù)據(jù)量及數(shù)據(jù)種類的特定需求。

擴(kuò)展和高性能支持。是否需要可擴(kuò)展的性能,這是由企業(yè)數(shù)據(jù)量和分析需求決定的。小型企業(yè)數(shù)據(jù)量較小,使用的產(chǎn)品可以不具備與可用資源擴(kuò)展的性能特點(diǎn),例如低端工具的入門級版本(如RapidMiner、 KNIME、 微軟 Revolution R Open、Alteryx Designer),可以在桌面系統(tǒng)上運(yùn)行,不需要額外的服務(wù)器組件。

大型企業(yè)很有可能需要分析的數(shù)據(jù)集庫存更大,用戶群更廣。這就提出了兩個額外的要求——高性能和協(xié)作便利性。產(chǎn)品對于高性能構(gòu)架的適應(yīng)性表示具有可擴(kuò)展性,大多數(shù)產(chǎn)品可以根據(jù)Hadoop的并行性進(jìn)行適應(yīng)性改變,或者采用其他能夠?qū)崿F(xiàn)更快運(yùn)算的方式。

所有的這些產(chǎn)品或多或少能夠支持Hadoop,包括IBM SPSS Modeler和SPSS Statistics、RapidMiner的商業(yè)組件Radoop(可以將Studio前端和服務(wù)器分析引擎連接到存儲在Hadoop上的數(shù)據(jù))、Oracle Big Data Discovery 和ORAAH工具、KNIME的Big Data Extension 和Cluster Execution插件。Teradata Aster Discovery Platform通過Teradata的MPP構(gòu)架解決高性能需求。SAP Predictive Analytics的專家分析版本能夠執(zhí)行內(nèi)存數(shù)據(jù)挖掘,高效處理大容量數(shù)據(jù)分析。微軟R Enterprise則利用Revolution Analytics的ScaleR模塊解決高性能需求,這是一個支持平行化的大數(shù)據(jù)分析算法的綜合庫。采用SAS Enterprise Miner的評分算法也能夠在Hadoop環(huán)境內(nèi)部署和執(zhí)行。

協(xié)作。企業(yè)規(guī)模越大,越有可能需要跨部門、在諸多分析師之間分享分析、模型和應(yīng)用。企業(yè)如果有很多分析師分布在各部門,對結(jié)果如何進(jìn)行解釋和分析,可能會需要增加更多的共享模型和協(xié)作的方法。IBM的SPSS Modeler Gold版本提供了協(xié)作功能,RapidMiner的Server產(chǎn)品支持共享和協(xié)作。Alteryx Analytics Gallery提供的機(jī)制能夠與外部機(jī)構(gòu)成員分享云端的高級分析應(yīng)用。KNIME提供商業(yè)擴(kuò)展,支持團(tuán)隊(duì)協(xié)作。SAS Enterprise Miner客戶服務(wù)器構(gòu)架能夠通過共享模型和其他工作產(chǎn)品,讓業(yè)務(wù)用戶和數(shù)據(jù)分析師增強(qiáng)協(xié)同合作。

廠商規(guī)模和產(chǎn)品集成。我們可以根據(jù)廠商規(guī)模對產(chǎn)品進(jìn)行比較。對于我們通常所說的超級大型廠商而言,大數(shù)據(jù)分析工具僅僅是眾多產(chǎn)品工具中的一套產(chǎn)品而已。如果你所在的企業(yè)規(guī)模很大,通常需要和廠商談?wù)桩a(chǎn)品工具在整個企業(yè)范圍的企業(yè)級許可,那么可以選擇像IBM、SAS、SAP或者Oracle這種超級大型廠商。

大型廠商的大數(shù)據(jù)分析工具只是更大的工具生態(tài)系統(tǒng)中的一部分??梢约俣?,來自同一個超級大型廠商的產(chǎn)品至少已集成的,并且旨在一起使用。此外,有些人更喜歡與大型廠商打交道,是因?yàn)橛X得大企業(yè)的顧客服務(wù)更加穩(wěn)定可靠。另一方面,這樣的大數(shù)據(jù)分析工具可能只可以作為更大軟件許可協(xié)議的一部分才能夠購買。

規(guī)模小點(diǎn)的廠商,如KNIME、Alteryx和RapidMiner,收入主要來自許可授權(quán)和支持少量大數(shù)據(jù)分析產(chǎn)品。小型廠商可能可以讓你更緊密地與他們的產(chǎn)品管理和創(chuàng)新團(tuán)隊(duì)進(jìn)行接觸,你可能可以影響產(chǎn)品路線圖或改進(jìn)功能的發(fā)展方向。在價格和許可協(xié)議所包括的特性方面,小型廠商可能更加靈活。但是,與小型廠商合作的風(fēng)險也需要注意,如穩(wěn)定性、用于支持的可用資源和企業(yè)可能被收購的可能性,這些都會影響客戶關(guān)系。

許可證書和維護(hù)預(yù)算。幾乎所有廠商的產(chǎn)品都分不同的版本,購買費(fèi)用和整個運(yùn)營成本各不相同。IBM、Oracle、RapidMiner、Teradata和微軟的產(chǎn)品根據(jù)不同級別劃分版本,許可證書費(fèi)用與特性、功能、對分析數(shù)據(jù)的量或者產(chǎn)品可使用的節(jié)點(diǎn)數(shù)的限制成正比。KNIME和RapidMiner提供免費(fèi)或開源版本,對技術(shù)支持收費(fèi)或者對企業(yè)級應(yīng)用版本進(jìn)行收費(fèi)。相對而言,KNIME、RappidMiner和Alteryx對數(shù)量少的用戶收取的許可費(fèi)用較低。你如果考慮SAS和SAP的產(chǎn)品,需要直接找他們詢價。

大數(shù)據(jù)分析軟件的市場可能讓人找不到北,但是我們希望,本系列采購指南文章能夠幫助你更好地理解大數(shù)據(jù)分析軟件能夠帶給企業(yè)什么好處,幫助你更好地區(qū)分主流大數(shù)據(jù)分析產(chǎn)品和工具。

責(zé)任編輯:李英杰 來源: 36大數(shù)據(jù)
相關(guān)推薦

2021-02-14 10:09:04

數(shù)據(jù)目錄數(shù)據(jù)元數(shù)據(jù)

2015-03-17 16:02:16

大數(shù)據(jù)混合云云模型

2018-09-07 06:30:50

物聯(lián)網(wǎng)平臺物聯(lián)網(wǎng)IOT

2012-12-13 21:50:43

2019-03-10 22:21:47

框架AI開發(fā)

2016-08-10 01:00:21

2016-04-22 17:05:30

2011-08-01 09:57:14

Linux發(fā)行版

2015-06-17 10:10:28

2016-07-14 16:27:54

linux

2018-07-16 08:50:31

固態(tài)硬盤內(nèi)存

2015-06-17 09:54:08

2015-06-15 13:26:21

DCIM數(shù)據(jù)中心

2016-12-12 14:15:37

Java大數(shù)據(jù)工具

2012-09-26 09:37:50

2020-12-14 12:39:43

數(shù)據(jù)分析Netflix詞匯

2020-03-17 15:55:12

Redis數(shù)據(jù)庫命令

2009-01-19 16:54:50

數(shù)據(jù)挖掘CRM孤立點(diǎn)

2012-06-18 10:52:57

云就算平臺解決方案

2009-02-26 14:20:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號