自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

12個(gè)頂級(jí)大數(shù)據(jù)工具

大數(shù)據(jù)
許多大數(shù)據(jù)分析工具最初像大數(shù)據(jù)軟件框架Hadoop一樣都是開(kāi)源項(xiàng)目,但商業(yè)實(shí)體迅速涌現(xiàn),為開(kāi)源產(chǎn)品提供了新工具或商業(yè)的支持和開(kāi)發(fā)。根據(jù)這個(gè)行業(yè)領(lǐng)域的專家顧問(wèn)的建議,以下列出一系列主要的大數(shù)據(jù)分析工具,并列出三個(gè)主​​要類別。

如今,為了滿足企業(yè)的主要需求,大數(shù)據(jù)工具正在迅速得到應(yīng)用。在大數(shù)據(jù)技術(shù)作為概念和業(yè)務(wù)戰(zhàn)略出現(xiàn)的十年中,涌現(xiàn)了執(zhí)行各種任務(wù)和流程的數(shù)千種工具。而推出這些工具的提供商都承諾可以為企業(yè)節(jié)省時(shí)間和成本,并發(fā)現(xiàn)能夠讓企業(yè)獲利的商業(yè)洞察力。顯然,大數(shù)據(jù)分析工具的市場(chǎng)正在不斷增長(zhǎng)。

[[226263]]

許多大數(shù)據(jù)分析工具最初像大數(shù)據(jù)軟件框架Hadoop一樣都是開(kāi)源項(xiàng)目,但商業(yè)實(shí)體迅速涌現(xiàn),為開(kāi)源產(chǎn)品提供了新工具或商業(yè)的支持和開(kāi)發(fā)。

而在這些工具中選擇是一個(gè)挑戰(zhàn),特別是許多大數(shù)據(jù)工具只具有單一用途,而企業(yè)需要使用大數(shù)據(jù)完成許多不同的任務(wù),因此企業(yè)的分析工具箱會(huì)變得過(guò)于充實(shí)。根據(jù)這個(gè)行業(yè)領(lǐng)域的專家顧問(wèn)的建議,以下列出一系列主要的大數(shù)據(jù)分析工具,并列出三個(gè)主​​要類別。

如上所述,大數(shù)據(jù)工具都傾向于單一使用類別,并且有多種使用大數(shù)據(jù)的方式。所以可以按類別分類,然后分析每個(gè)分析工具。

大數(shù)據(jù)工具:數(shù)據(jù)存儲(chǔ)和管理

大數(shù)據(jù)都是從數(shù)據(jù)存儲(chǔ)開(kāi)始。這意味著從大數(shù)據(jù)框架Hadoop開(kāi)始。它是由Apache Foundation開(kāi)發(fā)的開(kāi)源軟件框架,用在計(jì)算機(jī)集群上分布式存儲(chǔ)非常大的數(shù)據(jù)集。

顯然,存儲(chǔ)對(duì)于大數(shù)據(jù)所需的大量信息至關(guān)重要。但更重要的是,需要有一種方式來(lái)將所有這些數(shù)據(jù)集中到某種形成/管理結(jié)構(gòu)中,以產(chǎn)生洞察力。因此,大數(shù)據(jù)存儲(chǔ)和管理是真正的基礎(chǔ),而沒(méi)有這樣的分析平臺(tái)是行不通的。在某些情況下,這些解決方案包括員工培訓(xùn)。

而這個(gè)領(lǐng)域的主要的大數(shù)據(jù)工具有:

1. Cloudera

基本上,Hadoop增加了一些額外的服務(wù),企業(yè)將需要這些服務(wù),因?yàn)榇髷?shù)據(jù)并不是一個(gè)簡(jiǎn)單的練習(xí)。 Cloudera的服務(wù)團(tuán)隊(duì)不僅可以幫助企業(yè)構(gòu)建大數(shù)據(jù)集群,還可以幫助培訓(xùn)員工更好地訪問(wèn)數(shù)據(jù)。

2. MongoDB

MongoDB是最流行的大數(shù)據(jù)數(shù)據(jù)庫(kù),因?yàn)樗m用于管理大數(shù)據(jù)經(jīng)常出現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù)或頻繁更改的數(shù)據(jù)。

3. Talend

作為一家提供廣泛解決方案的公司,Talend的產(chǎn)品是圍繞集成平臺(tái)構(gòu)建的,該平臺(tái)結(jié)合了大數(shù)據(jù)、云計(jì)算、應(yīng)用程序,以及實(shí)時(shí)數(shù)據(jù)集成、數(shù)據(jù)準(zhǔn)備和主數(shù)據(jù)管理。

Talend大數(shù)據(jù)集成包括數(shù)據(jù)質(zhì)量和治理功能。

大數(shù)據(jù)工具:數(shù)據(jù)清理

在企業(yè)真正處理大量數(shù)據(jù)以獲取洞察信息之前,先需要對(duì)其進(jìn)行清理、轉(zhuǎn)換并將其轉(zhuǎn)變?yōu)榭蛇h(yuǎn)程檢索的內(nèi)容。大數(shù)據(jù)集往往是非結(jié)構(gòu)化和無(wú)組織的,因此需要進(jìn)行某種清理或轉(zhuǎn)換。

在這個(gè)時(shí)代,數(shù)據(jù)的清理變得更加必要,因?yàn)閿?shù)據(jù)可以來(lái)自任何地方:移動(dòng)網(wǎng)絡(luò)、物聯(lián)網(wǎng)、社交媒體。并不是所有這些數(shù)據(jù)都容易被“清理”,以產(chǎn)生其見(jiàn)解,因此一個(gè)良好的數(shù)據(jù)清理工具可以改變所有的差異。事實(shí)上,在未來(lái)的幾年中,將有效清理的數(shù)據(jù)視為是一種可接受的大數(shù)據(jù)系統(tǒng)與真正出色的數(shù)據(jù)系統(tǒng)之間的競(jìng)爭(zhēng)優(yōu)勢(shì)。

4. OpenRefine

OpenRefine是一款易于使用的開(kāi)源工具,通過(guò)刪除重復(fù)項(xiàng)、空白字段和​​其他錯(cuò)誤來(lái)清理凌亂的數(shù)據(jù)。它是開(kāi)源的軟件,但它有一個(gè)可以提供幫助的大型社區(qū)。

5. DataCleaner

與OpenRefine類似,DataCleaner將半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換為數(shù)據(jù)可視化工具可讀取的干凈可讀的數(shù)據(jù)集。該公司還提供數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)管理服務(wù)。

6. Microsoft Excel

人們可以從各種數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。Excel對(duì)手動(dòng)數(shù)據(jù)輸入和復(fù)制/粘貼操作特別有用。它可以消除重復(fù)、查找、替換,拼寫檢查以及用于轉(zhuǎn)換數(shù)據(jù)的許多公式。但它很快陷入困境,并不適用于大數(shù)據(jù)集。

大數(shù)據(jù)工具:數(shù)據(jù)挖掘

一旦數(shù)據(jù)被清理并準(zhǔn)備好進(jìn)行檢查,就可以通過(guò)數(shù)據(jù)挖掘開(kāi)始搜索過(guò)程。這就是企業(yè)進(jìn)行實(shí)際發(fā)現(xiàn)、決策和預(yù)測(cè)的過(guò)程。

數(shù)據(jù)挖掘在很多方面都是大數(shù)據(jù)流程的真正核心。數(shù)據(jù)挖掘解決方案通常非常復(fù)雜,但力求提供一個(gè)令人關(guān)注和用戶友好的用戶界面,這說(shuō)起來(lái)容易做起來(lái)難。數(shù)據(jù)挖掘工具面臨的另一個(gè)挑戰(zhàn)是:它們的確需要工作人員開(kāi)發(fā)查詢,所以數(shù)據(jù)挖掘工具的能力并不比使用它的專業(yè)人員強(qiáng)。

7. RapidMiner

RapidMiner是一款易于使用的預(yù)測(cè)分析工具,具有非常用戶友好的可視化界面,這意味著企業(yè)無(wú)需編寫代碼,即可運(yùn)行分析產(chǎn)品。

8. IBM SPSS Modeler

IBM SPSS Modeler是一套適用于企業(yè)級(jí)的高級(jí)分析的產(chǎn)品,用于數(shù)據(jù)挖掘。而IBM的服務(wù)和咨詢無(wú)疑是首屈一指的。

9. Teradata

Teradata為數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)和分析以及市場(chǎng)營(yíng)銷應(yīng)用提供端到端解決方案。這一切意味著企業(yè)的業(yè)務(wù)可以真正成為一個(gè)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù),并提供商業(yè)服務(wù)、咨詢、培訓(xùn)和支持。

像許多當(dāng)前的大數(shù)據(jù)工具一樣,RapidMiner解決方案也包含云計(jì)算解決方案

大數(shù)據(jù)工具:數(shù)據(jù)可視化

數(shù)據(jù)可視化是企業(yè)的數(shù)據(jù)以可讀的格式顯示的方式。這是企業(yè)查看圖表和圖形以及將數(shù)據(jù)放入透視圖中的方法。

數(shù)據(jù)的可視化與科學(xué)一樣,是一種藝術(shù)形式。而大數(shù)據(jù)公司將擁有越來(lái)越多的數(shù)據(jù)科學(xué)家和高級(jí)管理人員,很重要的一點(diǎn)是可以為員工提供更加廣泛的可視化服務(wù)。銷售代表、IT支持、中層管理等這些團(tuán)隊(duì)中的每一個(gè)成員都需要理解它,因此重點(diǎn)在于可用性。但是,易于閱讀的可視化有時(shí)與深度特征集的讀取不一致,這成為了數(shù)據(jù)可視化工具的一個(gè)主要挑戰(zhàn)。

10. Tableau

作為這一領(lǐng)域的領(lǐng)導(dǎo)者之一,其數(shù)據(jù)可視化工具專注于商業(yè)智能,無(wú)需編程即可創(chuàng)建各種地圖、圖表、圖形等等。Tableau總共有五款產(chǎn)品,其中有一個(gè)名為Tableau Public的免費(fèi)版本供潛在客戶試用。

11. Silk

Silk是一種簡(jiǎn)單版本的Tableau,Silk可讓企業(yè)將數(shù)據(jù)可視化為地圖和圖表,而無(wú)需任何編程。它甚至?xí)L試在第一次加載時(shí)自動(dòng)將數(shù)據(jù)可視化。它還使得在線發(fā)布結(jié)果變得容易。

12. Chartio

Chartio使用自己的可視化查詢語(yǔ)言,只需點(diǎn)擊幾下即可創(chuàng)建功能強(qiáng)大的儀表板,而無(wú)需了解SQL或其他建模語(yǔ)言。與其他不同的是,企業(yè)直接連接到數(shù)據(jù)庫(kù),因此不需要數(shù)據(jù)倉(cāng)庫(kù)。

13. IBM Watson Analytics

IBM Watson Analytics是機(jī)器學(xué)習(xí)(ML)和人工智能(AI)的結(jié)合,可幫助提供智能數(shù)據(jù)科學(xué)助理,為業(yè)務(wù)分析師和數(shù)據(jù)科學(xué)家提供廣泛的數(shù)據(jù)科學(xué)技能集的用戶指南。

三層大數(shù)據(jù)工具

普華永道移動(dòng)數(shù)據(jù)和分析計(jì)劃首席技術(shù)官Ritesh Ramesh說(shuō),就精密程度和市場(chǎng)戰(zhàn)略而言,大數(shù)據(jù)工具分解為三層。

  • 第一層:也是最大的一層,是一系列開(kāi)源工具。每家公司都以這種方式開(kāi)始,像Cloudera和Hortonworks。除了基本的基礎(chǔ)設(shè)施。服務(wù)器和存儲(chǔ)之外,價(jià)值非常小。大多數(shù)云計(jì)算廠商已經(jīng)將這一層實(shí)現(xiàn)商品化。
  • 第二層:這是大多數(shù)這些供應(yīng)商已經(jīng)意識(shí)到需要增加他們的市場(chǎng)份額的地方,他們必須在開(kāi)放源代碼工具之上構(gòu)建一些專有應(yīng)用程序,從而與其他供應(yīng)商區(qū)分開(kāi)。例如,Cloudera公司構(gòu)建了一些類似于Hadoop內(nèi)核中的數(shù)據(jù)科學(xué)平臺(tái)。
  • 第三層:這些是垂​​直專用的應(yīng)用程序。這些公司大多與普華永道、Cognizant或埃森哲等系統(tǒng)集成商合作。這就是真正的價(jià)值所在,而且這也是大數(shù)據(jù)工具制造商非常有效的競(jìng)爭(zhēng)策略。

Ramesh說(shuō),除了基本功能之外,還有三個(gè)工具需求領(lǐng)域。首先是數(shù)據(jù)處理工具。他說(shuō),“數(shù)據(jù)學(xué)習(xí)工具是客戶進(jìn)行數(shù)據(jù)質(zhì)量和性能分析的工具包中的重要工具,可處理5000萬(wàn)行數(shù)據(jù),以發(fā)現(xiàn)洞察力。”

他說(shuō),行業(yè)領(lǐng)先的供應(yīng)商還包括Trifacta,Paxata和Talend公司。

第二大類應(yīng)用程序是治理的應(yīng)用程序,例如企業(yè)如何擁有元數(shù)據(jù)定義。“很多人都為此而努力。人們將大量垃圾轉(zhuǎn)儲(chǔ)到數(shù)據(jù)湖中。市場(chǎng)上沒(méi)有多少工具可以在數(shù)據(jù)湖中有效地工作。由于大部分這項(xiàng)工作都是由IT人員完成的,他們更有興趣將數(shù)據(jù)輸入到數(shù)據(jù)湖中,而不是將治理結(jié)構(gòu)置于其周圍。”Ramesh說(shuō)。

這個(gè)行業(yè)領(lǐng)域的頂級(jí)供應(yīng)商:Waterline Data,Tamr的數(shù)據(jù)編目工具和Collibra。

經(jīng)常出現(xiàn)的第三類需求是安全性的應(yīng)用程序。Ramesh說(shuō),“人們希望單一產(chǎn)品具有所有安全訪問(wèn)層、列、行和對(duì)象。他們希望支持差異數(shù)據(jù)對(duì)象的用戶訪問(wèn)和安全性的產(chǎn)品。”

這個(gè)行業(yè)領(lǐng)域的主要供應(yīng)商是Wandisco公司和FireEye公司。

責(zé)任編輯:趙寧寧 來(lái)源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2018-09-04 23:04:31

大數(shù)據(jù)架構(gòu)大數(shù)據(jù)大數(shù)據(jù)分析

2015-08-10 09:23:05

2012-12-24 09:42:11

大數(shù)據(jù)應(yīng)用開(kāi)發(fā)輔助開(kāi)發(fā)工具大數(shù)據(jù)

2018-12-26 15:14:56

2015-08-10 10:37:42

2018-03-27 10:13:26

大數(shù)據(jù)軟件應(yīng)用程序

2019-04-23 08:00:25

大數(shù)據(jù)可視化工具數(shù)據(jù)分析

2021-03-15 10:52:03

大數(shù)據(jù)醫(yī)療大數(shù)據(jù)應(yīng)用

2013-09-22 10:26:06

大數(shù)據(jù)大數(shù)據(jù)團(tuán)隊(duì)

2013-12-16 14:51:09

大數(shù)據(jù)

2016-10-18 15:27:30

數(shù)據(jù)存儲(chǔ)

2013-12-13 09:30:45

大數(shù)據(jù)R語(yǔ)言物聯(lián)網(wǎng)

2013-03-20 15:49:28

大數(shù)據(jù)

2017-07-13 10:35:35

人工智能大數(shù)據(jù)開(kāi)發(fā)

2018-03-29 11:11:32

人工智能大數(shù)據(jù)開(kāi)發(fā)

2024-01-08 16:17:02

數(shù)據(jù)治理工具大數(shù)據(jù)

2019-08-22 09:08:53

大數(shù)據(jù)HadoopStorm

2016-10-08 16:33:20

開(kāi)源智能工具

2021-01-21 16:20:14

數(shù)據(jù)采集數(shù)據(jù)采集工具大數(shù)據(jù)

2018-04-12 10:02:57

大數(shù)據(jù)領(lǐng)域工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)