自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)領(lǐng)域的12大工具,試試看哪個(gè)更好用

譯文
大數(shù)據(jù)
為了滿足旺盛需求,大數(shù)據(jù)工具在迅速遍地開花。在大數(shù)據(jù)這一概念和業(yè)務(wù)戰(zhàn)略出現(xiàn)以來的十年間,市面上出現(xiàn)了成千上萬執(zhí)行各種任務(wù)和流程的工具,它們都承諾可為你節(jié)省時(shí)間和資金,發(fā)掘業(yè)務(wù)洞察力從而實(shí)現(xiàn)創(chuàng)收。顯然,一個(gè)不斷增長的市場呈現(xiàn)在大數(shù)據(jù)分析工具的面前。

【51CTO.com快譯】大數(shù)據(jù)工具讓企業(yè)能夠從數(shù)據(jù)倉庫獲得洞察力,從而在數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)環(huán)境中提供重要的競爭優(yōu)勢。

為了滿足旺盛需求,大數(shù)據(jù)工具在迅速遍地開花。在大數(shù)據(jù)這一概念和業(yè)務(wù)戰(zhàn)略出現(xiàn)以來的十年間,市面上出現(xiàn)了成千上萬執(zhí)行各種任務(wù)和流程的工具,它們都承諾可為你節(jié)省時(shí)間和資金,發(fā)掘業(yè)務(wù)洞察力從而實(shí)現(xiàn)創(chuàng)收。顯然,一個(gè)不斷增長的市場呈現(xiàn)在大數(shù)據(jù)分析工具的面前。

其中許多工具一開始就像最初的大數(shù)據(jù)軟件框架Hadoop那樣是開源項(xiàng)目,但后來商業(yè)公司迅速涌現(xiàn),為開源產(chǎn)品提供新工具或商業(yè)支持和開發(fā)。

從中進(jìn)行遴選可能很困難,尤其是許多大數(shù)據(jù)工具用途單一,而你可以用大數(shù)據(jù)處理許多不同的任務(wù),所以你的分析工具箱會塞得滿滿當(dāng)當(dāng)。本文我們列出了市面上主要的大數(shù)據(jù)分析工具,分三大?類別來介紹。

主要的大數(shù)據(jù)工具

如前所述,大數(shù)據(jù)工具往往屬于單一用途類別,而使用大數(shù)據(jù)有多種方式。所以我們將按類別細(xì)分,然后討論每個(gè)類別的分析工具。

一、大數(shù)據(jù)工具:數(shù)據(jù)存儲和管理

大數(shù)據(jù)完全始于數(shù)據(jù)存儲,也就是說始于大數(shù)據(jù)框架Hadoop。它是Apache基金會運(yùn)行的一種開源軟件框架,用于在大眾化計(jì)算機(jī)集群上分布式存儲非常大的數(shù)據(jù)集。

很顯然,由于大數(shù)據(jù)需要大量的信息,存儲至關(guān)重要。但除了存儲外,還需要某種方式將所有這些數(shù)據(jù)匯集成某種格式化/治理結(jié)構(gòu),從而獲得洞察力。因此,大數(shù)據(jù)存儲和管理是真正的基礎(chǔ)――離開了它,分析平臺一無是處。在一些情況下,這些解決方案還包括員工培訓(xùn)。

這個(gè)領(lǐng)域的大玩家包括:

1. Cloudera

實(shí)際上是增加了一些額外服務(wù)的Hadoop,你會需要它,因?yàn)榇髷?shù)據(jù)不容易搞。Cloudera的服務(wù)團(tuán)隊(duì)不僅可以幫助你構(gòu)建大數(shù)據(jù)集群,還可以幫助培訓(xùn)你的員工,更好地訪問數(shù)據(jù)。

2. MongoDB

MongoDB是最受歡迎的大數(shù)據(jù)數(shù)據(jù)庫,因?yàn)樗m用于管理經(jīng)常變化的數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)常常是非結(jié)構(gòu)化數(shù)據(jù)。

3. Talend

作為一家提供廣泛解決方案的公司,Talend的產(chǎn)品圍繞其集成平臺而建,該平臺集大數(shù)據(jù)、云、應(yīng)用程序、實(shí)時(shí)數(shù)據(jù)集成、數(shù)據(jù)準(zhǔn)備和主數(shù)據(jù)管理于一體。

圖1:Talend大數(shù)據(jù)集成平臺包括數(shù)據(jù)質(zhì)量和治理功能

二、大數(shù)據(jù)工具:數(shù)據(jù)清理

在你真正處理數(shù)據(jù)以獲取洞察力之前,需要清理和轉(zhuǎn)換數(shù)據(jù),轉(zhuǎn)換成可遠(yuǎn)程搜索的內(nèi)容。大數(shù)據(jù)集往往是非結(jié)構(gòu)化、無組織的,因此需要某種清理或轉(zhuǎn)換。

當(dāng)下,數(shù)據(jù)可能來自任何地方:移動(dòng)、物聯(lián)網(wǎng)和社交媒體,數(shù)據(jù)清理顯得更為必要。并非所有這些數(shù)據(jù)都可以輕松“清理”以獲得洞察力,因此優(yōu)秀的數(shù)據(jù)清理工具極其重要。實(shí)際上,在未來幾年,預(yù)計(jì)經(jīng)過有效清理的數(shù)據(jù)會是可接受的大數(shù)據(jù)系統(tǒng)與真正出色的大數(shù)據(jù)系統(tǒng)之間的競爭優(yōu)勢。

4. OpenRefine

OpenRefine是一款易于使用的開源工具,通過刪除重復(fù)項(xiàng)、空白字段及??其他錯(cuò)誤來清理凌亂的數(shù)據(jù)。它是開源的,但有一個(gè)相當(dāng)大的社區(qū)可提供幫助。

5. DataCleaner

與OpenRefine一樣,DataCleaner可將半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換成數(shù)據(jù)可視化工具可以讀取的干凈可讀的數(shù)據(jù)集。該公司還提供數(shù)據(jù)倉庫和數(shù)據(jù)管理服務(wù)。

6. 微軟Excel

說真的,Excel有其用途。你可以從各種數(shù)據(jù)源導(dǎo)入數(shù)據(jù)。Excel在手動(dòng)數(shù)據(jù)輸入和復(fù)制/粘貼操作方面特別有用。它能消除重復(fù)項(xiàng),查找和替換內(nèi)容,檢查拼寫,還有用于轉(zhuǎn)換數(shù)據(jù)的許多公式。但Excel很快陷入困境,不適合龐大數(shù)據(jù)集。

三、大數(shù)據(jù)工具:數(shù)據(jù)挖掘

一旦數(shù)據(jù)經(jīng)過清理和準(zhǔn)備,你可以通過數(shù)據(jù)挖掘開始搜索數(shù)據(jù)了。這時(shí)你執(zhí)行這個(gè)實(shí)際的過程:發(fā)現(xiàn)數(shù)據(jù)、做出決定和進(jìn)行預(yù)測。

數(shù)據(jù)挖掘是大數(shù)據(jù)流程的真正核心。數(shù)據(jù)挖掘解決方案通常底層很復(fù)雜,但竭力提供 一種外觀漂亮、對用戶友好的用戶界面,說起來容易做起來難。數(shù)據(jù)挖掘工具面臨的另一個(gè)挑戰(zhàn)是:它們確實(shí)需要人來編制查詢,所以數(shù)據(jù)挖掘工具的好壞取決于使用它的專業(yè)人員。

7. RapidMiner

RapidMiner是一款易于使用的預(yù)測分析工具,有著對用戶友好的可視化界面,這意味著你沒必要編寫代碼即可運(yùn)行分析產(chǎn)品。

8. IBM SPSS Modeler

IBM SPSS Modeler是一款包括五個(gè)數(shù)據(jù)挖掘產(chǎn)品的套件,面向企業(yè)級高級分析。另外IBM的服務(wù)和咨詢首屈一指。

9. Teradata

Teradata為數(shù)據(jù)倉庫、大數(shù)據(jù)和分析以及營銷等應(yīng)用提供端到端解決方案。這一切意味著貴公司可以真正成為數(shù)據(jù)驅(qū)動(dòng)的公司,另外還有商業(yè)服務(wù)、咨詢、培訓(xùn)和支持。

圖2:與許多目前的大數(shù)據(jù)工具一樣,RapidMiner解決方案也支持云

大數(shù)據(jù)工具:數(shù)據(jù)可視化

數(shù)據(jù)可視化是指以一種可讀、實(shí)用的格式顯示你的數(shù)據(jù)。你可以查看圖表圖形以及直觀顯示數(shù)據(jù)的其他圖像。

數(shù)據(jù)可視化既是一門科學(xué),又是一門藝術(shù)。隨著大數(shù)據(jù)從有大批數(shù)據(jù)科學(xué)家支持的高管轉(zhuǎn)移到整個(gè)公司上下,眾多員工可以使用可視化工具極為重要。銷售代表、IT支持和中層管理,這些團(tuán)隊(duì)個(gè)個(gè)都需要能夠理解數(shù)據(jù),因此重點(diǎn)放在易用性上。然而,易于閱讀的可視化有時(shí)與來自深度特征集的數(shù)據(jù)讀出相沖突,這帶來了數(shù)據(jù)可視化工具面臨的主要挑戰(zhàn)之一。

10. Tableau

Tableau是該領(lǐng)域的領(lǐng)導(dǎo)者,其數(shù)據(jù)可視化工具專注于商業(yè)智能,無需懂得編程,即可創(chuàng)建各種地圖、圖表、圖形及更多可視化元素。它共有五款產(chǎn)品,一款名為Tableau Public的免費(fèi)版供潛在客戶試用。

11. Silk

Silk是Tableau的簡單版,讓你可以通過地圖和圖表將數(shù)據(jù)可視化,無需任何編程。你在首次加載Silk時(shí),它甚至?xí)囍鴮?shù)據(jù)可視化。它還讓用戶很容易在網(wǎng)上發(fā)布結(jié)果。

12. Chartio

Chartio使用自己的可視化查詢語言,只要點(diǎn)擊幾下鼠標(biāo)即可創(chuàng)建功能強(qiáng)大的儀表板,無需懂得SQL或其他建模語言。它有別于其他工具的地方主要在于,你可以直接連接到數(shù)據(jù)庫,因此不需要數(shù)據(jù)倉庫。

IBM Watson Analytics

IBM Watson Analytics結(jié)合了機(jī)器學(xué)習(xí)和人工智能,有助于提供智能數(shù)據(jù)科學(xué)助手,為業(yè)務(wù)分析員和數(shù)據(jù)科學(xué)家等擁有眾多數(shù)據(jù)科學(xué)技能的用戶扮演了向?qū)А?/p>

大數(shù)據(jù)工具的三個(gè)層次

普華永道的移動(dòng)數(shù)據(jù)和分析計(jì)劃首席技術(shù)官Ritesh Ramesh表示,就先進(jìn)程度和市場戰(zhàn)略而言,大數(shù)據(jù)工具可分成三層金字塔。

第一層:最龐大的是一系列開源工具。每家公司以開源起家,像Cloudera和Hortonworks。除了基本的基礎(chǔ)設(shè)施、服務(wù)器和存儲外,沒有多大的價(jià)值。大多數(shù)云廠商已將這一層實(shí)現(xiàn)了商品化。

第二層:在這一層,大多數(shù)這類廠商已有意增加各自的市場份額,在開源工具上面構(gòu)建一些專有應(yīng)用程序,從而做到與眾不同。舉例說,Cloudera開發(fā)了許多產(chǎn)品,比如駐留在Hadoop核心上的數(shù)據(jù)科學(xué)平臺。

第三層:這些是針對特定垂直領(lǐng)域的應(yīng)用程序。這些公司大多與普華永道、高知特或埃森哲等系統(tǒng)集成商合作。真正的價(jià)值出在這里,這對大數(shù)據(jù)工具開發(fā)商來說也是非常有效的競爭策略。

Ramesh表示,除了基本功能外,這些工具的三大方面?zhèn)涫軞g迎。首先是數(shù)據(jù)處理工具。他說:“數(shù)據(jù)學(xué)習(xí)工具是客戶的工具箱中確保數(shù)據(jù)質(zhì)量和分析數(shù)據(jù)的重要工具,比如處理5000萬行數(shù)據(jù)以發(fā)現(xiàn)洞察力。”

他表示,領(lǐng)先的廠商包括Trifacta、Paxata和Talend。

第二大類應(yīng)用程序是治理,比如你如何定義元數(shù)據(jù)。他說:“好多人在這方面遇到困難。人們只是將大量垃圾數(shù)據(jù)倒到數(shù)據(jù)湖。市面上可在數(shù)據(jù)湖中積極發(fā)揮功效的工具不多。由于這項(xiàng)工作主要由IT人員完成,他們更有興趣將數(shù)據(jù)倒到數(shù)據(jù)湖,而不是確立一種治理結(jié)構(gòu)。”

主要廠商包括Waterline Data、以數(shù)據(jù)編目工具見長的Tamr和Collibra。

Ramesh說,經(jīng)常出現(xiàn)的第三大需求是安全。他說:“人們希望一個(gè)產(chǎn)品就有安全訪問的所有層(列、行和對象)。他們希望一款產(chǎn)品為不同的數(shù)據(jù)對象支持用戶訪問和安全。這也是個(gè)新興領(lǐng)域。”

這個(gè)領(lǐng)域的主要廠商是Wandisco和FireEye。

原文標(biāo)題:Top 12 Big Data Tools,作者:Andy Patrizio

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯:武曉燕 來源: 51CTO
相關(guān)推薦

2016-12-16 12:32:50

阿里數(shù)據(jù)分析職業(yè)要求

2023-12-30 08:16:34

Django權(quán)限控制

2016-08-29 22:34:24

大數(shù)據(jù)工具

2016-03-21 09:56:41

Spark大數(shù)據(jù)處理Apache

2016-07-05 15:49:39

大數(shù)據(jù)動(dòng)向

2022-06-26 23:31:17

Java開發(fā)語言

2020-09-04 15:13:43

Java 8接口物流信息

2019-07-27 09:40:56

MySQLPG數(shù)據(jù)庫

2018-04-17 12:58:52

大數(shù)據(jù)工具大數(shù)據(jù)數(shù)據(jù)可視化

2012-12-25 09:58:50

數(shù)據(jù)科學(xué)家大數(shù)據(jù)

2020-12-08 10:25:56

HibernateMyBatis數(shù)據(jù)庫

2017-07-27 14:18:41

大數(shù)據(jù)挑戰(zhàn)動(dòng)向

2018-12-25 09:00:59

2016-05-30 10:15:56

2019-04-29 13:20:00

大數(shù)據(jù)工具數(shù)據(jù)庫

2022-10-19 10:52:31

大數(shù)據(jù)金融

2020-06-08 11:30:04

PGMySQL數(shù)據(jù)庫

2018-02-23 16:38:58

2016-11-29 16:36:03

2019-04-28 11:15:36

Kubernetes開源工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號