成千上萬(wàn)的大數(shù)據(jù)工具,哪家強(qiáng)?
譯文【51CTO.com快譯】外面有成千上萬(wàn)的大數(shù)據(jù)工具。它們都承諾可以為你節(jié)省時(shí)間和資金,并幫助發(fā)掘之前從來(lái)見(jiàn)過(guò)的業(yè)務(wù)洞察力。雖然確實(shí)如此,可是面對(duì)那么多的選擇,想理清這么多的工具談何容易。
哪一種工具適合你的技能組合?哪一種工具適合你的項(xiàng)目?
為了替你節(jié)省一點(diǎn)時(shí)間,并幫助你首次選對(duì)工具,我們列出了我們青睞的幾款數(shù)據(jù)工具,涉及數(shù)據(jù)提取、存儲(chǔ)、清理、挖掘、可視化、分析和整合等領(lǐng)域。
數(shù)據(jù)存儲(chǔ)和管理
如果你準(zhǔn)備處理大數(shù)據(jù),就要考慮該如何存儲(chǔ)大數(shù)據(jù)。大數(shù)據(jù)得到“大”這個(gè)名號(hào),一方面在于,大數(shù)據(jù)太龐大了,傳統(tǒng)系統(tǒng)處理不了。一家優(yōu)秀的數(shù)據(jù)存儲(chǔ)提供商應(yīng)該可以為你提供一套基礎(chǔ)設(shè)施,除了用來(lái)存儲(chǔ)和查詢(xún)數(shù)據(jù)外,你還可以在上面運(yùn)行其他所有分析工具。
Hadoop
Hadoop這個(gè)名稱(chēng)已成為了大數(shù)據(jù)的代名詞。它是一種開(kāi)源軟件框架,用于在計(jì)算機(jī)集群上分布式存儲(chǔ)非常龐大的數(shù)據(jù)集。這一切意味著你可以擴(kuò)大或縮小數(shù)據(jù)規(guī)模,沒(méi)必要為硬件故障而擔(dān)心。Hadoop為任何一種數(shù)據(jù)提供了海量存儲(chǔ)空間、強(qiáng)大的處理能力以及處理幾乎無(wú)限制的并發(fā)任務(wù)或作業(yè)這一功能。
Hadoop并不適合數(shù)據(jù)初學(xué)者。想真正發(fā)揮其功能,你其實(shí)需要知道Java。這可能需要一番投入,但是Hadoop無(wú)疑值得你付出努力――因?yàn)槠渌S多公司和技術(shù)運(yùn)行在它的基礎(chǔ)上或者與它整合起來(lái)。
入門(mén):Cloudera提供了一些出色的Hadoop培訓(xùn)課程(http://www.cloudera.com/training/library/tutorials.html)。
Cloudera
說(shuō)到Cloudera,它其實(shí)是Hadoop的一個(gè)品牌名,上面添加了一些額外服務(wù)。它可以幫助貴公司構(gòu)建一個(gè)企業(yè)數(shù)據(jù)樞紐,讓貴企業(yè)的人員可以更方便地訪(fǎng)問(wèn)所存儲(chǔ)的數(shù)據(jù)。
雖然確實(shí)有開(kāi)源組件,但Cloudera主要還是一款企業(yè)解決方案,幫助公司管理Hadoop生態(tài)系統(tǒng)。實(shí)際上,它可以替你處理管理Hadoop的大量繁重工作。它還提供了一定級(jí)別的數(shù)據(jù)安全性,如果你要存儲(chǔ)任何敏感數(shù)據(jù)或私人數(shù)據(jù),這至關(guān)重要。
入門(mén):Cloudera開(kāi)有一大批網(wǎng)上研討會(huì)(http://www.cloudera.com/resources.html),介紹各種各樣的用法。
MongoDB
MongoDB是新穎的現(xiàn)代數(shù)據(jù)庫(kù)方法,可謂是后起之秀。它好比是關(guān)系數(shù)據(jù)庫(kù)的替代技術(shù)。它適用于管理經(jīng)常變化的數(shù)據(jù)或者非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。
常見(jiàn)的使用場(chǎng)合包括:為移動(dòng)應(yīng)用程序、產(chǎn)品目錄、實(shí)時(shí)個(gè)性化、內(nèi)容管理以及跨多個(gè)系統(tǒng)提供單一視圖的應(yīng)用程序存儲(chǔ)數(shù)據(jù)。MongoDB同樣不適合數(shù)據(jù)新手。與任何數(shù)據(jù)庫(kù)一樣,你確實(shí)需要了解如何使用一種編程語(yǔ)言來(lái)查詢(xún)它。
入門(mén):MongoDB設(shè)有自己的“大學(xué)”(https://university.mongodb.com),你可以學(xué)習(xí)如何使用其服務(wù),甚至可以獲得認(rèn)證。
Talend
Talend是另一家出色的開(kāi)源公司,它提供許多數(shù)據(jù)產(chǎn)品。我們?cè)谶@里主要介紹其主數(shù)據(jù)管理(MDM)產(chǎn)品,該產(chǎn)品將實(shí)時(shí)數(shù)據(jù)、應(yīng)用程序和流程整合與嵌入式數(shù)據(jù)質(zhì)量及監(jiān)管結(jié)合起來(lái)。
由于是開(kāi)源產(chǎn)品,Talend完全免費(fèi),因而是個(gè)不錯(cuò)的選擇,無(wú)論貴公司處于哪個(gè)發(fā)展階段。而且,它讓你沒(méi)必要構(gòu)建和維護(hù)自己的數(shù)據(jù)管理系統(tǒng)――這是一項(xiàng)非常復(fù)雜而困難的任務(wù)。
入門(mén):Talend提供了一套不錯(cuò)的入門(mén)教程(https://www.talendforge.org/tutorials/tutorial.php?idTuto=60)。
開(kāi)始入門(mén)
如果你對(duì)大數(shù)據(jù)完全一無(wú)所知,數(shù)據(jù)庫(kù)可能不是最適合入手的方面。它們比較復(fù)雜,確實(shí)需要具備一定的編程知識(shí)才能上手(這不像下面提到的其他許多工具)。
然而,如果你確實(shí)想要從事或處理大數(shù)據(jù),那知道數(shù)據(jù)庫(kù)的基本知識(shí)、聊起數(shù)據(jù)庫(kù)頭頭是道必不可少。General Assembly網(wǎng)站開(kāi)設(shè)的這門(mén)課程(https://generalassemb.ly/education/big-data-demystified-hadoop-and-nosql-for-beginners)是個(gè)不錯(cuò)的起點(diǎn)。你可以全面了解推動(dòng)大數(shù)據(jù)的技術(shù),包括數(shù)據(jù)庫(kù)和存儲(chǔ)發(fā)展史、關(guān)系數(shù)據(jù)庫(kù)和文檔數(shù)據(jù)庫(kù)的區(qū)別、大數(shù)據(jù)的挑戰(zhàn)以及必不可少的工具,還有Hadoop簡(jiǎn)要介紹。
數(shù)據(jù)清理
在你真正挖掘數(shù)據(jù)、獲取洞察力之前,需要清理數(shù)據(jù)。盡管創(chuàng)建一個(gè)整潔、結(jié)構(gòu)清晰的數(shù)據(jù)集總是好做法,但有時(shí)這并非始終行得通。數(shù)據(jù)集可能形狀和大小不一(有些好的,有些不太好!),尤其是你從網(wǎng)上獲取數(shù)據(jù)時(shí)。下列公司可以幫助你完善和重組數(shù)據(jù),處理成實(shí)用的數(shù)據(jù)集。
OpenRefine
OpenRefine(以前叫GoogleRefine)是一種開(kāi)源工具,專(zhuān)門(mén)用于清理凌亂的數(shù)據(jù)。你可以輕松快速地瀏覽龐大的數(shù)據(jù)集,即便數(shù)據(jù)有點(diǎn)非結(jié)構(gòu)化。
就數(shù)據(jù)軟件而言,OpenRefine很易于使用。不過(guò),熟悉數(shù)據(jù)清理原則肯定有所幫助。OpenRefine好就好在,它有一個(gè)龐大社區(qū),擁有眾多貢獻(xiàn)者,這意味著這款軟件在不斷變得完善。要是遇到了難題,你可以向社區(qū)提問(wèn)。可以查看其Github代碼庫(kù)(https://github.com/OpenRefine/OpenRefine),你還能在這里找到OpenRefine維基。
入門(mén):主頁(yè)(http://openrefine.org)上有一些教程視頻,還有一本OpenRefine圖書(shū)。
DataCleaner
DataCleaner認(rèn)識(shí)到數(shù)據(jù)處理是一項(xiàng)冗長(zhǎng)乏味的任務(wù)。數(shù)據(jù)可視化工具只能讀取結(jié)構(gòu)條理化、“干凈”的數(shù)據(jù)集。DataCleaner可以替你干臟活,將凌亂的半結(jié)構(gòu)化數(shù)據(jù)集轉(zhuǎn)換成干凈的、可讀取的數(shù)據(jù)集,那樣所有可視化公司都能讀取。
DataCleaner還提供數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)管理服務(wù)。該公司提供30天免費(fèi)試用服務(wù),之后按月收費(fèi)。你可以在這里(http://datacleaner.org/editions)找到關(guān)于其服務(wù)方案的更多信息。
入門(mén):DataCleaner提供一整套說(shuō)明文檔和視頻(http://datacleaner.org/docs)。針對(duì)商業(yè)方案,它還提供面對(duì)面培訓(xùn)或網(wǎng)絡(luò)研討會(huì)培訓(xùn)。
數(shù)據(jù)挖掘
別將數(shù)據(jù)挖掘與后面介紹的數(shù)據(jù)提取混為一談,數(shù)據(jù)挖掘是指發(fā)現(xiàn)數(shù)據(jù)庫(kù)里面的洞察力,而不是從網(wǎng)頁(yè)提取數(shù)據(jù)、然后放入到數(shù)據(jù)庫(kù)。數(shù)據(jù)挖掘旨在對(duì)你手頭的數(shù)據(jù)進(jìn)行預(yù)測(cè)和決策。
RapidMiner
RapidMiner擁有一大批客戶(hù),包括貝寶、德勤、電子港灣和思科等,這是一款用于預(yù)測(cè)分析的出色工具。它功能強(qiáng)大、易于使用,還有一個(gè)優(yōu)秀的開(kāi)源社區(qū)。通過(guò)API,你甚至可以將自己的專(zhuān)用算法整合到RapidMiner中。
圖形化界面(讓人想到Y(jié)ahoo! Pipes)意味著,你不需要知道如何編程或不需要有博士學(xué)位,就可以使用其四款分析產(chǎn)品(https://rapidminer.com/products/#)中的任何一款。
入門(mén):訪(fǎng)問(wèn)說(shuō)明文檔、論壇和支持社區(qū)(https://rapidminer.com/support/),即可了解如何入門(mén)。
IBM SPSS Modeler
IBM SPSS Modeler提供了一整套專(zhuān)門(mén)用于數(shù)據(jù)挖掘的解決方案。這包括文檔分析、實(shí)體分析、決策管理和優(yōu)化。其五款產(chǎn)品提供了一系列高級(jí)算法和技巧,包括文檔分析、實(shí)體分析、決策管理和優(yōu)化。
SPSS Modeler是一款功能強(qiáng)大的解決方案,很適合滿(mǎn)足大公司的需要。它可以在幾乎任何類(lèi)型的數(shù)據(jù)庫(kù)上運(yùn)行,你可以將它與其他IBM SPSS產(chǎn)品整合起來(lái),比如SPSS協(xié)作及部署服務(wù)和SPSS Analytic服務(wù)器。
入門(mén):IBM的支持說(shuō)明文檔(https://www-947.ibm.com/support/entry/portal/support?lnk=msdTS-supo-usen)是超一流的。
甲骨文數(shù)據(jù)挖掘
數(shù)據(jù)挖掘領(lǐng)域的另一大巨頭是甲骨文。作為其高級(jí)分析數(shù)據(jù)庫(kù)(Advanced Analytics Database)選件的一部分,甲骨文數(shù)據(jù)挖掘讓用戶(hù)可以發(fā)掘洞察力、進(jìn)行預(yù)測(cè)并利用甲骨文數(shù)據(jù)。你可以構(gòu)建模型來(lái)發(fā)現(xiàn)客戶(hù)行為、鎖定最佳客戶(hù)并開(kāi)發(fā)配置文件。
甲骨文數(shù)據(jù)挖掘GUI讓數(shù)據(jù)分析員、業(yè)務(wù)分析員和數(shù)據(jù)科學(xué)家能夠使用一種相當(dāng)優(yōu)雅的拖放式解決方案,在數(shù)據(jù)庫(kù)里面處理數(shù)據(jù)。它還能創(chuàng)建SQL和PL/SQL腳本,用于整個(gè)企業(yè)里面的自動(dòng)化、調(diào)度和部署。
入門(mén):其支持頁(yè)面(https://www.oracle.com/support/index.html)提供了你可能需要的所有資源。
Teradata
Teradata認(rèn)識(shí)到這個(gè)事實(shí):雖然大數(shù)據(jù)很出色,但如果你其實(shí)不知道如何分析和使用大數(shù)據(jù),它就毫無(wú)價(jià)值。設(shè)想一下:擁有成千上萬(wàn)個(gè)數(shù)據(jù)點(diǎn),卻沒(méi)有查詢(xún)這些數(shù)據(jù)點(diǎn)的技能。這時(shí)候,Teradata應(yīng)運(yùn)而生。它為數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)、分析及營(yíng)銷(xiāo)等應(yīng)用提供了端到端解決方案和服務(wù)。這一切意味著,你可以真正成為一家數(shù)據(jù)驅(qū)動(dòng)型公司。
Teradata還提供一整套服務(wù),包括實(shí)施、業(yè)務(wù)咨詢(xún)、培訓(xùn)和支持。
入門(mén):不妨看一下其支持說(shuō)明文檔(http://www.teradata.com/about-us/?ICID=Awit&LangType=1033&LangSelect=true)。
FramedData
如果你著眼于某一種類(lèi)型的數(shù)據(jù)挖掘,有一批初創(chuàng)公司專(zhuān)門(mén)幫助公司利用數(shù)據(jù)解答難題。如果你擔(dān)心用戶(hù)流失,我們推薦FramedData,這家初創(chuàng)公司可以分析你的數(shù)據(jù)分析結(jié)果,告訴你哪些客戶(hù)即將拋棄你的產(chǎn)品。
它是一款完全托管的解決方案,這意味著你沒(méi)必要做任何事,只需等待洞察力呈現(xiàn)在面前。
入門(mén):如果你有興趣,可以請(qǐng)求演示版(https://app.framed.io/0.1.0/login)。
Kaggle
如果你被數(shù)據(jù)挖掘問(wèn)題困擾,或者想解決世界上最棘手的問(wèn)題,不妨關(guān)注Kaggle(https://www.kaggle.com)。Kaggle是世界上最龐大的數(shù)據(jù)科學(xué)社區(qū)。許多公司和研究人員發(fā)布數(shù)據(jù),來(lái)自世界各地的統(tǒng)計(jì)人員和數(shù)據(jù)挖掘人員競(jìng)相制作最佳模型。
數(shù)據(jù)分析
數(shù)據(jù)挖掘旨在細(xì)查數(shù)據(jù)、尋找之前未發(fā)現(xiàn)的模式,數(shù)據(jù)分析則是對(duì)該數(shù)據(jù)進(jìn)行分解,評(píng)估那些模式的影響。分析是指提出特定的問(wèn)題,找到數(shù)據(jù)中的答案。你甚至可以提些關(guān)于將來(lái)會(huì)發(fā)生什么方面的問(wèn)題!
Qubole
Qubole可針對(duì)存儲(chǔ)在AWS、谷歌或Azure云上的數(shù)據(jù),簡(jiǎn)化、加快和擴(kuò)展大數(shù)據(jù)分析工作負(fù)載。它消除了管理基礎(chǔ)設(shè)施方面的麻煩。一旦IT策略實(shí)施到位,眾多數(shù)據(jù)分析員就可以隨意地協(xié)作“點(diǎn)擊查詢(xún)”,享用Hive、Spark、Presto及其他眾多數(shù)據(jù)處理引擎的功能。
Qubole是一款企業(yè)級(jí)解決方案。它提供免費(fèi)試用服務(wù),你可以在此頁(yè)面(https://www.qubole.com/features/)注冊(cè)使用。該軟件的靈活性確實(shí)讓它有別于其余解決方案,它還是所有平臺(tái)中最易于訪(fǎng)問(wèn)的。
入門(mén):可在資源頁(yè)面(https://www.qubole.com/resources/)上進(jìn)一步了解Qubole。
BigML
BigML試圖簡(jiǎn)化機(jī)器學(xué)習(xí)。它提供一項(xiàng)功能強(qiáng)大的機(jī)器學(xué)習(xí)服務(wù),擁有易于使用的界面,以便你導(dǎo)入數(shù)據(jù),并從中進(jìn)行預(yù)測(cè)。你甚至可以使用其模型用于預(yù)測(cè)分析。
如果你想從BigML獲得最大的好處,深入了解模型無(wú)疑大有幫助,但并非必要條件。它有一款免費(fèi)版工具,讓你可以創(chuàng)建16MB以下的任務(wù),還提供按需付費(fèi)方案和虛擬私有云,可以滿(mǎn)足企業(yè)級(jí)需求。
入門(mén):你可以在這四個(gè)簡(jiǎn)短視頻(https://bigml.com/how_it_works)中觀看BigML是如何工作的。
Statwing
Statwing將數(shù)據(jù)分析帶到了新的水平,提供從漂亮視圖到復(fù)雜分析的各種功能。它很易于使用,實(shí)際上在5分鐘內(nèi)就可以上手。
雖然不是免費(fèi)使用,但價(jià)格方案相當(dāng)優(yōu)惠?;咎撞褪敲吭?0美元,你可以隨時(shí)取消。這讓你可以使用無(wú)限制的數(shù)據(jù)庫(kù)(最多50MB)。還有其他的企業(yè)方案,讓你能夠上傳更龐大的數(shù)據(jù)集。
入門(mén):主頁(yè)(https://www.statwing.com)上有許多很棒的教程視頻。
數(shù)據(jù)可視化
數(shù)據(jù)可視化公司讓你的數(shù)據(jù)栩栩如生。對(duì)任何數(shù)據(jù)科學(xué)家來(lái)說(shuō),挑戰(zhàn)一方面在于,將來(lái)自數(shù)據(jù)的洞察力傳達(dá)給貴公司的其余人員。對(duì)你的大多數(shù)同事來(lái)說(shuō),MySQL數(shù)據(jù)庫(kù)和電子表格不管用??梢暬莻鬟_(dá)復(fù)雜數(shù)據(jù)洞察力的一種好方法。最棒的是,它們大多根本不需要編程!
Tableau
Tableau是一款數(shù)據(jù)可視化工具,主要側(cè)重于商業(yè)智能。你可以創(chuàng)建圖形、條形圖、散點(diǎn)圖及更多視圖,不需要編程。它最近發(fā)布了一款Web連接件,讓你可以連接到數(shù)據(jù)庫(kù)或API,因而讓你能夠通過(guò)可視化呈現(xiàn)活動(dòng)數(shù)據(jù)。
Tableau有五款產(chǎn)品,支持和功能程度不一。如果你是可視化方面的新手,我們推薦Tableau Public(https://public.tableau.com/s/),這是其可視化工具的免費(fèi)版。探究一番該工具,你應(yīng)該會(huì)了解想要購(gòu)買(mǎi)另外的哪款Tableau產(chǎn)品。
入門(mén):Tableau有許多功能,所以在購(gòu)買(mǎi)之前絕對(duì)有必要看一看教程(http://www.tableau.com/learn/training)。
Silk
Silk是一款比Tableau簡(jiǎn)單得多的數(shù)據(jù)可視化和分析工具。它讓你只要點(diǎn)擊幾下鼠標(biāo),即可創(chuàng)建交互式地圖和圖形,因而為你的數(shù)據(jù)賦予活力。Silk還讓你可以與眾多人協(xié)作處理可視化。
與本文介紹的許多可視化公司一樣,Silk不需要你是編程高手。如果你是數(shù)據(jù)可視化方面的新手,可以從它入手,因?yàn)槠渥罴压δ茉噲D自動(dòng)可視化數(shù)據(jù),你沒(méi)必要做事情。
入門(mén):Silk在官方網(wǎng)站上有數(shù)量極多的教程(https://www.silk.co/help)。
CartoDB
CartoDB是一款數(shù)據(jù)可視化工具,專(zhuān)門(mén)用來(lái)繪制圖形。它讓你易于可視化位置數(shù)據(jù),不需要任何編程。CartoDB可以管理眾多的數(shù)據(jù)文件和類(lèi)型,甚至還有供你搗鼓的示例數(shù)據(jù)集(https://cartodb.com/data#/data-library),以便逐漸了解。
如果你有位置數(shù)據(jù),CartoDB絕對(duì)值得關(guān)注。它也許不是用起來(lái)最容易的系統(tǒng),但一旦你掌握了用法,它功能異常強(qiáng)大。它提供了企業(yè)軟件包,支持項(xiàng)目協(xié)作和受控制的訪(fǎng)問(wèn)。
入門(mén):它有一個(gè)龐大的說(shuō)明文檔庫(kù)(http://docs.cartodb.com),可以幫助你成為圖形方面的專(zhuān)家。
Chartio
Chartio讓你可以在瀏覽器里面合并數(shù)據(jù)源、執(zhí)行查詢(xún)。只要點(diǎn)擊幾下,你就可以創(chuàng)建強(qiáng)大的儀表板。Chartio的可視化查詢(xún)語(yǔ)言讓任何人都能從任何地方獲取數(shù)據(jù),沒(méi)必要知道SQL或其他復(fù)雜的模型語(yǔ)言。它還讓你可以調(diào)度安排PDF報(bào)告,那樣你可以導(dǎo)出儀表板,并以PDF文件的格式通過(guò)郵件發(fā)給你想發(fā)送的任何人。
Chartio的另一個(gè)優(yōu)點(diǎn)是,它常常不需要數(shù)據(jù)倉(cāng)庫(kù)。這意味著,可以更迅速地搭建并運(yùn)行起來(lái);實(shí)施成本會(huì)更低、更易于預(yù)測(cè)。
入門(mén):可以看看Chartio教程(https://support.chartio.com),即可上手。
Plot.ly
如果你想制作圖形,Plot.ly是不二的選擇。這個(gè)使用方便的平臺(tái)讓你可以制作效果出眾的2D和3D圖形(你確實(shí)需要眼見(jiàn)為實(shí)!)。同樣根本不需要編程知識(shí)。
免費(fèi)版讓你可以創(chuàng)建專(zhuān)有圖形和無(wú)限制的公共圖形,你還可以升級(jí)到企業(yè)軟件包,制作無(wú)限制的專(zhuān)有和公共圖形,另外還有這個(gè)選項(xiàng):Vector導(dǎo)出和保存自定義主題。
入門(mén):你可以在Plotly的全面教程(http://help.plot.ly)中找到入門(mén)所需的各個(gè)資源。
Datawrapper
我們介紹的最后一款可視化工具是Datawrapper。它是一款開(kāi)源工具,可在幾分鐘內(nèi)創(chuàng)建嵌入式圖形。由于是開(kāi)源,它會(huì)不斷完善,因?yàn)槿魏稳硕伎梢詾樗暙I(xiàn)代碼。它有一個(gè)出色的圖形庫(kù),你可以看看別人用Datawrapper能制作出什么樣的圖形。
類(lèi)似這部分介紹的其他許多公司,它既有免費(fèi)工具,也有收費(fèi)工具,提供這一收費(fèi)選項(xiàng):預(yù)先安裝、定制的Datawrapper軟件包。
入門(mén):查看出色的教程(http://docs.datawrapper.de/tutorial/),即可入門(mén)。
數(shù)據(jù)整合
數(shù)據(jù)整合平臺(tái)如同每個(gè)程序之間的粘合劑。如果你想把使用Import.io提取的數(shù)據(jù)與推特整合起來(lái),或者想在Facebook上自動(dòng)共享之前用Tableau或Silk制作的可視化圖形,那么下列整合服務(wù)正是你所需要的工具。
Blockspring
Blockspring是一種獨(dú)特的程序,其獨(dú)特之處在于,它可以利用Excel和Google Sheets等熟悉平臺(tái)中的IFTTT和Zapier等服務(wù)的所有功能。你可以連接到一整批第三方程序,只要編寫(xiě)一個(gè)Google Sheet公式。你可以從電子表格發(fā)布推特消息,查看你的關(guān)注者在關(guān)注誰(shuí),并且連接到AWS、Import.io 和Tableau等。
Blockspring可免費(fèi)使用,但也有企業(yè)軟件包,讓你可以創(chuàng)建和共享專(zhuān)有功能、添加自定義標(biāo)記以便搜索和發(fā)現(xiàn),并且為你的整個(gè)企業(yè)同時(shí)設(shè)置API令牌。
入門(mén):Blockspring有一些很詳細(xì)的幫助說(shuō)明文檔(http://docs.datawrapper.de/tutorial/),幫助你盡快上手。
Pentaho
Pentaho提供大數(shù)據(jù)整合功能,不需要編程知識(shí)。使用一個(gè)簡(jiǎn)單的拖放式用戶(hù)界面,你就可以整合許多工具,基本上不需要編程。它還提供嵌入式分析和業(yè)務(wù)分析服務(wù)。
Pentaho是一款企業(yè)解決方案。你可以要求免費(fèi)試用其數(shù)據(jù)整合產(chǎn)品,到期后需要付費(fèi)。
入門(mén):你可以查看幫助說(shuō)明文檔(https://support.pentaho.com/hc/en-us),更深入地了解它是如何工作的。
數(shù)據(jù)語(yǔ)言
在你的數(shù)據(jù)職業(yè)生涯中,有時(shí)一款工具根本無(wú)濟(jì)于事。雖然如今的工具變得功能更強(qiáng)大、更易于使用,但有時(shí)自行編程來(lái)得更好。即便你不是程序員,了解這些語(yǔ)言工作原理方面的基本知識(shí)還是讓你更清楚地知道許多這些工具是如何工作的、如何才能最有效地使用它們。
R
R是一種面向統(tǒng)計(jì)計(jì)算和圖形的語(yǔ)言。如果上述數(shù)據(jù)挖掘和統(tǒng)計(jì)軟件無(wú)法處理你想處理的任務(wù),學(xué)習(xí)R是出路。實(shí)際上,如果你打算成為數(shù)據(jù)科學(xué)家,那就需要熟悉R。
它可以在Linux、Windows和MacOS上運(yùn)行,你可以在此頁(yè)面(https://www.r-project.org)下載R。有一個(gè)龐大的社區(qū),如今許多統(tǒng)計(jì)人員使用R,它的人氣一直在飆升。
入門(mén):一旦下載完畢,你可以查看說(shuō)明文檔(https://cran.r-project.org/manuals.html)。
Python
在數(shù)據(jù)社區(qū)人氣越來(lái)越旺的另一種語(yǔ)言就是Python。該語(yǔ)言于80年代問(wèn)世,以《蒙提派森之飛行馬戲團(tuán)》(Monty Python’s Flying Circus)命名,它一向躋身于全球最受歡迎的十大編程語(yǔ)言榜單。如果數(shù)據(jù)收集工具未能獲得所需的數(shù)據(jù),許多新聞?dòng)浾呤褂肞ython編寫(xiě)自定義抓取器。人們喜歡它,是由于它與英語(yǔ)很相似。它使用“if”和“in”之類(lèi)的單詞,這意味著腳本閱讀起來(lái)很輕松。它提供了為不同類(lèi)型的任務(wù)設(shè)計(jì)的一系列廣泛的庫(kù)(https://pypi.python.org/pypi)。
入門(mén):訪(fǎng)問(wèn)主頁(yè)(https://www.python.org),即可進(jìn)一步了解Python。
RegEx
RegEx(正則表達(dá)式)是一套可處理和更改數(shù)據(jù)的字符。它主要用于將模式與字符串匹配,或字符串匹配。在Import.io,你可以在提取數(shù)據(jù)的同時(shí)使用RegEx,刪除字符串的一部分,或者保留字符串的某些部分。
處理數(shù)據(jù)提取工作時(shí),它是一種很有用的工具,因?yàn)槟阍谔崛?shù)據(jù)可以獲得所需的那部分?jǐn)?shù)據(jù),這意味著你沒(méi)必要依賴(lài)上述那些數(shù)據(jù)處理公司!
入門(mén):網(wǎng)上有許多關(guān)于RegEx的很棒的教程(http://www.regexr.com)。
XPath
XPath是一種查詢(xún)語(yǔ)言,用于從XML文檔選擇某些節(jié)點(diǎn)。RegEx處理和更改數(shù)據(jù)標(biāo)記,而XPath會(huì)提取準(zhǔn)備用于RegEx的原始數(shù)據(jù)。
XPath最常用于數(shù)據(jù)提取。每當(dāng)你點(diǎn)擊某個(gè)數(shù)據(jù),Import.io實(shí)際上自動(dòng)創(chuàng)建XPath――你根本看不到它們!還可以插入你自己的XPath,從下拉式菜單獲取數(shù)據(jù)以及網(wǎng)頁(yè)上標(biāo)簽頁(yè)里面的數(shù)據(jù)。簡(jiǎn)而言之,XPath是個(gè)路徑,它為網(wǎng)頁(yè)HTML的某個(gè)部分指明了方向。
入門(mén):最佳的XPath教程是w3schools教程(http://www.regexr.com)。
數(shù)據(jù)收集
在你存儲(chǔ)、分析或可視化數(shù)據(jù)之前,你得收集一些數(shù)據(jù)。數(shù)據(jù)提取就是拿來(lái)結(jié)構(gòu)化數(shù)據(jù)(比如網(wǎng)頁(yè)),然后將它轉(zhuǎn)換成結(jié)構(gòu)化表。一旦你有了結(jié)構(gòu)化數(shù)據(jù),就能以各種方式來(lái)處理,使用我們提到的這些工具,找到洞察力。
Import.io
Import.io是用于提取數(shù)據(jù)的頭號(hào)工具。使用很簡(jiǎn)單的點(diǎn)擊式用戶(hù)界面,我們拿來(lái)網(wǎng)頁(yè)后,可以轉(zhuǎn)換成易于使用的電子表格,然后可以分析、可視化和使用該電子表格,做出數(shù)據(jù)驅(qū)動(dòng)的決策。
除了托管一款免費(fèi)使用的工具外,Import.io還是數(shù)據(jù)提供商。我們?yōu)槊總€(gè)客戶(hù)定制了數(shù)據(jù)集。隨后,這些數(shù)據(jù)定期更新,這意味著貴公司始終獲得的是最新數(shù)據(jù)。
入門(mén):查看我們的知識(shí)庫(kù)(http://support.import.io/knowledgebase),即可了解如何使用該工具,或者聯(lián)系我們的數(shù)據(jù)專(zhuān)家,為貴公司獲得一款定制的數(shù)據(jù)解決方案。
原文標(biāo)題:All the best big data tools and how to use them
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】