自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數(shù)據(jù)清洗工具

大數(shù)據(jù)
在進行數(shù)據(jù)分析和可視化之前,經(jīng)常需要先“清洗”數(shù)據(jù)。這意味著什么?可能有些詞條列表里是“New York City”,而其他人寫成“New York, NY”。然而,你在看到某些模式前得將各種各樣的輸入詞匯標(biāo)準(zhǔn)化。又或者,出現(xiàn)一些數(shù)值輸入錯誤,錯別字什么的。

有很多工具都可以實現(xiàn)你想要的功能,但大多都是付費的。對于專業(yè)人士來說,這些成本是值得的,但對于時不時才使用的業(yè)余人士來說,未免有些浪費。下面介紹的兩個工具最偉大的地方就是——它們是免費的!

DataWrangler

它是做什么的:這個基于網(wǎng)絡(luò)的服務(wù)是斯坦福大學(xué)的可視化組設(shè)計來清洗和重排數(shù)據(jù)的,因此,它的格式適用于電子表格等應(yīng)用程序。

點擊一行或一列,DataWrangler會有修改的建議。例如,你點擊了一行空行,一些建議就出彈出來,像“刪除行”或“刪除空行”等。

同時,DataWrangler有一個歷史記錄,允許你很容易地實現(xiàn)撤消功能。

優(yōu)點:文本編輯非常簡單。例如,當(dāng)我選擇大標(biāo)題為“Reported crime in Alabama”的樣本數(shù)據(jù)的某行的“Alabama”,然后選擇另一組數(shù)據(jù)的“Alaska”,它會建議提取每州的名字。把鼠標(biāo)停留在建議上,就可以看到用紅色突出顯示的行。

缺點:我發(fā)現(xiàn)當(dāng)我試圖探索DataWrangler的選項時會發(fā)生一些預(yù)料之外的變化。我不得不經(jīng)常點擊“清空”進行重設(shè)。還有,有的建議是沒用的(當(dāng)某行是空行的時候,“把行提到標(biāo)題行”似乎是個奇怪的建議),還有,有的建議很難理解("fold split 1 using 2 as key")。

DataWrangler是基于網(wǎng)絡(luò)的服務(wù),非常方便使用。但不要忘記,代價是必須把數(shù)據(jù)上傳到外部網(wǎng)站。也就是說,對于敏感的內(nèi)部數(shù)據(jù),DataWrangler就不是合適的選擇了。不過,未來會有獨立的桌面版本。另一個必須考慮的事情是,DataWrangler是用現(xiàn)行的alpha碼編寫的,它的創(chuàng)建者說它(alpha碼)還在改進中。

技能水平:高級新手

運行環(huán)境:任何網(wǎng)絡(luò)瀏覽器

Google Refine

它是做什么的:第一眼看Google Refine的文本和數(shù)字時,可以將它描述為電子表格。像Excel一樣,它可以導(dǎo)入導(dǎo)出多種格式的數(shù)據(jù),如標(biāo)簽或逗號分隔的文本文件、Excel、XML和JSON文件。

Refine設(shè)有內(nèi)置算法,可以發(fā)現(xiàn)一些拼寫不一樣但實際上應(yīng)分為一組的文本。導(dǎo)入你的數(shù)據(jù)后,選擇編輯單元格->聚類,編輯,然后選擇要用的算法。

Refine運行后,你得決定接受或不接受每條建議。例如,你可以同意將Microsoft和Microsoft Inc作為同個組合,但不同意將Coach Inc 和CQG Inc作為同個組合。假如它提供太少或太多的建議,你可以更改建議功能的強度。

還有數(shù)據(jù)選項,提供快速簡單的數(shù)據(jù)分布概貌。這個功能可以揭示那些可能由于輸入錯誤導(dǎo)致的異常——例如,工資記錄不是80,000美元而竟然是800,000美元;或指出不一致的地方——例如薪酬數(shù)據(jù)記錄之間的差異,有的是計時工資,有的是每周支付,有的是年薪。

除了數(shù)據(jù)管家功能,Google Refine還提供了一些有用的分析工具,例如排序和篩選。

優(yōu)點:一旦熟悉Refine的命令和功能,它將是一個強大的數(shù)據(jù)處理和分析工具,既功能強大又易用。每個操作的撤消/重做列表讓你隨時回到想要的狀態(tài)。文本編輯應(yīng)用Java正則表達式,允許你查找模式(例如,3個數(shù)字后跟著兩個數(shù)位)或特定的字符串或數(shù)值。

最后,雖然Refine是一個基于瀏覽器的應(yīng)用程序,但適用于桌面文件,因此你的數(shù)據(jù)可以保留在本地。

缺點:盡管Refine看起來像電子表格,但你無法用它實現(xiàn)典型的電子表格計算。因此,你必須將數(shù)據(jù)導(dǎo)出到常見的電子表格應(yīng)用。如果你的數(shù)據(jù)集很大,得留出一些時間仔細檢查Refine的建議,這需要好些時間。還有,這點因數(shù)據(jù)集而異,當(dāng)你準(zhǔn)備合并一些文本項時,很有可能會得到一些錯的建議或忽略一些問題——或兩者兼有。

技能水平:高級新手。

運行環(huán)境:Windows、Mac OS、Linux

原文鏈接:http://www.civn.cn/p/3262.html

責(zé)任編輯:彭凡 來源: 中文信息可視化社區(qū)
相關(guān)推薦

2013-05-07 14:56:27

大數(shù)據(jù)應(yīng)用工具數(shù)據(jù)中心網(wǎng)絡(luò)

2012-09-13 09:52:14

大數(shù)據(jù)數(shù)據(jù)應(yīng)用開源工具

2019-04-08 17:16:43

大數(shù)據(jù)開源工具

2022-09-01 23:34:18

大數(shù)據(jù)數(shù)據(jù)分析工具

2022-08-31 17:01:56

大數(shù)據(jù)工具數(shù)據(jù)治理

2018-04-17 12:58:52

大數(shù)據(jù)工具大數(shù)據(jù)數(shù)據(jù)可視化

2024-10-28 12:57:36

Pandas數(shù)據(jù)清洗

2016-09-19 14:42:12

大數(shù)據(jù)SQLPig

2015-09-08 09:24:26

大數(shù)據(jù)分析采購

2020-07-10 09:49:53

數(shù)據(jù)清理數(shù)據(jù)分析查找異常

2016-09-27 21:35:28

BossiesSparkTensorFlow

2021-04-26 16:52:13

大數(shù)據(jù)SQL

2021-11-30 07:49:00

大數(shù)據(jù)工具 Presto

2013-03-20 16:23:53

數(shù)據(jù)清洗

2020-09-24 22:54:46

大數(shù)據(jù)IT技術(shù)

2023-05-05 19:16:22

Python數(shù)據(jù)清洗

2019-12-31 14:17:17

大數(shù)據(jù)工具開發(fā)

2020-07-22 08:13:22

大數(shù)據(jù)

2015-06-25 13:06:48

大數(shù)據(jù)從選擇到應(yīng)用

2016-10-18 17:46:52

點贊
收藏

51CTO技術(shù)棧公眾號