大數(shù)據(jù)清洗工具
有很多工具都可以實現(xiàn)你想要的功能,但大多都是付費的。對于專業(yè)人士來說,這些成本是值得的,但對于時不時才使用的業(yè)余人士來說,未免有些浪費。下面介紹的兩個工具最偉大的地方就是——它們是免費的!
它是做什么的:這個基于網(wǎng)絡(luò)的服務(wù)是斯坦福大學(xué)的可視化組設(shè)計來清洗和重排數(shù)據(jù)的,因此,它的格式適用于電子表格等應(yīng)用程序。
點擊一行或一列,DataWrangler會有修改的建議。例如,你點擊了一行空行,一些建議就出彈出來,像“刪除行”或“刪除空行”等。
同時,DataWrangler有一個歷史記錄,允許你很容易地實現(xiàn)撤消功能。
優(yōu)點:文本編輯非常簡單。例如,當(dāng)我選擇大標(biāo)題為“Reported crime in Alabama”的樣本數(shù)據(jù)的某行的“Alabama”,然后選擇另一組數(shù)據(jù)的“Alaska”,它會建議提取每州的名字。把鼠標(biāo)停留在建議上,就可以看到用紅色突出顯示的行。
缺點:我發(fā)現(xiàn)當(dāng)我試圖探索DataWrangler的選項時會發(fā)生一些預(yù)料之外的變化。我不得不經(jīng)常點擊“清空”進行重設(shè)。還有,有的建議是沒用的(當(dāng)某行是空行的時候,“把行提到標(biāo)題行”似乎是個奇怪的建議),還有,有的建議很難理解("fold split 1 using 2 as key")。
DataWrangler是基于網(wǎng)絡(luò)的服務(wù),非常方便使用。但不要忘記,代價是必須把數(shù)據(jù)上傳到外部網(wǎng)站。也就是說,對于敏感的內(nèi)部數(shù)據(jù),DataWrangler就不是合適的選擇了。不過,未來會有獨立的桌面版本。另一個必須考慮的事情是,DataWrangler是用現(xiàn)行的alpha碼編寫的,它的創(chuàng)建者說它(alpha碼)還在改進中。
技能水平:高級新手
運行環(huán)境:任何網(wǎng)絡(luò)瀏覽器
它是做什么的:第一眼看Google Refine的文本和數(shù)字時,可以將它描述為電子表格。像Excel一樣,它可以導(dǎo)入導(dǎo)出多種格式的數(shù)據(jù),如標(biāo)簽或逗號分隔的文本文件、Excel、XML和JSON文件。
Refine設(shè)有內(nèi)置算法,可以發(fā)現(xiàn)一些拼寫不一樣但實際上應(yīng)分為一組的文本。導(dǎo)入你的數(shù)據(jù)后,選擇編輯單元格->聚類,編輯,然后選擇要用的算法。
Refine運行后,你得決定接受或不接受每條建議。例如,你可以同意將Microsoft和Microsoft Inc作為同個組合,但不同意將Coach Inc 和CQG Inc作為同個組合。假如它提供太少或太多的建議,你可以更改建議功能的強度。
還有數(shù)據(jù)選項,提供快速簡單的數(shù)據(jù)分布概貌。這個功能可以揭示那些可能由于輸入錯誤導(dǎo)致的異常——例如,工資記錄不是80,000美元而竟然是800,000美元;或指出不一致的地方——例如薪酬數(shù)據(jù)記錄之間的差異,有的是計時工資,有的是每周支付,有的是年薪。
除了數(shù)據(jù)管家功能,Google Refine還提供了一些有用的分析工具,例如排序和篩選。
優(yōu)點:一旦熟悉Refine的命令和功能,它將是一個強大的數(shù)據(jù)處理和分析工具,既功能強大又易用。每個操作的撤消/重做列表讓你隨時回到想要的狀態(tài)。文本編輯應(yīng)用Java正則表達式,允許你查找模式(例如,3個數(shù)字后跟著兩個數(shù)位)或特定的字符串或數(shù)值。
最后,雖然Refine是一個基于瀏覽器的應(yīng)用程序,但適用于桌面文件,因此你的數(shù)據(jù)可以保留在本地。
缺點:盡管Refine看起來像電子表格,但你無法用它實現(xiàn)典型的電子表格計算。因此,你必須將數(shù)據(jù)導(dǎo)出到常見的電子表格應(yīng)用。如果你的數(shù)據(jù)集很大,得留出一些時間仔細檢查Refine的建議,這需要好些時間。還有,這點因數(shù)據(jù)集而異,當(dāng)你準(zhǔn)備合并一些文本項時,很有可能會得到一些錯的建議或忽略一些問題——或兩者兼有。
技能水平:高級新手。
運行環(huán)境:Windows、Mac OS、Linux
原文鏈接:http://www.civn.cn/p/3262.html