自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

九款命令行工具助力Linux環(huán)境下的數(shù)據(jù)分析

作者：核子可樂譯 2017-02-28 08:32:12

系統(tǒng) Linux

大部分此類工具都嚴格局限于Linux，而多數(shù)可同樣運行在Unix甚至是Windows環(huán)境之下。在今天的文章中，我們將嘗試幾款簡單的開源數(shù)據(jù)分析工具，并共同了解它們?nèi)绾芜\作。

【51CTO.com快譯】要對數(shù)據(jù)進行分析，大家會從哪里入手?

對于大多數(shù)熟悉了圖形工作環(huán)境的朋友來說，電子表格工具無疑是第一選項。但命令行工具同樣能夠更快更高效地解決問題——且只須稍微學習即可上手。

大部分此類工具凍嚴格局限于Linux，而多數(shù)可同樣運行在Unix甚至是Windows環(huán)境之下。在今天的文章中，我們將嘗試幾款簡單的開源數(shù)據(jù)分析工具，并共同了解其如何運作。

一、head與tail

首先，讓我們先從文件處理開始。文件中有什么內(nèi)容?其格式如何?大家可以使用cat命令在終端中顯示文件，但其顯然不適合處理內(nèi)容較長的文件。

輸入head與tail，二者能夠完整顯示文件中的指定行數(shù)內(nèi)容。如果大家未指定行數(shù)，則默認顯示其中10行。

$ tail -n 3 jan2017articles.csv  
02 Jan 2017,Article,Scott Nesbitt,3 tips for effectively using wikis for documentation,1,/article/17/1/tips-using-wiki-documentation,"Documentation, Wiki",710  
02 Jan 2017,Article,Jen Wike Huger,The Opensource.com preview for January,0,/article/17/1/editorial-preview-january,,358  
02 Jan 2017,Poll,Jason Baker,What is your open source New Year's resolution?,1,/poll/17/1/what-your-open-source-new-years-resolution,,186

在最后三行中，我能夠找到日期、作者姓名、標題以及其他一些信息。不過由于缺少列頭，我不清楚各列的具體含義。下面查看各列的具體標題：

$ head -n 1 jan2017articles.csv  
Post date,Content type,Author,Title,Comment count,Path,Tags,Word count

現(xiàn)在一切都非常明確，我們可以看到發(fā)布日期、內(nèi)容類型、作者、標題、提交次數(shù)、相關(guān)URL、各文章標簽以及字數(shù)。

二、wc

但如果需要分析數(shù)百甚至上千篇文章，又該如何處理?這里就要使用wc命令了——其為“字數(shù)”一詞的縮寫。wc能夠?qū)ξ募淖止?jié)、字符、單詞或者行數(shù)進行計數(shù)。在本示例中，我們希望了解文章中的行數(shù)。

$ wc -l jan2017articles.csv 93 jan2017articles.csv

本文件共有93行，考慮到第一行中包含文件標題，因此可以推測此文件是一份包含92篇文章的列表。

三、grep

下面提出新的問題：其中有多少篇文章與安全話題有關(guān)?為了實現(xiàn)目標，我們假定需要的文章會在標題、標簽或者其他位置提到安全這一字眼。這時，grep工具可用于通過特定字符搜索文件或者實現(xiàn)其他搜索模式。這是一款極為強大的工具，因為我們甚至能夠利用正則表達式建立極為精確的匹配模式。不過這里，我們只需要尋找一條簡單的字符串。

$ grep -i "security" jan2017articles.csv  
30 Jan 2017,Article,Tiberius Hefflin,4 ways to improve your security online right now,3,/article/17/1/4-ways-improve-your-online-security,Security and encryption,1242  
28 Jan 2017,Article,Subhashish Panigrahi,How communities in India support privacy and software freedom,0,/article/17/1/how-communities-india-support-privacy-software-freedom,Security and encryption,453  
27 Jan 2017,Article,Alan Smithee,Data Privacy Day 2017: Solutions for everyday privacy,5,/article/17/1/every-day-privacy,"Big data, Security and encryption",1424  
04 Jan 2017,Article,Daniel J Walsh,50 ways to avoid getting hacked in 2017,14,/article/17/1/yearbook-50-ways-avoid-getting-hacked,"Yearbook, 2016 Open Source Yearbook, Security and encryption, Containers, Docker, Linux",2143

我們使用的格式為grep加-i標記(告知grep不區(qū)分大小寫)，再加我們希望搜索的模式，最后是我們所搜索的目標文件的位置。最后我們找到了4篇安全相關(guān)文章。如果搜索的范圍更加具體，我們可以使用pipe——它能夠?qū)rep同wc命令加以結(jié)合，用以了解其中有多少行提到了安全內(nèi)容。

$ grep -i "security" jan2017articles.csv | wc -l 4

這樣，wc會提取grep命令的輸出結(jié)果并將其作為輸入內(nèi)容。很明顯，這種結(jié)合再加上一點shell腳本，終端將立即變成一款強大的數(shù)據(jù)分析工具。

四、tr

在多數(shù)分析場景下，我們都會面對CSV文件——但我們該如何將其轉(zhuǎn)換為其他格式以實現(xiàn)不同應(yīng)用方式?這里，我們將其轉(zhuǎn)化為HTML形式以通過表格進行數(shù)據(jù)使用。tr命令可幫助大家實現(xiàn)這一目標，它可將一類字符轉(zhuǎn)化為另一類。同樣的，大家也可以配合pipe命令實現(xiàn)輸出/輸入對接。

下面，我們試試另一個多部分示例，即創(chuàng)建一個TSV(即制表符分隔值)文件，其中只包含發(fā)表于1月20日的文章。

$ grep "20 Jan 2017" jan2017articles.csv | tr ',' '\t' > jan20only.tsv

首先，我們利用grep進行日期查詢。我們將此結(jié)果pipe至tr命令，并利用后者將全部逗號替換為tab(表示為‘\t’)。但結(jié)果去哪了?這里我們使用〉字符將結(jié)果輸出為新文件而非屏幕結(jié)果。如此一來，我們可以dqywjan20only.tsv文件中一定包含預期的數(shù)據(jù)。

$ cat jan20only.tsv 20 Jan 2017 Article Kushal Das 5 ways to expand your project's contributor base 2 /article/17/1/expand-project-contributor-base Getting started 690 20 Jan 2017 Article D Ruth Bavousett How to write web apps in R with Shiny 2 /article/17/1/writing-new-web-apps-shiny Web development 218 20 Jan 2017 Article Jason Baker "Top 5: Shell scripting the Cinnamon Linux desktop environment and more" 0 /article/17/1/top-5-january-20 Top 5 214 20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

五、sort

如果我們先要找到包含信息最多的特定列，又該如何操作?假設(shè)我們需要了解哪篇文章包含最長的新文章列表，那么面對之前得出的1月20日文章列表，我們可以使用sort命令對列字數(shù)進行排序。在這種情況下，我們并不需要使用中間文件，而可以繼續(xù)使用pipe。不過將長命令鏈拆分成較短的部分往往能夠簡化整個操作過程。

$ sort -nr -t$'\t' -k8 jan20only.tsv | head -n 1  
20 Jan 2017 Article Tracy Miranda How is your community promoting diversity? 1 /article/17/1/take-action-diversity-tech Diversity and inclusion 1007

以上是一條長命令，我們嘗試進行拆分。首先，我們使用sort命令對字數(shù)進行排序。-nr選項告知sort以數(shù)字排序，并將結(jié)果進行反向排序(由大到小)。此后的-t$'\t'則告知sort其中的分隔符為tab(‘\t’)。其中的$要求此shell為一條需要處理的字符串，并將\n返回為tab。而-k8部分則告知sort命令使用第八列，即本示例中進行字數(shù)統(tǒng)計的目標列。

最后，輸出結(jié)果被pipe至head，處理后在結(jié)果中顯示此文件中包含最多字數(shù)的文章標題。

六、sed

大家可能還需要在文件中選擇特定某行。這里可以使用sed。如果希望將全部包含標題的多個文件加以合并，并只為整體文件顯示一組標題，即需要清除額外內(nèi)容；或者希望只提取特定行范圍，同樣可以使用sed。另外，sed還能夠很好地完成批量查找與替換任務(wù)。

下面立足之前的文章列表創(chuàng)建一個不含標題的新文件，用于同其他文件合并(例如我們每月都會定期生成某個文件，現(xiàn)在需要將各個月份的內(nèi)容進行合并)。

$ sed '1 d' jan2017articles.csv > jan17no_headers.csv

其中的“1 d”選項要求sed刪除第一行。

七、cut

了解了如何刪除行，那么我們該如何刪除列?或者說如何只選定某一列?下面我們嘗試為之前生成的列表創(chuàng)建一份新的作者清單。

$ cut -d',' -f3 jan17no_headers.csv > authors.txt

在這里，通過cut與-d相配合代表著我們需要第三列(-f3)，并將結(jié)果發(fā)送至名為authors.txt的新文件。

八、uniq

作者清單已經(jīng)完成，但我們要如何知悉其中包含多少位不同的作者?每位作者又各自編寫了多少篇文章?這里使用uniq。下面我們對文件進行sort排序，找到唯一值，而后計算每位作者的文章數(shù)量，并用結(jié)果替換原本內(nèi)容。

sort authors.txt | uniq -c > authors.txt

現(xiàn)在已經(jīng)可以看到每位作者的對應(yīng)文章數(shù)，下面檢查最后三行以確保結(jié)果正確。

$ tail -n3 authors-sorted.txt  
1 Tracy Miranda 
1 Veer Muchandi 
3 VM (Vicky) Brasseur

九、awk

最后讓我們了解最后一款工具，awk。awk是一款出色的替換性工具，當然其功能遠不止如此。下面我們重新回歸1月12日文章列表TSV文件，利用awk創(chuàng)建新列表以標明各篇文章的作者以及各作者編寫的具體字數(shù)。

$ awk -F "\t" '{print $3 " " $NF}' jan20only.tsv  
Kushal Das 690  
D Ruth Bavousett 218  
Jason Baker 214  
Tracy Miranda 1007

其中的-F "\t"用于告知awk目前處理的是由tab分隔的數(shù)據(jù)。在大括號內(nèi)，我們?yōu)閍wk提供執(zhí)行代碼。$3代表要求其將輸出第三行，而$NF則代表輸出最后一行(即‘字段數(shù)’的縮寫)，并在兩項結(jié)果間添加兩個空格以進行明確劃分。

雖然這里列舉的例子規(guī)模較小，看似不必使用上述工具解決，但如果將范圍擴大到包含93000行的文件，那么它顯然很難利用電子表格程序進行處理。

利用這些簡單的工具與小型腳本，大家可以避免使用數(shù)據(jù)庫工具并輕松完成大量數(shù)據(jù)統(tǒng)計工作。無論您是專業(yè)人士還是業(yè)余愛好者，它的作用都不容忽視。

原文標題：9command-line tools for data analysis in Linux，作者：Jason Baker

【51CTO譯稿，合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責任編輯：武曉燕來源： 51CTO.com

Linux 數(shù)據(jù)分析工具

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<dfn id="je84a"></dfn>

<tt id="je84a"><option id="je84a"><dfn id="je84a"></dfn></option></tt>