自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="uu2kj"></ruby>

<cite id="uu2kj"><track id="uu2kj"></track></cite>

^{<blockquote id="uu2kj"></blockquote>}

<cite id="uu2kj"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

數(shù)據(jù)科學家必備！12個基本命令行工具幫你擺脫鼠標

作者：文摘菌 2018-04-19 06:09:11

系統(tǒng) 其他OS

本篇文章簡要介紹了12種類Unix操作系統(tǒng)命令行工具，以及這些命令行工具對數(shù)據(jù)科學研究和數(shù)據(jù)科學家的價值。

命令行工具

大數(shù)據(jù)文摘作品

編譯：汪小七、Katrine Ren、夏雅薇

本篇文章作者是Matthew Mayo，選自KDnuggets(一個著名的數(shù)據(jù)挖掘網(wǎng)站)。簡要介紹了12種類Unix操作系統(tǒng)命令行工具，以及這些命令行工具對數(shù)據(jù)科學研究和數(shù)據(jù)科學家的價值。

這篇文章概述了十二個可以用于數(shù)據(jù)科學項目的類Unix操作系統(tǒng)命令行工具。

這一系列工具不包括任何基本的文件管理命令(pwd、ls、mkdir、rm……)和遠程桌面管理工具(rsh、ssh……)，但是從數(shù)據(jù)科學角度來看，這些命令行工具都是比較實用的，通常用來進行不同程度的數(shù)據(jù)檢驗和數(shù)據(jù)處理。

這一系列命令行工具都包含在一種特殊的類Unix操作系統(tǒng)中。

這些固然都是最基礎(chǔ)的操作命令，但我還是鼓勵你針對某些命令行自行查找更多的應用實例。

在本文中，工具名都可以直接鏈接到維基百科詞條，而不是Linux的使用手冊頁面，我覺得前者對于新手來說更友好一點。

Linux的使用手冊頁面：https://linux.die.net/man/

1. wget

wget是一個文件檢索工具，用于從遠程位置下載文件，其下載遠程文件的基本用法如下：

wget：https://en.wikipedia.org/wiki/wget

~$ wget https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv 
--2018-03-20 18:27:21--  https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv 
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.20.133 
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.20.133|:443... connected. 
HTTP request sent, awaiting response... 200 OK 
Length: 3716 (3.6K) [text/plain] 
Saving to: ‘iris.csv’ 
iris.csv 
100 [=======================================================================================================>]   3.63K  --.-KB/s    in 0s      
2018-03-20 18:27:21 (19.9 MB/s) - ‘iris.csv’ saved [3716/3716]

2. cat

cat是將文件內(nèi)容標準輸出的工具，此名稱來自連接(concatenate)這個詞。它可以用于實現(xiàn)一些較復雜的文件處理，包括將文件合并在一起(也就是真正的文件連接)、將文件追加到另一個文件中、以及給文件行編號等功能。

cat：https://en.wikipedia.org/wiki/Cat_(Unix)

~$ cat iris.csv 
sepal_length,sepal_width,petal_length,petal_width,species 
5.1,3.5,1.4,0.2,setosa 
4.9,3,1.4,0.2,setosa 
4.7,3.2,1.3,0.2,setosa 
4.6,3.1,1.5,0.2,setosa 
5,3.6,1.4,0.2,setosa 
... 
6.7,3,5.2,2.3,virginica 
6.3,2.5,5,1.9,virginica 
6.5,3,5.2,2,virginica 
6.2,3.4,5.4,2.3,virginica 
5.9,3,5.1,1.8,virginica

3. wc

wc命令用于生成字數(shù)統(tǒng)計、行計數(shù)、字節(jié)計數(shù)以及與文本文件相關(guān)的內(nèi)容。在沒有設(shè)置其他選項的情況下，wc的默認輸出是一行，由左到右依次是行數(shù)、字數(shù)統(tǒng)計(注意：每一行上沒有空格中斷的單個字符串被算作一個單詞)、字符計數(shù)和文件名。

wc：https://en.wikipedia.org/wiki/Wc_(Unix)

~$ wc iris.cs 
151  151 3716 iris.csv

4. head

head命令是標準地輸出文件的前n行(默認為10行)，顯示行數(shù)可以用-n項設(shè)置，如下。

Head：https://en.wikipedia.org/wiki/Head_(Unix)

~$ head -n 5 iris.csv 
sepal_length,sepal_width,petal_length,petal_width,species 
5.1,3.5,1.4,0.2,setosa 
4.9,3,1.4,0.2,setosa 
4.7,3.2,1.3,0.2,setosa 
4.6,3.1,1.5,0.2,setosa

5. tail

接下來猜猜看tail是用來實現(xiàn)什么功能的?

tail：https://en.wikipedia.org/wiki/Tail_(Unix)

~$ tail -n 5 iris.csv 
6.7,3,5.2,2.3,virginica 
6.3,2.5,5,1.9,virginica 
6.5,3,5.2,2,virginica 
6.2,3.4,5.4,2.3,virginica 
5.9,3,5.1,1.8,virginica

6. find

find是用于搜索特定文件的文件系統(tǒng)工具。以下命令就是在樹結(jié)構(gòu)中搜索特殊文件的例子，即從當前目錄(“.”)開始，搜索以“iris”開頭，并以任意字符結(jié)尾，類型為普通文件類型(“-type f”)的文件:

find：https://en.wikipedia.org/wiki/Find_(Unix)

~$ find . -name 'iris*' -type f 
./iris.csv 
./notebooks/kmeans-sharding-init/sharding/tests/results/iris_time_results.csv 
./notebooks/ml-workflows-python-scratch/iris_raw.csv 
./notebooks/ml-workflows-python-scratch/iris_clean.csv 
...

7. cut

cut命令用于文本分割，雖然cut用于分割文本可以在各種標準下進行，但是它對于CSV文件中列數(shù)據(jù)的提取尤其有用。以下命令即為輸出使用逗號分隔符("-d ','")的iris.csv文件的第五列(“- f 5”):

cut：https://en.wikipedia.org/wiki/Cut_(Unix)

~$ cut -d ',' -f 5 iris.csv 
species 
setosa 
setosa 
setosa 
...

8. uniq

uniq是通過將文本中的重復行進行去重，從而將文本輸出標準化的工具。就其本身而言，這似乎并沒多大用處，但是當其用于構(gòu)建pipelines時(將一個命令的輸出連接到另一個命令的輸入等等)將變得非常有用。

uniq：https://en.wikipedia.org/wiki/Uniq

以下命令結(jié)果是iris數(shù)據(jù)集的第五列中包含的不同類別及其計數(shù):

~$ tail -n 150 iris.csv | cut -d "," -f 5 | uniq -c 
50 setosa 
50 versicolor 
50 virginica

奶牛說了什么

9. awk

awk實際上不是一個"命令",而是一套完整的編程語言。它用于處理和提取文本, 且可以從命令行中以單行命令的形式調(diào)用。

awk：https://en.wikipedia.org/wiki/AWK

完全掌握awk是需要一些時間的，但在此之前，這里有一個可以練習的例子。考慮到樣本文件iris.csv相當有限的文本多樣性，以下這行命令就可以調(diào)用awk，在給定的文件(“iris.csv”)中搜索字符串“setosa”，并將所有項(在$0變量中保存的)一個一個地標準輸出如下:

~$ awk '/setosa/ { print $0 }' iris.csv 
5.1,3.5,1.4,0.2,setosa 
4.9,3,1.4,0.2,setosa 
4.7,3.2,1.3,0.2,setosa 
4.6,3.1,1.5,0.2,setosa 
5,3.6,1.4,0.2,setosa

10. grep

grep是另一種文本處理工具，用來查找匹配字符串和正則表達式。

grep：https://en.wikipedia.org/wiki/Grep

~$ grep -i "vir" iris.csv 
6.3,3.3,6,2.5,virginica 
5.8,2.7,5.1,1.9,virginica 
7.1,3,5.9,2.1,virginica 
...

當你需要花大量的時間進行文本處理時，grep無疑是你需要掌握的一個好工具，更多有用的信息請參考網(wǎng)站：

https://www.thegeekstuff.com/2009/03/15-practical-unix-grep-command-examples。

11. sed

sed是一個流編輯器，也是一個文本處理和轉(zhuǎn)換工具，類似于awk。下面我們將用此命令把iris.csv文件中的“setosa”改為“irissetosa”:

sed：https://en.wikipedia.org/wiki/Sed

~$ sed 's/setosa/iris-setosa/g' iris.csv > output.csv 
~$ head output.csv 
sepal_length,sepal_width,petal_length,petal_width,species 
5.1,3.5,1.4,0.2,iris-setosa 
4.9,3,1.4,0.2,iris-setosa 
4.7,3.2,1.3,0.2,iris-setosa 
...

12. history

history非常簡單，但也非常有用，特別是當你需要用命令語句來完成一些重復性的數(shù)據(jù)準備工作時。

History：https://en.wikipedia.org/wiki/History_(Unix)

~$ history547  tail iris.csv 
548  tail -n 150 iris.csv 
549  tail -n 150 iris.csv | cut -d "," -f 5 | uniq -c 
550  clear 
551  history

至此，這篇文章已經(jīng)對這12個方便的命令行工具都進行了簡單的介紹，這只是對數(shù)據(jù)科學(或其他任何目標)可能用到的命令行工具的一種粗淺的體驗。現(xiàn)在，是時候讓它們把你的生產(chǎn)力從鼠標中解放出來了。

原文鏈接：

https://www.kdnuggets.com/2018/03/top-12-essential-command-line-tools-data-scientists.html

【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文，微信公眾號“大數(shù)據(jù)文摘（ id: BigDataDigest）”】

戳這里，看該作者更多好文

責任編輯：趙寧寧來源： 51CTO專欄

命令行工具操作系統(tǒng)Linux

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="xug1y"><p id="xug1y"></p></sub>

<p id="xug1y"></p>