Linux命令行知識(shí)深似海
如果你有一個(gè)4.2GB的CSV文件,里面有超過1200萬條記錄,每條記錄都有50列?,F(xiàn)在你要做的是把其中某一列的值全加起來。你怎么辦?
這是我最近看到的一篇文章的開頭部分。文章介紹的是如何使用unix命令來分析大體積文件的文章。像我這樣一個(gè)基本上都在Windows平臺(tái)上開發(fā)的程序員,對(duì)他提出的這樣一個(gè)問題,首先出現(xiàn)在腦子里的就是內(nèi)存溢出、CPU達(dá)到100%、跑一個(gè)晚上。而對(duì)于一個(gè)Linux/unix高手來說,這真是小菜一碟,正如文章中介紹的方法,一行命令就完成了這個(gè)任務(wù)。
(假設(shè)文件名叫做data.csv,行數(shù)據(jù)用豎線分割,我們需要總計(jì)其中的第四列。)
cat data.csv | awk -F “|” ‘{ sum += $4 } END { printf “%.2f\n”, sum }’ |
簡潔干凈,而且里面的{ sum += $4 }很有閉包的味道。讓我對(duì)Linux的向往又加深了一層。
我寫這篇博客的目的并不是抒發(fā)對(duì)Linux的感情的,而是重點(diǎn)講一下發(fā)生在這篇文章評(píng)論里的事情。這篇文章吸引了不少Linux愛好者的評(píng)論,而且都是Liunx高手,僅僅是第一條評(píng)論,看了后就讓我驚訝的合不上嘴。
這位叫做California Lotto的網(wǎng)名的評(píng)論是:
如果你認(rèn)為自己是一個(gè)Linux命令行高手,那恭喜你贏得今天的“最沒用的Cat用法”大獎(jiǎng)。你應(yīng)該這樣寫這個(gè)命令:
awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' < data.csv
的確,cat在這里似乎是沒必要的。我首先是佩服,可之后馬上感覺這個(gè)人可真討厭,賣弄。雖然我不喜歡他無視作者寫這片好博文的辛苦,但作為外行人,他和作者一樣都是我高不可及的。
可是當(dāng)我讀第二條評(píng)論時(shí),事情出現(xiàn)了戲劇性的變化,這第二條評(píng)論明顯是真對(duì)第一條評(píng)論的:
如果你認(rèn)為自己是一個(gè)Linux命令行高手,那恭喜你贏得今天的“最沒用的重定向用法”獎(jiǎng)。你應(yīng)該這樣寫這個(gè)命令:
awk -F "|" '{ sum += $4 } END { printf "%.2f\n", sum }' data.csv
正所謂強(qiáng)中自有強(qiáng)中手,一山更比一山高。我突然意識(shí)到,其實(shí)沒必要在這里比誰比誰更強(qiáng),在這個(gè)浩瀚的互聯(lián)網(wǎng)里,永遠(yuǎn)都會(huì)有比你在某方法更出眾的人。這里重要的是探討和參與。通過這種探討,不僅豐富了你我的知識(shí),而且對(duì)問題的解決方案有了更豐富的認(rèn)識(shí)。正像接下來的評(píng)論里繼續(xù)指出,命令行這的重定向符放在什么地方都可以,寫成這樣也是好用的:
<data.csv awk -F “|” ‘{ sum += $4 } END { printf “%.2f\n”, sum }’ |
神奇吧!而接下來繼續(xù)有人指出,作者在實(shí)驗(yàn)時(shí)寫成這樣:
head -1 data.psv | awk -F’|’ ‘{print NF}’ |
實(shí)驗(yàn)成功后直接把head改成cat是順理成章的事。
不管怎樣,這是一篇好文章,這些人都是高手,都是我的老師,不僅教我編程知識(shí),更教我如何做人。