Perl正則表達(dá)式入門教程
本文和大家主要學(xué)習(xí)一下Perl正則表達(dá)式的概念,Perl正則表達(dá)式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,我們下面會(huì)給予解釋。
Perl正則表達(dá)式
一、什么是Perl正則表達(dá)式
一個(gè)Perl正則表達(dá)式,就是用某種模式去匹配一類字符串的一個(gè)公式。很多人因?yàn)樗鼈兛瓷先ケ容^古怪而且復(fù)雜所以不敢去使用——很不幸,這篇文章也不能夠改變這一點(diǎn),不過,經(jīng)過一點(diǎn)點(diǎn)練習(xí)之后我就開始覺得這些復(fù)雜的表達(dá)式其實(shí)寫起來還是相當(dāng)簡(jiǎn)單的,而且,一旦你弄懂它們,你就能把數(shù)小時(shí)辛苦而且易錯(cuò)的文本處理工作壓縮在幾分鐘(甚至幾秒鐘)內(nèi)完成。Perl正則表達(dá)式被各種文本編輯軟件、類庫(kù)(例如RogueWave的tools.h++)、腳本工具(像awk/grep/sed)廣泛的支持,而且像Microsoft的VisualC++這種交互式IDE也開始支持它了。
我們將在如下的章節(jié)中利用一些例子來解釋Perl正則表達(dá)式的用法,絕大部分的例子是基于vi中的文本替換命令和grep文件搜索命令來書寫的,不過它們都是比較典型的例子,其中的概念可以在sed、awk、perl和其他支持Perl正則表達(dá)式的編程語言中使用。你可以看看不同工具中的Perl正則表達(dá)式這一節(jié),其中有一些在別的工具中使用Perl正則表達(dá)式的例子。還有一個(gè)關(guān)于vi中文本替換命令(s)的簡(jiǎn)單說明附在文后供參考。
二、Perl正則表達(dá)式基礎(chǔ)
Perl正則表達(dá)式由一些普通字符和一些元字符(metacharacters)組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,我們下面會(huì)給予解釋。
在最簡(jiǎn)單的情況下,一個(gè)Perl正則表達(dá)式看上去就是一個(gè)普通的查找串。例如,Perl正則表達(dá)式"testing"中沒有包含任何元字符,,它可以匹配"testing"和"123testing"等字符串,但是不能匹配"Testing"。
要想真正的用好Perl正則表達(dá)式,正確的理解元字符是最重要的事情。下表列出了所有的元字符和對(duì)它們的一個(gè)簡(jiǎn)短的描述。
元字符描述
.
匹配任何單個(gè)字符。例如Perl正則表達(dá)式r.t匹配這些字符串:rat、rut、rt,但是不匹配root。
$
匹配行結(jié)束符。例如Perl正則表達(dá)式weasel$能夠匹配字符串"He'saweasel"的末尾,但是不能匹配字符串"Theyareabunchofweasels."。
^
匹配一行的開始。例如Perl正則表達(dá)式^Whenin能夠匹配字符串"Wheninthecourseofhumanevents"的開始,但是不能匹配"WhatandWheninthe"。
*
匹配0或多個(gè)正好在它之前的那個(gè)字符。例如Perl正則表達(dá)式.*意味著能夠匹配任意數(shù)量的任何字符。
\
這是引用符,用來將這里列出的這些元字符當(dāng)作普通的字符來進(jìn)行匹配。例如Perl正則表達(dá)式\$被用來匹配美元符號(hào),而不是行尾,類似的,Perl正則表達(dá)式\.用來匹配點(diǎn)字符,而不是任何字符的通配符。
[]
[c1-c2]
[^c1-c2]
匹配括號(hào)中的任何一個(gè)字符。例如Perl正則表達(dá)式r[aou]t匹配rat、rot和rut,但是不匹配ret。可以在括號(hào)中使用連字符-來指定字符的區(qū)間,例如Perl正則表達(dá)式[0-9]可以匹配任何數(shù)字字符;還可以制定多個(gè)區(qū)間,例如Perl正則表達(dá)式[A-Za-z]可以匹配任何大小寫字母。另一個(gè)重要的用法是“排除”,要想匹配除了指定區(qū)間之外的字符——也就是所謂的補(bǔ)集——在左邊的括號(hào)和***個(gè)字符之間使用^字符,例如Perl正則表達(dá)式[^269A-Z]將匹配除了2、6、9和所有大寫字母之外的任何字符。
\<\>
匹配詞(word)的開始(\<)和結(jié)束(\>)。例如Perl正則表達(dá)式\
將\(和\)之間的表達(dá)式定義為“組”(group),并且將匹配這個(gè)表達(dá)式的字符保存到一個(gè)臨時(shí)區(qū)域(一個(gè)Perl正則表達(dá)式中最多可以保存9個(gè)),它們可以用到的符號(hào)來引用。
|
將兩個(gè)匹配條件進(jìn)行邏輯“或”(Or)運(yùn)算。例如Perl正則表達(dá)式(him|her)匹配"itbelongstohim"和"itbelongstoher",但是不能匹配"itbelongstothem."。注意:這個(gè)元字符不是所有的軟件都支持的。
+
匹配1或多個(gè)正好在它之前的那個(gè)字符。例如Perl正則表達(dá)式9+匹配9、99、999、98、93dsf、9.....等。注意:這個(gè)元字符不是所有的軟件都支持的。
?
匹配0或1個(gè)正好在它之前的那個(gè)字符。注意:這個(gè)元字符不是所有的軟件都支持的。
\{i\}
\{i,j\}
匹配指定數(shù)目的字符,這些字符是在它之前的表達(dá)式定義的。例如Perl正則表達(dá)式A[0-9]\{3\}能夠匹配字符"A"后面跟著正好3個(gè)數(shù)字字符的串,例如A123、A348等,但是不匹配A1234。而Perl正則表達(dá)式[0-9]\{4,6\}匹配連續(xù)的任意4個(gè)、5個(gè)或者6個(gè)數(shù)字字符。注意:這個(gè)元字符不是所有的軟件都支持的。
最簡(jiǎn)單的元字符是點(diǎn),它能夠匹配任何單個(gè)字符(注意不包括新行符)。假定有個(gè)文件test.txt包含以下幾行內(nèi)容:
heisarat
heisinarut
thefoodisRotten
Ilikerootbeer
我們可以使用grep命令來測(cè)試我們的Perl正則表達(dá)式,grep命令使用Perl正則表達(dá)式去嘗試匹配指定文件的每一行,并將至少有一處匹配表達(dá)式的所有行顯示出來。命令 grepr.ttest.txt
在test.txt文件中的每一行中搜索Perl正則表達(dá)式r.t,并打印輸出匹配的行。Perl正則表達(dá)式r.t匹配一個(gè)r接著任何一個(gè)字符再接著一個(gè)t。所以它將匹配文件中的rat和rut,而不能匹配Rotten中的Rot,因?yàn)镻erl正則表達(dá)式是大小寫敏感的。要想同時(shí)匹配大寫和小寫字母,應(yīng)該使用字符區(qū)間元字符(方括號(hào))。Perl正則表達(dá)式[Rr]能夠同時(shí)匹配R和r。所以,要想匹配一個(gè)大寫或者小寫的r接著任何一個(gè)字符再接著一個(gè)t就要使用這個(gè)表達(dá)式:[Rr].t。
要想匹配行首的字符要使用抑揚(yáng)字符(^)——又是也被叫做插入符。例如,想找到text.txt中行首"he"打頭的行,你可能會(huì)先用簡(jiǎn)單表達(dá)式he,但是這會(huì)匹配第三行的the,所以要使用Perl正則表達(dá)式^he,它只匹配在行首出現(xiàn)的h。
有時(shí)候指定“除了×××都匹配”會(huì)比較容易達(dá)到目的,當(dāng)抑揚(yáng)字符(^)出現(xiàn)在方括號(hào)中是,它表示“排除”,例如要匹配he,但是排除前面是tors的情性(也就是the和she),可以使用:[^st]he。
可以使用方括號(hào)來指定多個(gè)字符區(qū)間。例如Perl正則表達(dá)式[A-Za-z]匹配任何字母,包括大寫和小寫的;Perl正則表達(dá)式[A-Za-z][A-Za-z]*匹配一個(gè)字母后面接著0或者多個(gè)字母(大寫或者小寫)。當(dāng)然我們也可以用元字符+做到同樣的事情,也就是:[A-Za-z]+,和[A-Za-z][A-Za-z]*完全等價(jià)。但是要注意元字符+并不是所有支持Perl正則表達(dá)式的程序都支持的。關(guān)于這一點(diǎn)可以參考后面的Perl正則表達(dá)式語法支持情況。
要指定特定數(shù)量的匹配,要使用大括號(hào)(注意必須使用反斜杠來轉(zhuǎn)義)。想匹配所有100和1000的實(shí)例而排除10和10000,可以使用:10\{2,3\},這個(gè)Perl正則表達(dá)式匹配數(shù)字1后面跟著2或者3個(gè)0的模式。在這個(gè)元字符的使用中一個(gè)有用的變化是忽略第二個(gè)數(shù)字,例如Perl正則表達(dá)式0\{3,\}將匹配至少3個(gè)連續(xù)的0。#p#
簡(jiǎn)單的例子
這里有一些有代表性的、比較簡(jiǎn)單的例子。
vi命令作用
:%s/*//g把一個(gè)或者多個(gè)空格替換為一個(gè)空格。
:%s/*$//去掉行尾的所有空格。
:%s/^//在每一行頭上加入一個(gè)空格。
:%s/^[0-9][0-9]*//去掉行首的所有數(shù)字字符。
:%s/b[aeio]g/bug/g將所有的bag、beg、big和bog改為bug。
:%s/t\([aou]\)g/h$t/g將所有tag、tog和tug分別改為hat、hot和hug(注意用group的用法和使用引用前面被匹配的字符)。
中級(jí)的例子(神奇的咒語)
例1
將所有方法foo(a,b,c)的實(shí)例改為foo(b,a,c)。這里a、b和c可以是任何提供給方法foo()的參數(shù)。也就是說我們要實(shí)現(xiàn)這樣的轉(zhuǎn)換:
之前之后
foo(10,7,2)foo(7,10,2)
foo(x+13,y-2,10)foo(y-2,x+13,10)
foo(bar(8),x+y+z,5)foo(x+y+z,bar(8),5)
下面這條替換命令能夠?qū)崿F(xiàn)這一魔法:
:%s/foo(\([^,]*\),\([^,]*\),\([^)]*\))/foo($2,$1,$3)/g
現(xiàn)在讓我們把它打散來加以分析。寫出這個(gè)表達(dá)式的基本思路是找出foo()和它的括號(hào)中的三個(gè)參數(shù)的位置。***個(gè)參數(shù)是用這個(gè)表達(dá)式來識(shí)別的::\([^,]*\),我們可以從里向外來分析它:
[^,]除了逗號(hào)之外的任何字符
[^,]*0或者多個(gè)非逗號(hào)字符
\([^,]*\)將這些非逗號(hào)字符標(biāo)記為,這樣可以在之后的替換模式表達(dá)式中引用它
\([^,]*\),我們必須找到0或者多個(gè)非逗號(hào)字符后面跟著一個(gè)逗號(hào),并且非逗號(hào)字符那部分要標(biāo)記出來以備后用。
現(xiàn)在正是指出一個(gè)使用Perl正則表達(dá)式常見錯(cuò)誤的最佳時(shí)機(jī)。為什么我們要使用[^,]*這樣的一個(gè)表達(dá)式,而不是更加簡(jiǎn)單直接的寫法,例如:.*,來匹配***個(gè)參數(shù)呢?設(shè)想我們使用模式.*來匹配字符串"10,7,2",它應(yīng)該匹配"10,"還是"10,7,"?為了解決這個(gè)兩義性(ambiguity),Perl正則表達(dá)式規(guī)定一律按照最長(zhǎng)的串來,在上面的例子中就是"10,7,",顯然這樣就找出了兩個(gè)參數(shù)而不是我們期望的一個(gè)。所以,我們要使用[^,]*來強(qiáng)制取出***個(gè)逗號(hào)之前的部分。
這個(gè)表達(dá)式我們已經(jīng)分析到了:foo(\([^,]*\),這一段可以簡(jiǎn)單的翻譯為“當(dāng)你找到foo(就把其后直到***個(gè)逗號(hào)之前的部分標(biāo)記為”。然后我們使用同樣的辦法標(biāo)記第二個(gè)參數(shù)為。對(duì)第三個(gè)參數(shù)的標(biāo)記方法也是一樣,只是我們要搜索所有的字符直到右括號(hào)。我們并沒有必要去搜索第三個(gè)參數(shù),因?yàn)槲覀儾恍枰{(diào)整它的位置,但是這樣的模式能夠保證我們只去替換那些有三個(gè)參數(shù)的foo()方法調(diào)用,在foo()是一個(gè)重載(overoading)方法時(shí)這種明確的模式往往是比較保險(xiǎn)的。然后,在替換部分,我們找到foo()的對(duì)應(yīng)實(shí)例,然后利用標(biāo)記好的部分進(jìn)行替換,是的***和第二個(gè)參數(shù)交換位置。
例2
假設(shè)有一個(gè)CSV(commaseparatedvalue)文件,里面有一些我們需要的信息,但是格式卻有問題,目前數(shù)據(jù)的列順序是:姓名,公司名,州名縮寫,郵政編碼,現(xiàn)在我們希望講這些數(shù)據(jù)重新組織,以便在我們的某個(gè)軟件中使用,需要的格式為:姓名,州名縮寫-郵政編碼,公司名。也就是說,我們要調(diào)整列順序,還要合并兩個(gè)列來構(gòu)成一個(gè)新列。另外,我們的軟件不能接受逗號(hào)前后面有任何空格(包括空格和制表符)所以我們還必須要去掉逗號(hào)前后的所有空格。
這里有幾行我們現(xiàn)在的數(shù)據(jù):
BillJones,HI-TEKCorporation,CA,95011
SharonLeeSmith,DesignWorksIncorporated,CA,95012
B.Amos,HillStreetCafe,CA,95013
AlexanderWeatherworth,TheCraftsStore,CA,95014
...
我們希望把它變成這個(gè)樣子:
BillJones,CA95011,HI-TEKCorporation
SharonLeeSmith,CA95012,DesignWorksIncorporated
B.Amos,CA95013,HillStreetCafe
AlexanderWeatherworth,CA95014,TheCraftsStore
...
我們將用兩個(gè)Perl正則表達(dá)式來解決這個(gè)問題。***個(gè)移動(dòng)列和合并列,第二個(gè)用來去掉空格。
下面就是***個(gè)替換命令:
:%s/\([^,]*\),\([^,]*\),\([^,]*\),\(.*\)/,,/
這里的方法跟例1基本一樣,***個(gè)列(姓名)用這個(gè)表達(dá)式來匹配:\([^,]*\),即***個(gè)逗號(hào)之前的所有字符,而姓名內(nèi)容被用標(biāo)記下來。公司名和州名縮寫字段用同樣的方法標(biāo)記為和,而***一個(gè)字段用\(.*\)來匹配("匹配所有字符直到行末")。替換部分則引用上面標(biāo)記的那些內(nèi)容來進(jìn)行構(gòu)造。
下嬲飧鎏婊幻?鈐蠐美慈コ?嶄瘢?
:%s/[\t]*,[\t]*/,/g
我們還是分解來看:[\t]匹配空格/制表符,[\t]*匹配0或多個(gè)空格/制表符,[\t]*,匹配0或多個(gè)空格/制表符后面再加一個(gè)逗號(hào),***,[\t]*,[\t]*匹配0或多個(gè)空格/制表符接著一個(gè)逗號(hào)再接著0或多個(gè)空格/制表符。在替換部分,我們簡(jiǎn)單的我們找到的所有東西替換成一個(gè)逗號(hào)。這里我們使用了結(jié)尾的可選的g參數(shù),這表示在每行中對(duì)所有匹配的串執(zhí)行替換(而不是缺省的只替換***個(gè)匹配串)。
例3
假設(shè)有一個(gè)多字符的片斷重復(fù)出現(xiàn),例如:
- Billytriedreallyhard
- Sallytriedreallyreallyhard
- Timmytriedreallyreallyreallyhard
- Johnnytriedreallyreallyreallyreallyhard
而你想把"really"、"reallyreally",以及任意數(shù)量連續(xù)出現(xiàn)的"really"字符串換成一個(gè)簡(jiǎn)單的"very"(simpleisgood!),那么以下命令:
:%s/\(really\)\(really\)*/very/
就會(huì)把上述的文本變成:
- Billytriedveryhard
- Sallytriedveryhard
- Timmytriedveryhard
- Johnnytriedveryhard
表達(dá)式\(really\)*匹配0或多個(gè)連續(xù)的"really"(注意結(jié)尾有個(gè)空格),而\(really\)\(really\)*匹配1個(gè)或多個(gè)連續(xù)的"really"實(shí)例。
困難的例子(不可思議的象形文字)
Comingsoon. #p#
不同工具中的Perl正則表達(dá)式
OK,你已經(jīng)準(zhǔn)備使用RE(regularexpressions,Perl正則表達(dá)式),但是你并準(zhǔn)備使用vi。所以,在這里我們給出一些在其他工具中使用RE的例子。另外,我還會(huì)總結(jié)一下你在不同程序之間使用RE可能發(fā)現(xiàn)的區(qū)別。
當(dāng)然,你也可以在VisualC++編輯器中使用RE。選擇Edit->Replace,然后選擇"Regularexpression"選擇框,F(xiàn)indWhat輸入框?qū)?yīng)上面介紹的vi命令:%s/pat1/pat2/g中的pat1部分,而Replace輸入框?qū)?yīng)pat2部分。但是,為了得到vi的執(zhí)行范圍和g選項(xiàng),你要使用ReplaceAll或者適當(dāng)?shù)氖止indNextandReplace(譯者按:知道為啥有人罵微軟***了吧,雖然VC中可以選中一個(gè)范圍的文本,然后在其中執(zhí)行替換,但是總之不夠vi那么靈活和典雅)。
sed
Sed是StreamEDitor的縮寫,是Unix下常用的基于文件和管道的編輯工具,可以在手冊(cè)中得到關(guān)于sed的詳細(xì)信息。
這里是一些有趣的sed腳本,假定我們正在處理一個(gè)叫做price.txt的文件。注意這些編輯并不會(huì)改變?cè)次募瑂ed只是處理源文件的每一行并把結(jié)果顯示在標(biāo)準(zhǔn)輸出中(當(dāng)然很容易使用重定向來定制):
sed腳本描述
sed's/^$/d'price.txt刪除所有空行
sed's/^[\t]*$/d'price.txt刪除所有只包含空格或者制表符的行
sed's/"http://g'price.txt刪除所有引號(hào)
awk
awk是一種編程語言,可以用來對(duì)文本數(shù)據(jù)進(jìn)行復(fù)雜的分析和處理??梢栽谑謨?cè)中得到關(guān)于awk的詳細(xì)信息。這個(gè)古怪的名字是它作者們的姓的縮寫(Aho,Weinberger和Kernighan)。
在Aho,Weinberger和Kernighan的書TheAWKProgrammingLanguage中有很多很好的awk的例子,請(qǐng)不要讓下面這些微不足道的腳本例子限制你對(duì)awk強(qiáng)大能力的理解。我們同樣假定我們針對(duì)price.txt文件進(jìn)行處理,跟sed一樣,awk也只是把結(jié)果顯示在終端上。
awk腳本描述
awk'!~/^$/'price.txt刪除所有空行
awk'NF>0'price.txtawk中一個(gè)更好的刪除所有空行的辦法
awk'~/^[JT]/'price.txt打印所有第二個(gè)字段是'J'或者'T'打頭的行中的第三個(gè)字段
awk'!~/[Mm]isc/{print+}'price.txt針對(duì)所有第二個(gè)字段不包含'Misc'或者'misc'的行,打印第3和第4列的和(假定為數(shù)字)
awk'!~/^[0-9]+\.[0-9]*$/'price.txt打印所有第三個(gè)字段不是數(shù)字的行,這里數(shù)字是指d.d或者d這樣的形式,其中d是0到9的任何數(shù)字
awk'~/John|Fred/'price.txt如果第二個(gè)字段包含'John'或者'Fred'則打印整行
grep
grep是一個(gè)用來在一個(gè)或者多個(gè)文件或者輸入流中使用RE進(jìn)行查找的程序。它的name編程語言可以用來針對(duì)文件和管道進(jìn)行處理。可以在手冊(cè)中得到關(guān)于grep的完整信息。這個(gè)同樣古怪的名字來源于vi的一個(gè)命令,g/re/p,意思是globalregularexpressionprint。
下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個(gè)逗號(hào),然后是名,然后是一個(gè)制表符,然后是電話號(hào)碼:
Francis,John5-3871
Wong,Fred4-4123
Jones,Thomas1-4122
Salazar,Richard5-2522
grep命令描述
grep'\t5-...1'phone.txt把所有電話號(hào)碼以5開頭以1結(jié)束的行打印出來,注意制表符是用\t表示的
grep'^S[^]*R'phone.txt打印所有姓以S打頭和名以R打頭的行
grep'^[JW]'phone.txt打印所有姓開頭是J或者W的行
grep',....\t'phone.txt打印所有姓是4個(gè)字符的行,注意制表符是用\t表示的
grep-v'^[JW]'phone.txt打印所有不以J或者W開頭的行
grep'^[M-Z]'phone.txt打印所有姓的開頭是M到Z之間任一字符的行
grep'^[M-Z].*[12]'phone.txt打印所有姓的開頭是M到Z之間任一字符,并且點(diǎn)號(hào)號(hào)碼結(jié)尾是1或者2的行
egrep
egrep是grep的一個(gè)擴(kuò)展版本,它在它的Perl正則表達(dá)式中支持更多的元字符。下面的例子中我們假定在文件phone.txt中包含以下的文本,——其格式是姓加一個(gè)逗號(hào),然后是名,然后是一個(gè)制表符,然后是電話號(hào)碼:
Francis,John5-3871
Wong,Fred4-4123
Jones,Thomas1-4122
Salazar,Richard5-2522
egrepcommandDescription
egrep'(John|Fred)'phone.txt打印所有包含名字John或者Fred的行
egrep'John|22$|^W'phone.txt打印所有包含John或者以22結(jié)束或者以W的行
egrep'net(work)?s'report.txt從report.txt中找到所有包含networks或者nets的行
Perl正則表達(dá)式語法支持情況
命令或環(huán)境.[]^$\(\)\{\}?+|()
viXXXXX
VisualC++XXXXX
awkXXXXXXXX
sedXXXXXX
TclXXXXXXXXX
exXXXXXX
grepXXXXXX
egrepXXXXXXXXX
fgrepXXXXX
perlXXXXXXXXX
vi替換命令簡(jiǎn)介
Vi的替換命令:
:ranges/pat1/pat2/g
其中
:這是Vi的命令執(zhí)行界面。
range是命令執(zhí)行范圍的指定,可以使用百分號(hào)(%)表示所有行,使用點(diǎn)(.)表示當(dāng)前行,使用美元符號(hào)($)表示***一行。你還可以使用行號(hào),例如10,20表示第10到20行,.,$表示當(dāng)前行到***一行,.+2,$-5表示當(dāng)前行后兩行直到全文的倒數(shù)第五行,等等。
s表示其后是一個(gè)替換命令。
pat1這是要查找的一個(gè)Perl正則表達(dá)式,這篇文章中有一大堆例子。
pat2這是希望把匹配串變成的模式的Perl正則表達(dá)式,這篇文章中有一大堆例子。
g可選標(biāo)志,帶這個(gè)標(biāo)志表示替換將針對(duì)行中每個(gè)匹配的串進(jìn)行,否則則只替換行中***個(gè)匹配串。
【編輯推薦】
- 學(xué)習(xí)筆記 如何實(shí)現(xiàn)Perl正則表達(dá)式匹配
- 解析Perl引用中Perl直接應(yīng)用用法
- 暢談Perl數(shù)組的使用技巧
- 追溯Perl正則表達(dá)式的起源和使用
- 解析Perl正則表達(dá)式的形式、模式和原則