剖析Python正則表達(dá)式特別之處
Python語言的re模塊對(duì)Python正則表達(dá)式做了許多有用的改進(jìn),看完本文相信您一定可以從文中了解Python語言在正則表達(dá)式方面的特別之處,比如什么是最簡單的正則表達(dá)式等問題。
對(duì)于需要處理文本的程序員來說,必須對(duì)正則表達(dá)式有一個(gè)全面深入的認(rèn)識(shí)。本文為不熟悉正則表達(dá)式的讀者提供了一個(gè)快速入門的教程。當(dāng)然,對(duì)于那些熟悉其他語言中的正則表達(dá)式的部分讀者而言,本文也是有益的,因?yàn)槟梢詮闹辛私釶ython語言在正則表達(dá)式方面的特別之處。
一、什么是Python正則表達(dá)式
在編寫處理字符串的程序或網(wǎng)頁時(shí),經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則(或稱為模式)的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則(或模式)的工具。換句話說,正則表達(dá)式就是記錄文本規(guī)則的代碼。一旦發(fā)現(xiàn)了符合要求的文本,就可以用對(duì)其進(jìn)行相應(yīng)的修改了。
大家還記得Windows命令行中用于文件查找的通配符吧,即*和?。當(dāng)我們查找某目錄下所有的PDF文檔的時(shí)候,只要搜索*.pdf即可。在這里,*會(huì)被解釋成任意的字符串。和通配符類似,正則表達(dá)式也是用來進(jìn)行文本匹配的工具,只不過較之于通配符,它能更精確地描述你的需求,例如用來查找一個(gè)web頁面中的所有電話號(hào)碼。
我們知道,電話號(hào)碼一般都有一個(gè)固定的寫法:區(qū)號(hào)-電話號(hào)碼,即有以0開頭,后跟2-3個(gè)數(shù)字,然后是一個(gè)連字號(hào)“-”,***是7或8位數(shù)字組成的字符串(例如010-12345678或0634-1234567)。
二、最簡單的正則表達(dá)式
學(xué)習(xí)正則表達(dá)式的***方法是從具體的示例入手,讓讀者親自動(dòng)手實(shí)驗(yàn)。下面給出了不少簡單的例子,并對(duì)它們作了詳細(xì)的說明。當(dāng)我們?cè)谝蛔址胁檎襱o,你可以使用正則表達(dá)式to。這幾乎是最簡單的正則表達(dá)式了,它可以精確匹配這樣的字符串;
由兩個(gè)字符組成,前一個(gè)字符是t,后一個(gè)是o。為了演示,我們提供了一個(gè)函數(shù)re_show(),可以把看作是re模塊的一個(gè)封裝器,它會(huì)把給定的字符串中匹配(說某個(gè)字符串與某個(gè)正則表達(dá)式匹配。
通常是指這個(gè)字符串里有一部分或幾部分或全部能滿足表達(dá)式給出的條件)的內(nèi)容加上一個(gè)花括號(hào)?,F(xiàn)在我們不對(duì)該函數(shù)做進(jìn)一步的介紹。您只要知道re_show()的***個(gè)參數(shù)是一個(gè)Python正則表達(dá)式,第二個(gè)參數(shù)是要匹配的字符串,當(dāng)找到匹配的內(nèi)容時(shí),就用花括號(hào)將它括起來就行了。還是源代碼如下:
- import re
- def re_show(pat, s):
- print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'
- s = '''Python runs on Windows, Linux/Unix,
- Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.
- Python has also been ported to the Java and .NET virtual machines.'''
- re_show("to",s)
其中,函數(shù)調(diào)用re_show("to",s)的作用就是查找字符串s中是否包含字符串to,或者說字符串s是否匹配正則表達(dá)式to;如果匹配的話,就給字符串to加上花括號(hào)。
三、匹配單詞的Python正則表達(dá)式
我們看到,如果僅僅要求找出文本中的字符串to的話,上面的正則表達(dá)式還是可以的,但是如果要想匹配文本中的單詞to的話,上面的正則表達(dá)式to就不夠用了。例如,將上面的代碼中的字符串s的定義改為下面的樣子:
- s = '''In company or association with respect to place or time;
- as, to live together in one house; to live together in the
- same age; they walked together to the town.'''
我們發(fā)現(xiàn),上面的文字中,不僅單詞to,此外像together和town這些單詞中也包含字符串to,如果這時(shí)再用上面的Python正則表達(dá)式to來查找“單詞”to的話,就會(huì)出錯(cuò)了。
【編輯推薦】