對(duì)Python正則表達(dá)式進(jìn)行入門學(xué)習(xí)
Python正則表達(dá)式是一種極其有用的文本處理技術(shù),不過用起來有一定的難度。Python語言的re模塊對(duì)基本的正則表達(dá)式做了許多有益的改進(jìn)。對(duì)于需要處理文本的程序員來說。
本文為不熟悉正則表達(dá)式的讀者提供了一個(gè)快速入門的教程。當(dāng)然,對(duì)于那些熟悉其他語言中的正則表達(dá)式的部分讀者而言,本文也是有益的,因?yàn)槟梢詮闹辛私釶ython語言在正則表達(dá)式方面的特別之處。
一、什么是正則表達(dá)式
在編寫處理字符串的程序或網(wǎng)頁時(shí),經(jīng)常會(huì)有查找符合某些復(fù)雜規(guī)則(或稱為模式)的字符串的需要。正則表達(dá)式就是用于描述這些規(guī)則(或模式)的工具。換句話說,正則表達(dá)式就是記錄文本規(guī)則的代碼。一旦發(fā)現(xiàn)了符合要求的文本,就可以用對(duì)其進(jìn)行相應(yīng)的修改了。#t#
大家還記得Windows命令行中用于文件查找的通配符吧,即*和?。當(dāng)我們查找某目錄下所有的PDF文檔的時(shí)候,只要搜索*.pdf即可。在這里,*會(huì)被解釋成任意的字符串。和通配符類似,Python正則表達(dá)式也是用來進(jìn)行文本匹配的工具,只不過較之于通配符,它能更精確地描述你的需求,例如用來查找一個(gè)web頁面中的所有電話號(hào)碼。
我們知道,電話號(hào)碼一般都有一個(gè)固定的寫法:區(qū)號(hào)-電話號(hào)碼,即有以0開頭,后跟2-3個(gè)數(shù)字,然后是一個(gè)連字號(hào)“-”,最后是7或8位數(shù)字組成的字符串(例如010-12345678或0634-1234567)。
二、最簡單的正則表達(dá)式
學(xué)習(xí)正則表達(dá)式的最好方法是從具體的示例入手,讓讀者親自動(dòng)手實(shí)驗(yàn)。下面給出了不少簡單的例子,并對(duì)它們作了詳細(xì)的說明。當(dāng)我們?cè)谝蛔址胁檎襱o,你可以使用正則表達(dá)式to。這幾乎是最簡單的正則表達(dá)式了,它可以精確匹配這樣的字符串:由兩個(gè)字符組成,前一個(gè)字符是t,后一個(gè)是o。
為了演示,我們提供了一個(gè)函數(shù)re_show(),可以把看作是re模塊的一個(gè)封裝器,它會(huì)把給定的字符串中匹配(說某個(gè)字符串與某個(gè)正則表達(dá)式匹配,通常是指這個(gè)字符串里有一部分或幾部分或全部能滿足表達(dá)式給出的條件)的內(nèi)容加上一個(gè)花括號(hào)。
現(xiàn)在我們不對(duì)該函數(shù)做進(jìn)一步的介紹,您只要知道re_show()的第一個(gè)參數(shù)是一個(gè)正則表達(dá)式,第二個(gè)參數(shù)是要匹配的字符串,當(dāng)找到匹配的內(nèi)容時(shí),就用花括號(hào)將它括起來就行了。還是源代碼如下:
- import re
- def re_show(pat, s):
- print re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n'
- s = '''Python runs on Windows, Linux/Unix,
- Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.
- Python has also been ported to the Java and .NET virtual machines.'''
- re_show("to",s)
其中,函數(shù)調(diào)用re_show("to",s)的作用就是查找字符串s中是否包含字符串to,或者說字符串s是否匹配Python正則表達(dá)式to;如果匹配的話,就給字符串to加上花括號(hào)。上述代碼的執(zhí)行結(jié)果如下所示:
- Python runs on Windows, Linux/Unix,
- Mac OS X, OS/2, Amiga, Palm Handhelds, and Nokia mobile phones.
- Python has also been ported {to} the Java and .NET virtual machines.
【編輯推薦】