一日一技:正則表達(dá)式同一個(gè)小括號(hào)兩種意思
在Python里面,當(dāng)我們要從一段正則表達(dá)式中提取出一部分內(nèi)容的時(shí)候,我們可以把這部分內(nèi)容用小括號(hào)包起來(lái)。例如:從字符串我的密碼123456abc中提取123456abc,我們可以這樣寫正則表達(dá)式:
- import re
- s = '我的密碼123456abc'
- password = re.findall('密碼(.*?)$', s)
- print(password)
運(yùn)行效果如下圖所示:
在這個(gè)例子里面,小括號(hào)的意思是“分組”。
但是,在正則表達(dá)式里面,小括號(hào)還有另外一個(gè)意思,那就是把幾個(gè)符號(hào)放在一起,作為一個(gè)整體。
例如,還有另一個(gè)字符串我的口令123456abc,這里密碼前面是口令,為了使用同一個(gè)正則表達(dá)式來(lái)從這兩個(gè)句子里面提取密碼,那么需要表達(dá)密碼或口令(.*?)$這個(gè)意思。
但如果我們這樣寫:
- 密碼|口令(.*?)$
它實(shí)際上表達(dá)的意思是密碼令(.*?)$或者密口令(.*?)$。
所以我們需要把(密碼)和口令作為整體來(lái)看待。此時(shí),正則表達(dá)式本身支持使用括號(hào)來(lái)表示:
- (密碼|口令)(.*?)$
在正則表達(dá)式里面,小括號(hào)內(nèi)部的|左右兩側(cè)的多個(gè)字符串會(huì)作為整體,這樣就能表示密碼(.*?)$或口令(.*?)$了。
但是,正則表達(dá)式里面作為整體的小括號(hào),與Python里面用來(lái)分組的小括號(hào)發(fā)生了沖突,于是我們會(huì)發(fā)現(xiàn)提取出來(lái)的內(nèi)容并不是我們想要的:
可以看到,這里,(密碼|口令)它同時(shí)即有正則表達(dá)式里面作為整體的功能,又有Python里面分組的功能。于是結(jié)果多出來(lái)了我們不想要的東西。
那么有什么辦法讓(密碼|口令)只實(shí)現(xiàn)正則表達(dá)式里面的作為整體的功能,不實(shí)現(xiàn)Python里面的分組功能呢?這個(gè)時(shí)候就需要使用正則表達(dá)式里面的一個(gè)組合符號(hào)?:了。
請(qǐng)大家對(duì)比下面三個(gè)結(jié)果:
可以看到,>.*?<與<(?:.*?)>的作用是一樣的。這就說(shuō)明,以?:開頭的小括號(hào),它失去了分組的功能。
因此,我們把這個(gè)特征用到一開始的例子中:
- >>> import re
- >>> s = '我的密碼123456abc'
- >>> re.findall('(?:密碼|口令)(.*?)$', s)
- ['123456abc']
- >>> s = '我的口令123456abc'
- >>> re.findall('(?:密碼|口令)(.*?)$', s)
- ['123456abc']
運(yùn)行效果如下圖所示,完成任務(wù):
本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。