正則表達(dá)式組詳解
正則表達(dá)式組與向后引用的關(guān)系是什么呢?我們在學(xué)習(xí)正則表達(dá)式組的時(shí)候需要注意什么呢?那么這里我們來詳細(xì)的看看具體的到底有什么是關(guān)鍵點(diǎn)。
正則表達(dá)式組的理解
把正則表達(dá)式的一部分放在圓括號內(nèi),你可以將它們形成組。然后你可以對整個(gè)組使用一些正則操作,例如重復(fù)操作符。
要注意的是,只有圓括號“()”才能用于形成組?!癧]”用于定義字符集。“{}”用于定義重復(fù)操作。
當(dāng)用“()”定義了一個(gè)正則表達(dá)式組后,正則引擎則會把被匹配的組按照順序編號,存入緩存。當(dāng)對被匹配的組進(jìn)行向后引用的時(shí)候,可以用“\數(shù)字”的方式進(jìn)行引用。﹤﹤\1﹥﹥引用***個(gè)匹配的后向引用組,﹤﹤\2﹥﹥引用第二個(gè)組,以此類推,﹤﹤\n﹥﹥引用第n個(gè)組。而﹤﹤\0﹥﹥則引用整個(gè)被匹配的正則表達(dá)式本身。我們看一個(gè)例子。
假設(shè)你想匹配一個(gè)HTML標(biāo)簽的開始標(biāo)簽和結(jié)束標(biāo)簽,以及標(biāo)簽中間的文本。比如﹤B﹥This is a test﹤/B﹥,我們要匹配﹤B﹥和﹤/B﹥以及中間的文字。我們可以用如下正則表達(dá)式:“﹤([A-Z][A-Z0-9]*)[^﹥]*﹥.*?﹤/\1﹥”
首先,“﹤”將會匹配“﹤B﹥”的***個(gè)字符“﹤”。然后[A-Z]匹配B,[A-Z0-9]*將會匹配0到多次字母數(shù)字,后面緊接著0到多個(gè)非“﹥”的字符。***正則表達(dá)式的“﹥”將會匹配“﹤B﹥”的“﹥”。接下來正則引擎將對結(jié)束標(biāo)簽之前的字符進(jìn)行惰性匹配,直到遇到一個(gè)“﹤/”符號。然后正則表達(dá)式中的“\1”表示對前面匹配的組“([A-Z][A-Z0-9]*)”進(jìn)行引用,在本例中,被引用的是標(biāo)簽名“B”。所以需要被匹配的結(jié)尾標(biāo)簽為“﹤/B﹥”
正則表達(dá)式組的相關(guān)解析:
你可以對相同的后向引用組進(jìn)行多次引用,﹤﹤([a-c])x\1x\1﹥﹥將匹配“axaxa”、“bxbxb”以及“cxcxc”。如果用數(shù)字形式引用的組沒有有效的匹配,則引用到的內(nèi)容簡單的為空。
一個(gè)后向引用不能用于它自身。﹤﹤([abc]\1)﹥﹥是錯(cuò)誤的。因此你不能將﹤﹤\0﹥﹥用于一個(gè)正則表達(dá)式匹配本身,它只能用于替換操作中。
后向引用不能用于字符集內(nèi)部。﹤﹤(a)[\1b]﹥﹥中的﹤﹤\1﹥﹥并不表示后向引用。在字符集內(nèi)部,﹤﹤\1﹥﹥可以被解釋為八進(jìn)制形式的轉(zhuǎn)碼。
向后引用會降低引擎的速度,因?yàn)樗枰鎯ζヅ涞慕M。如果你不需要向后引用,你可以告訴引擎對某個(gè)組不存儲。例如:﹤﹤Get(?:Value)﹥﹥。其中“(”后面緊跟的“?:”會告訴引擎對于組(Value),不存儲匹配的值以供后向引用。
正則表達(dá)式組之重復(fù)操作與后向引用
當(dāng)對組使用重復(fù)操作符時(shí),緩存里后向引用內(nèi)容會被不斷刷新,只保留***匹配的內(nèi)容。例如:﹤﹤([abc]+)=\1﹥﹥將匹配“cab=cab”,但是﹤﹤([abc])+=\1﹥﹥卻不會。因?yàn)?[abc])***次匹配“c”時(shí),“\1”代表“c”;然后([abc])會繼續(xù)匹配“a”和“b”。***“\1”代表“b”,所以它會匹配“cab=b”。
應(yīng)用:檢查重復(fù)單詞--當(dāng)編輯文字時(shí),很容易就會輸入重復(fù)單詞,例如“the the”。使用﹤﹤\b(\w+)\s+\1\b﹥﹥可以檢測到這些重復(fù)單詞。要刪除第二個(gè)單詞,只要簡單的利用替換功能替換掉“\1”就可以了。
正則表達(dá)式組的命名和引用
在PHP,Python中,可以用﹤﹤(?P﹤name﹥group)﹥﹥來對組進(jìn)行命名。在本例中,詞法?P﹤name﹥就是對組(group)進(jìn)行了命名。其中name是你對組的起的名字。你可以用(?P=name)進(jìn)行引用。
.NET的命名組
.NET framework也支持命名組。不幸的是,微軟的程序員們決定發(fā)明他們自己的語法,而不是沿用Perl、Python的規(guī)則。目前為止,還沒有任何其他的正則表達(dá)式實(shí)現(xiàn)支持微軟發(fā)明的語法。
下面是.NET中的例子:
(?﹤first﹥group)(?’second’group)
正如你所看到的,.NET提供兩種詞法來創(chuàng)建命名組:一是用尖括號“﹤﹥”,或者用單引號“’’”。尖括號在字符串中使用更方便,單引號在ASP代碼中更有用,因?yàn)锳SP代碼中“﹤﹥”被用作HTML標(biāo)簽。
要引用一個(gè)命名組,使用\k﹤name﹥或\k’name’.
當(dāng)進(jìn)行搜索替換時(shí),你可以用“${name}”來引用一個(gè)命名組。
正則表達(dá)式組的相關(guān)內(nèi)容就向你介紹到這里,希望對你了解和學(xué)習(xí)正則表達(dá)式組有所幫助。
【編輯推薦】