自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

經(jīng)驗(yàn)總結(jié)談VB.NET正則表達(dá)式匹配

作者：佚名 2009-10-26 16:01:03

開(kāi)發(fā) 后端

本文主要就VB.NET正則表達(dá)式匹配問(wèn)題講解，使用“.”匹配幾乎任意字符是常用的辦法。希望經(jīng)驗(yàn)歸納出來(lái)的可以給大家?guī)?lái)幫助。

正則表達(dá)式大家熟悉嗎？了解多少，在這里我們就正則表達(dá)式來(lái)深入的研究一下吧。本文將關(guān)于使用?*或+進(jìn)行重復(fù)、使用“.”匹配幾乎任意字符、字符串開(kāi)始和結(jié)束的錨定、單詞邊界四方面進(jìn)行分析。

1.使用?*或+進(jìn)行重復(fù)

?：告訴引擎匹配前導(dǎo)字符0次或一次。事實(shí)上是表示前導(dǎo)字符是可選的。
+：告訴引擎匹配前導(dǎo)字符1次或多次
*：告訴引擎匹配前導(dǎo)字符0次或多次 <[A-Za-z][A-Za-z0-9]*> 匹配沒(méi)有屬性的HTML標(biāo)簽，“ <”以及“> ”是文字符號(hào)。***個(gè)字符集匹配一個(gè)字母，第二個(gè)字符集匹配一個(gè)字母或數(shù)字。我們似乎也可以用 <[A-Za-z0-9]+> 。但是它會(huì)匹配 <1> 。但是這個(gè)正則表達(dá)式在你知道你要搜索的字符串不包含類似的無(wú)效標(biāo)簽時(shí)還是足夠有效的。

限制性重復(fù)許多現(xiàn)代的正則表達(dá)式實(shí)現(xiàn)，都允許你定義對(duì)一個(gè)字符重復(fù)多少次。詞法是：{min,max}。min和max都是非負(fù)整數(shù)。如果逗號(hào)有而max被忽略了，則max沒(méi)有限制。如果逗號(hào)和max都被忽略了，則重復(fù)min次。因此{(lán)0,}和*一樣，{1，}和+的作用一樣。你可以用 < <\b[1-9][0-9]{3}\b> > 匹配1000~9999之間的數(shù)字(“\b”表示單詞邊界)。 < <\b[1-9][0-9]{2,4}\b> > 匹配一個(gè)在100~99999之間的數(shù)字。

注意貪婪性假設(shè)你想用一個(gè)VB.NET正則表達(dá)式匹配一個(gè)HTML標(biāo)簽。你知道輸入將會(huì)是一個(gè)有效的HTML文件，因此正則表達(dá)式不需要排除那些無(wú)效的標(biāo)簽。所以如果是在兩個(gè)尖括號(hào)之間的內(nèi)容，就應(yīng)該是一個(gè)HTML標(biāo)簽。許多正則表達(dá)式的新手會(huì)首先想到用正則表達(dá)式 < < <.+> > > ，他們會(huì)很驚訝的發(fā)現(xiàn)，對(duì)于測(cè)試字符串，“Thisisa first test”，你可能期望會(huì)返回 ，然后繼續(xù)進(jìn)行匹配的時(shí)候，返回 。但事實(shí)是不會(huì)。VB.NET正則表達(dá)式匹配“ first ”。很顯然這不是我們想要的結(jié)果。原因在于“+”是貪婪的。也就是說(shuō)，“+”會(huì)導(dǎo)致正則表達(dá)式引擎試圖盡可能的重復(fù)前導(dǎo)字符。只有當(dāng)這種重復(fù)會(huì)引起整個(gè)VB.NET正則表達(dá)式匹配失敗的情況下，引擎會(huì)進(jìn)行回溯。也就是說(shuō)，它會(huì)放棄***一次的“重復(fù)”，然后處理正則表達(dá)式余下的部分。和“+”類似，“?*”的重復(fù)也是貪婪的。

深入正則表達(dá)式引擎內(nèi)部讓我們來(lái)看看正則引擎如何匹配前面的例子。***個(gè)記號(hào)是“ <”，這是一個(gè)文字符號(hào)。第二個(gè)符號(hào)是“.”，匹配了字符“E”，然后“+”一直可以匹配其余的字符，直到一行的結(jié)束。然后到了換行符，匹配失敗(“.”不匹配換行符)。于是引擎開(kāi)始對(duì)下一個(gè)正則表達(dá)式符號(hào)進(jìn)行匹配。也即試圖匹配“> ”。到目前為止，“ <.+”已經(jīng)匹配了“ first test”。引擎會(huì)試圖將“> ”與換行符進(jìn)行匹配，結(jié)果失敗了。于是引擎進(jìn)行回溯。結(jié)果是現(xiàn)在“ <.+”匹配“ first tes”。于是引擎將“> ”與“t”進(jìn)行匹配。顯然還是會(huì)失敗。這個(gè)過(guò)程繼續(xù)，直到“ <.+”匹配“ first ”與“> ”匹配。于是引擎找到了一個(gè)匹配“ first ”。記住，正則導(dǎo)向的引擎是“急切的”，所以它會(huì)急著報(bào)告它找到的***個(gè)匹配。而不是繼續(xù)回溯，即使可能會(huì)有更好的匹配，例如“ ”。所以我們可以看到，由于“+”的貪婪性，使得正則表達(dá)式引擎返回了一個(gè)最左邊的最長(zhǎng)的匹配。

用懶惰性取代貪婪性一個(gè)用于修正以上問(wèn)題的可能方案是用“+”的惰性代替貪婪性。你可以在“+”后面緊跟一個(gè)問(wèn)號(hào)“?”來(lái)達(dá)到這一點(diǎn)?！?”，“{}”和“?”表示的重復(fù)也可以用這個(gè)方案。因此在上面的例子中我們可以使用“ <.+?> ”。讓我們?cè)賮?lái)看看正則表達(dá)式引擎的處理過(guò)程。再一次，正則表達(dá)式記號(hào)“ <”會(huì)匹配字符串的***個(gè)“ <”。下一個(gè)正則記號(hào)是“.”。這次是一個(gè)懶惰的“+”來(lái)重復(fù)上一個(gè)字符。這告訴正則引擎，盡可能少的重復(fù)上一個(gè)字符。因此引擎匹配“.”和字符“E”，然后用“> ”匹配“M”，結(jié)果失敗了。引擎會(huì)進(jìn)行回溯，和上一個(gè)例子不同，因?yàn)槭嵌栊灾貜?fù)，所以引擎是擴(kuò)展惰性重復(fù)而不是減少，于是“ <.+”現(xiàn)在被擴(kuò)展為“ ”。這次得到了一個(gè)成功匹配。引擎于是報(bào)告“ ”是一個(gè)成功的匹配。整個(gè)過(guò)程大致如此。

惰性擴(kuò)展的一個(gè)替代方案我們還有一個(gè)更好的替代方案?？梢杂靡粋€(gè)貪婪重復(fù)與一個(gè)取反字符集：“ <[^> ]+> ”。之所以說(shuō)這是一個(gè)更好的方案在于使用惰性重復(fù)時(shí)，引擎會(huì)在找到一個(gè)成功匹配前對(duì)每一個(gè)字符進(jìn)行回溯。而使用取反字符集則不需要進(jìn)行回溯。***要記住的是，本教程僅僅談到的是正則導(dǎo)向的引擎。文本導(dǎo)向的引擎是不回溯的。但是同時(shí)他們也不支持惰性重復(fù)操作。

2.使用“.”匹配幾乎任意字符

在正則表達(dá)式中，“.”是最常用的符號(hào)之一。不幸的是，它也是最容易被誤用的符號(hào)之。“.”匹配一個(gè)單個(gè)的字符而不用關(guān)心被匹配的字符是一什么。唯一的例外是新行符。在本教程中談到的引擎，缺省情況下都是不匹配新行符的。因此在缺省情況下，“.”等于是字符集[^\n\r](Window)或[^\n](Unix)的簡(jiǎn)寫。這個(gè)例外是因?yàn)闅v史的原因。因?yàn)樵缙谑褂谜齽t表達(dá)式的工具是基于行的。它們都是一行一行的讀入一個(gè)文件，將正則表達(dá)式分別應(yīng)用到每一行上去。在這些工具中，字符串是不包含新行符的。因此“.”也就從不匹配新行符。

現(xiàn)代的工具和語(yǔ)言能夠?qū)⒄齽t表達(dá)式應(yīng)用到很大的字符串甚至整個(gè)文件上去。本教程討論的所有正則表達(dá)式實(shí)現(xiàn)都提供一個(gè)選項(xiàng)，可以使“.”匹配所有的字符，包括新行符。

在RegexBuddy,EditPadPro或PowerGREP等工具中，你可以簡(jiǎn)單的選中“點(diǎn)號(hào)匹配新行符”。在Perl中，“.”可以匹配新行符的模式被稱作“單行模式”。很不幸，這是一個(gè)很容易混淆的名詞。因?yàn)檫€有所謂“多行模式”。多行模式只影響行首行尾的錨定(anchor)，而單行模式只影響“.”。其他語(yǔ)言和正則表達(dá)式庫(kù)也采用了Perl的術(shù)語(yǔ)定義。當(dāng)在.NETFramework中使用正則表達(dá)式類時(shí)，你可以用類似下面的語(yǔ)句來(lái)激活單行模式：Regex.Match(“string”,”regex”,RegexOptions.SingleLine)
保守的使用點(diǎn)號(hào)“.”點(diǎn)號(hào)可以說(shuō)是***大的元字符。它允許你偷懶：用一個(gè)點(diǎn)號(hào)，就能匹配幾乎所有的字符。但是問(wèn)題在于，它也常常會(huì)匹配不該匹配的字符。我會(huì)以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明。讓我們看看如何匹配一個(gè)具有“mm/dd/yy”格式的日期，但是我們想允許用戶來(lái)選擇分隔符。很快能想到的一個(gè)方案是 < <\d\d.\d\d.\d\d> > ?？瓷先ニ芷ヅ淙掌凇?2/12/03”。問(wèn)題在于02512703也會(huì)被認(rèn)為是一個(gè)有效的日期。 < <\d\d[-/.]\d\d[-/.]\d\d> > 看上去是一個(gè)好一點(diǎn)的解決方案。記住點(diǎn)號(hào)在一個(gè)字符集里不是元字符。這個(gè)方案遠(yuǎn)不夠完善，它會(huì)匹配“99/99/99”。而 < <[0-1]\d[-/.][0-3]\d[-/.]\d\d> > 又更進(jìn)一步。盡管他也會(huì)匹配“19/39/99”。你想要你的正則表達(dá)式達(dá)到如何***的程度取決于你想達(dá)到什么樣的目的。如果你想校驗(yàn)用戶輸入，則需要盡可能的***。如果你只是想分析一個(gè)已知的源，并且我們知道沒(méi)有錯(cuò)誤的數(shù)據(jù)，用一個(gè)比較好的VB.NET正則表達(dá)式匹配你想要搜尋的字符就已經(jīng)足夠。

3.字符串開(kāi)始和結(jié)束的錨定

錨定和一般的正則表達(dá)式符號(hào)不同，它不匹配任何字符。相反，他們匹配的是字符之前或之后的位置?！癪”匹配一行字符串***個(gè)字符前的位置。 < <^a> > 將會(huì)匹配字符串“abc”中的a。 < <^b> > 將不會(huì)匹配“abc”中的任何字符。類似的，$匹配字符串中***一個(gè)字符的后面的位置。所以 < > 匹配“abc”中的c。
錨定的應(yīng)用在編程語(yǔ)言中校驗(yàn)用戶輸入時(shí)，使用錨定是非常重要的。如果你想校驗(yàn)用戶的輸入為整數(shù)，用 < <^\d+$> > 。用戶輸入中，常常會(huì)有多余的前導(dǎo)空格或結(jié)束空格。你可以用 < <^\s*> > 和 < <\s*$> > 來(lái)匹配前導(dǎo)空格或結(jié)束空格。

使用“^”和“$”作為行的開(kāi)始和結(jié)束錨定如果你有一個(gè)包含了多行的字符串。例如：“firstline\n\rsecondline”(其中\(zhòng)n\r表示一個(gè)新行符)。常常需要對(duì)每行分別處理而不是整個(gè)字符串。因此，幾乎所有的正則表達(dá)式引擎都提供一個(gè)選項(xiàng)，可以擴(kuò)展這兩種錨定的含義。“^”可以匹配字串的開(kāi)始位置(在f之前)，以及每一個(gè)新行符的后面位置(在\n\r和s之間)。類似的，$會(huì)匹配字串的結(jié)束位置(***一個(gè)e之后)，以及每個(gè)新行符的前面(在e與\n\r之間)。在.NET中，當(dāng)你使用如下代碼時(shí)，將會(huì)定義錨定匹配每一個(gè)新行符的前面和后面位置：Regex.Match("string","regex",RegexOptions.Multiline)應(yīng)用：stringstr=Regex.Replace(Original,"^","> ",RegexOptions.Multiline)--將會(huì)在每行的行首插入“> ”。

絕對(duì)錨定 < <\A> > 只匹配整個(gè)字符串的開(kāi)始位置， < <\Z> > 只匹配整個(gè)字符串的結(jié)束位置。即使你使用了“多行模式”， < <\A> > 和 < <\Z> > 也從不匹配新行符。即使\Z和$只匹配字符串的結(jié)束位置，仍然有一個(gè)例外的情況。如果字符串以新行符結(jié)束，則\Z和$將會(huì)匹配新行符前面的位置，而不是整個(gè)字符串的***面。這個(gè)“改進(jìn)”是由Perl引進(jìn)的，然后被許多的正則表達(dá)式實(shí)現(xiàn)所遵循，包括Java，.NET等。如果應(yīng)用 < <^[a-z]+$> > 到“joe\n”，則匹配結(jié)果是“joe”而不是“joe\n”。
在本文中講述了正則表達(dá)式中的組與向后引用，先前向后查看，條件測(cè)試，單詞邊界，選擇符等表達(dá)式及例子，并分析了正則引擎在執(zhí)行匹配時(shí)的內(nèi)部機(jī)理。

4.單詞邊界

元字符 < <\b> > 也是一種對(duì)位置進(jìn)行匹配的“錨”。這種匹配是0長(zhǎng)度匹配。有4種位置被認(rèn)為是“單詞邊界”：
1)在字符串的***個(gè)字符前的位置(如果字符串的***個(gè)字符是一個(gè)“單詞字符”)
2)在字符串的***一個(gè)字符后的位置(如果字符串的***一個(gè)字符是一個(gè)“單詞字符”)
3)在一個(gè)“單詞字符”和“非單詞字符”之間，其中“非單詞字符”緊跟在“單詞字符”之后
4)在一個(gè)“非單詞字符”和“單詞字符”之間，其中“單詞字符”緊跟在“非單詞字符”后面“單詞字符”是可以用“\w”匹配的字符，“非單詞字符”是可以用“\W”匹配的字符。

在大多數(shù)的正則表達(dá)式實(shí)現(xiàn)中，“單詞字符”通常包括 < <[a-zA-Z0-9_]> > 。例如： < <\b4\b> > 能夠匹配單個(gè)的4而不是一個(gè)更大數(shù)的一部分。這個(gè)正則表達(dá)式不會(huì)匹配“44”中的4。換種說(shuō)法，幾乎可以說(shuō) < <\b> > 匹配一個(gè)“字母數(shù)字序列”的開(kāi)始和結(jié)束的位置?！皢卧~邊界”的取反集為 < <\B> > ，他要匹配的位置是兩個(gè)“單詞字符”之間或者兩個(gè)“非單詞字符”之間的位置。

深入正則表達(dá)式引擎內(nèi)部讓我們看看把正則表達(dá)式 < <\bis\b> > 應(yīng)用到字符串“Thisislandisbeautiful”。引擎先處理符號(hào) < <\b> > 。因?yàn)閈b是0長(zhǎng)度，所以***個(gè)字符T前面的位置會(huì)被考察。因?yàn)門是一個(gè)“單詞字符”，而它前面的字符是一個(gè)空字符(void)，所以\b匹配了單詞邊界。接著 < > 和***個(gè)字符“T”匹配失敗。匹配過(guò)程繼續(xù)進(jìn)行，直到第五個(gè)空格符，和第四個(gè)字符“s”之間又匹配了 < <\b> > 。然而空格符和 < > 不匹配。繼續(xù)向后，到了第六個(gè)字符“i”，和第五個(gè)空格字符之間匹配了 < <\b> > ，然后 < > 和第六、第七個(gè)字符都匹配了。然而第八個(gè)字符和第二個(gè)“單詞邊界”不匹配，所以匹配又失敗了。到了第13個(gè)字符i，因?yàn)楹颓懊嬉粋€(gè)空格符形成“單詞邊界”，同時(shí) < > 和“is”匹配。引擎接著嘗試匹配第二個(gè) < <\b> > 。因?yàn)榈?5個(gè)空格符和“s”形成單詞邊界，所以匹配成功。引擎“急著”返回成功匹配的結(jié)果。

【編輯推薦】

剖析VB.NET平臺(tái)調(diào)用是如何執(zhí)行操作
分享個(gè)人總結(jié)VB.NET多線程
詳細(xì)說(shuō)明VB.NET變量中四點(diǎn)
三類十二種VB.NET數(shù)據(jù)類型全面介紹
VB.NET初步知識(shí)，初學(xué)者必看

責(zé)任編輯：田樹來(lái)源：樂(lè)博網(wǎng)

VB.NET正則表達(dá)式匹配

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="dvp8b"><p id="dvp8b"></p></blockquote><sup id="dvp8b"></sup>

<sub id="dvp8b"></sub>