詳解C#正規(guī)表達(dá)式
C#正規(guī)表達(dá)式允許快速有效地處理文本。被處理的文本小到一個(gè)電子郵件地址,大到一個(gè)多行的輸入框內(nèi)容。C#正規(guī)表達(dá)式的使用不僅允許你使用一個(gè)定義模式來(lái)校驗(yàn)文本,而且還允許你從匹配一個(gè)給定模式的文本中提取數(shù)據(jù)。
你可以把一個(gè)正規(guī)表達(dá)式當(dāng)作是一種特別強(qiáng)有力的通配符。當(dāng)我們看到象"SAMS*"這樣的表達(dá)式時(shí),我們都會(huì)熟悉通配符,任何以單詞SAMS開(kāi)頭的內(nèi)容都是一個(gè)匹配的表達(dá)式。正規(guī)表達(dá)式能為你提供遠(yuǎn)遠(yuǎn)超過(guò)通配符的強(qiáng)有力的控制功能。
本節(jié)先向你簡(jiǎn)短地介紹一下.NET框架中提供的支持使用C#正規(guī)表達(dá)式的類。有關(guān)正規(guī)表達(dá)式的更多信息,你可以參考《正規(guī)表達(dá)式快速參考手冊(cè)》或《精通正規(guī)表達(dá)式》的第二版。這些書(shū)將提供給你需要的信息以便創(chuàng)建你自己的正規(guī)表達(dá)式,而且還提供了常用正規(guī)表達(dá)式的一組列表。至于正規(guī)表達(dá)式本身已經(jīng)超出本文的討論范圍。
一.校驗(yàn)輸入
正規(guī)表達(dá)式的一種最常用的場(chǎng)所是用于使用一些預(yù)先定義的格式(例如,強(qiáng)制建立的規(guī)則用于確??诹钪邪囟ǖ氖蛊浜茈y被拆斷的字符)校驗(yàn)用戶輸入。這些規(guī)則被典型地定義為正規(guī)表達(dá)式。正規(guī)表達(dá)式也常用于校驗(yàn)簡(jiǎn)單的輸入,例如電子郵件地址和電話號(hào)碼。
.NET框架提供的操作正規(guī)表達(dá)式的一個(gè)關(guān)鍵類是RegEx類。這個(gè)類提供一個(gè)靜態(tài)的方法IsMatch,它返回一個(gè)布爾值指示是否指定的輸入字符串匹配一個(gè)給定的正規(guī)表達(dá)式。
在下列代碼中,使用一個(gè)普通正規(guī)表達(dá)式來(lái)測(cè)試電子郵件地址的有效性:
- string emailPattern = @"^([\w-\.]+)@((\[[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.)|[ccc]
- (([\w-]+\.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(\]?)$";
- Console.Write("Enter an e-mail address:");
- string emailInput = Console.ReadLine();
- bool match = Regex.IsMatch(emailInput, emailPattern);
- if (match)
- Console.WriteLine("E-mail address is valid.");
- else
- Console.WriteLine("Supplied input is not a valid e-mail address.");
如果你搞不清楚這個(gè)正規(guī)表達(dá)式,別擔(dān)心。電子郵件模式的基本思想是,它需要一些數(shù)字字母字符,后面跟著一個(gè)@符號(hào),然后是一些字符組合,再后面跟著一個(gè)".",再往后至少跟著兩個(gè)字符。你可以以不同的輸入試驗(yàn)前面的代碼來(lái)看一下你得到什么結(jié)果。即使你不理解該正規(guī)表達(dá)式本身,只要知道它們的存在,那么你就可以把它使用于你的應(yīng)用程序中來(lái)校驗(yàn)輸入。
二.從輸入中提取數(shù)據(jù)
C#正規(guī)表達(dá)式的其它常見(jiàn)的用法是,根據(jù)表達(dá)式分析文本以及使用之來(lái)從用戶輸入中提取數(shù)據(jù)(稱作組匹配)。
正規(guī)表達(dá)式中包括一個(gè)特征叫組。一個(gè)組允許你把一個(gè)命名標(biāo)識(shí)放到該正規(guī)表達(dá)式的一個(gè)特定節(jié)中。當(dāng)你調(diào)用Match()來(lái)針對(duì)模式比較輸入數(shù)據(jù)時(shí),其結(jié)果實(shí)際上把匹配分成一些組,允許你提取匹配每一個(gè)組的輸入的部分。
例如,在前面的例子中,我們創(chuàng)建了一個(gè)username,它允許我們提取在一個(gè)電子郵件地址中位于@符號(hào)前的所有數(shù)據(jù)。然后,當(dāng)執(zhí)行一個(gè)匹配時(shí),我們能夠使用正規(guī)表達(dá)式的命名組從輸入中提取該username。
下列代碼顯示怎樣從一個(gè)用戶在控制臺(tái)輸入的URL中提取協(xié)議名字和端口號(hào)。正規(guī)表達(dá)式的偉大在于,它們使用自己的語(yǔ)言;因此,它們不必依賴于C、C++、C#、VB.NET或任何其它語(yǔ)言。在下列代碼中的正規(guī)表達(dá)式來(lái)自于一個(gè)MSDN例子:
- string urlPattern = @"^(?<proto>\w+)://[^/]+?(?<port>:\d+)?/";
- Console.WriteLine();
- Console.Write("Enter a URL for data parsing: ");
- string url = Console.ReadLine();
- Regex urlExpression = new Regex(urlPattern, RegexOptions.Compiled);
- Match urlMatch = urlExpression.Match(url);
- Console.WriteLine("The Protocol you entered was " + urlMatch.Groups["proto"].Value);
- Console.WriteLine("The Port Number you entered was " + urlMatch.Groups["port"].Value);
當(dāng)你使用不帶有一個(gè)端口號(hào)的URL運(yùn)行前面的代碼時(shí),你會(huì)注意到,你沒(méi)有得到任何組值。這是因?yàn)椋撦斎敫静黄ヅ銫#正規(guī)表達(dá)式。當(dāng)不存在匹配時(shí),你顯然無(wú)法從給定的組中提取有意義的數(shù)據(jù)。當(dāng)你使用匹配該正規(guī)表達(dá)式的端口號(hào)的URL運(yùn)行前面的代碼時(shí),你將得到如下列文本所示的輸出結(jié)果:
- Entera URL for data parsing: http://server.com:2100/home.aspx
- The Protocol you entered was http
- The Port Number you entered was :2100
【編輯推薦】