C#正則表達(dá)式入門
[C#正則表達(dá)式入門內(nèi)容]
什么是正則表達(dá)式
涉及的基本的類
正則表達(dá)式基礎(chǔ)知識(shí)
構(gòu)建表達(dá)式基本方法
編寫一個(gè)檢驗(yàn)程序
參考資料
[C#正則表達(dá)式入門正文]
對(duì)于初學(xué)者看到類似“\w+@\w+\.\w{1,3}”這樣復(fù)雜沒有規(guī)律的字符,就會(huì)莫名產(chǎn)生一種恐懼感。其實(shí)正則表達(dá)式和字符串(String)的使用同樣非常簡單。下面讓我們逐步地走進(jìn)正則表達(dá)式的世界!
什么是正則表達(dá)式
正則表達(dá)式是用來檢驗(yàn)和操作字符串的強(qiáng)大工具。簡單的理解正則表達(dá)式可以認(rèn)為是一種特殊的驗(yàn)證字符串。正則表達(dá)式常見運(yùn)用是驗(yàn)證用戶輸入信息格式,比如上面的那組“\w{1,}@\w{1,}\.\w{1”,實(shí)際上就是驗(yàn)證郵件地址是否合法的;當(dāng)然正則表達(dá)式不僅僅是用于驗(yàn)證,可以說只要運(yùn)用字符串的地方都可以使用正則表達(dá)式;
涉及的基本的類正則表達(dá)式在英文中寫作(Regular Expression),根據(jù)正則表達(dá)式的使用范圍和單詞意思,.NET將其命名空間設(shè)置為System.Text.RegularExpressions;
在該命名空間內(nèi)包括了8個(gè)基本的類:Capture、CaptureCollection、Group、GroupCollection、Match、MatchCollection、Regex和RegexCompilationInfo如圖1所示;
圖1 MSDN Library中正則表達(dá)式命名空間
Capture 用于單個(gè)表達(dá)式捕獲結(jié)果
CaptureCollection 用于一個(gè)序列進(jìn)行字符串捕獲
Group 表示單個(gè)捕獲的結(jié)果
GroupCollection 表示捕獲組的集會(huì)
Match 表示匹配單個(gè)正則表達(dá)式結(jié)果
MatchCollection 表示通過迭代方式應(yīng)用正則表達(dá)式到字符串中
Regex 表示不可變的正則表達(dá)式
RegexCompilationInfo 將編譯正則表達(dá)式需要提供信息
[注意]
本文屬于初學(xué)正則表達(dá)式的入門文章,對(duì)于高級(jí)的分組(Group)及其涉及語法等在這里不做介紹;
正則表達(dá)式基礎(chǔ)知識(shí)基本語法
在正則表達(dá)式中擁有一套自己的語法規(guī)則,常見語法包括;字符匹配、重復(fù)匹配、字符定位、轉(zhuǎn)義匹配和其他高級(jí)語法(字符分組、字符替換和字符決策);
字符匹配語法:
字符語法 語法解釋 語法例子
\d 匹配數(shù)字(0~9) ‘\d’匹配8,不匹配12;
\D 匹配非數(shù)字 ‘\D’匹配c,不匹配3;
\w 匹配任意單字符 ‘\w\w’ 匹配A3,不匹配@3;
\W 匹配非單字符 ‘\W’匹配@,不匹配c;
\s 匹配空白字符 ‘\d\s\d’匹配3 d,不匹配abc;
\S 匹配非空字符 ‘\S\S\S’匹配A#4,不匹配3 d;
. 匹配任意字符 ‘....’匹配A$ 5,不匹配換行;
[…] 匹配括號(hào)中任意字符 [b-d]匹配b、c、d, 不匹配e;
[^…] 匹配非括號(hào)字符 [^b-z]匹配a,不匹配b-z的字符;
重復(fù)匹配語法:
重復(fù)語法 語法解釋 語法例子
{n} 匹配n次字符 \d{3}匹配\d\d\d,不匹配\d\d或\d\d\d\d
{n,} 匹配n次和n次以上 \w{2}匹配\w\w和\w\w\w以上,不匹配\w
{n,m} 匹配n次上m次下 \s{1,3}匹配\s,\s\s,\s\s\s,不匹配\s\s\s\s
? 匹配0或1次 5?匹配5或0,不匹配非5和0
+ 匹配一次或多次 \S+匹配一個(gè)以上\S,不匹配非一個(gè)以上\S
* 匹配0次以上 \W*匹配0以上\W,不匹配非N*\W
字符定位語法:
重復(fù)語法 語法解釋 語法例子
^ 定位后面模式開始位置
$ 前面模式位于字符串末端
\A 前面模式開始位置
\z 前面模式結(jié)束位置
\Z 前面模式結(jié)束位置(換行前)
\b 匹配一個(gè)單詞邊界
\B 匹配一個(gè)非單詞邊界
轉(zhuǎn)義匹配語法:
轉(zhuǎn)義語法 涉及字符(語法解釋) 語法例子
“\”+實(shí)際字符 \ . * + ? | ( ) { }^ $ 例如:\\匹配字符“\”
\n 匹配換行
\r 匹配回車
\t 匹配水平制表符
\v 匹配垂直制表符
\f 匹配換頁
\nnn 匹配一個(gè)8進(jìn)制ASCII
\xnn 匹配一個(gè)16進(jìn)制ASCII
\unnnn 匹配4個(gè)16進(jìn)制的Uniode
\c+大寫字母 匹配Ctrl-大寫字母 例如:\cS-匹配Ctrl+S
構(gòu)造正則表達(dá)的方法構(gòu)造正則表達(dá)式需要涉及Regex類,在Regex類中包括:IsMatch()、Replace()、Split()和Match的類;(1) IsMatch()方法;IsMatch()方法實(shí)際上是一個(gè)返回Bool值得方法,如果測試字符滿足正則表達(dá)式返回True否則返回False;
例1;判斷是非成都地區(qū)電話號(hào)碼合法;分析:成都地區(qū)電話號(hào)碼組成028********,前面為固定區(qū)號(hào)028,后面滿足8位數(shù)字;設(shè)計(jì)正則表達(dá)式:028\d{8}(解釋:028區(qū)號(hào)固定,后面為8個(gè)數(shù)字\d組成);
程序代碼,如圖2所示:
圖2 “例1” IsMatch方法是用例
(2) Replace()方法;Replace()方法實(shí)際上是一種替換的方法,替換匹配正則表達(dá)式匹配模式;例2:在發(fā)布帶有公開電子郵件地址的文章時(shí),替換@位AT避免產(chǎn)生垃圾郵件;分析:首先需要判斷文章中電子郵箱地址,然后執(zhí)行替換設(shè)計(jì)正則表達(dá)式:判斷電子郵箱表達(dá)式”\w{1,}@w{1,}\\.”;程序代碼:如圖3所示;
圖3 “例2”Replace方法是用例
(3) Split()方法;Split()方法實(shí)際上是拆分的方法,根據(jù)匹配正則表達(dá)式進(jìn)行拆分儲(chǔ)存在字符串?dāng)?shù)組中;
例3:從群發(fā)郵件地址中讀取所有郵件地址;分析:群發(fā)郵件采用“;”作為分割符,需要通過“;”進(jìn)行拆分程序代碼:如圖4所示;
圖4 “例3”Split方法是用例
構(gòu)建表達(dá)式基本方法構(gòu)造Regex對(duì)象的構(gòu)造函數(shù)包括兩個(gè)重載,一個(gè)是不含參數(shù)的構(gòu)造、另外一個(gè)是含有參數(shù)的構(gòu)造函數(shù);基本形式Regex(string pattern);重載形式Regex(string pattern,RegexOptions);
補(bǔ)充:RegexOptions屬于枚舉類型,包括IgnoreCase(忽略大小寫)、ReghtToLeft(從右向左)、None(默認(rèn))、CultureInvariant(忽略區(qū)域)、Multline(多行模式)和SingleLine(單行模式);
例4,建立一個(gè)合法ISBN驗(yàn)證格式;分析:ISBN格式為X-XXXXX-XXX-X;正則表達(dá)式格式:\d-\d{5}-\d{3}-\d
構(gòu)造該正則表達(dá)式函數(shù)Regex ISBNRegex = new Regex(表達(dá)式,參數(shù)為空)詳細(xì)代碼:如圖5所示;
圖5 “例4”構(gòu)造驗(yàn)證函數(shù)是用例
編寫一個(gè)檢驗(yàn)程序
為了方便自己在學(xué)習(xí)正則表達(dá)式和快速檢驗(yàn)自己編寫表達(dá)式語句是否正確,下面提供一個(gè)IsMatch()方法正則表達(dá)式驗(yàn)證器編寫;打開VS.NET,選擇新建項(xiàng)目中的Visual C#項(xiàng)目的Windows應(yīng)用程序,取名為“Regex_Tools”;然后編寫如圖6所示的界面
圖6 正則表達(dá)式IsMatch方法驗(yàn)證器
然后在該窗體聲明中增加正則表達(dá)式命名空間聲明using System.Text.RegularExpressions;編寫下列代碼編寫一段私有的判斷參數(shù)的方法,如圖7所示;
圖7私有驗(yàn)證參數(shù)判斷方法
編寫判斷按鈕的方法,如圖8所示;
編寫清空按鈕的方法,所有的文本框等于空;
編譯該程序,一個(gè)簡單的正則表達(dá)式驗(yàn)證器就成功生成了;C#正則表達(dá)式入門就介紹到這里。
【編輯推薦】