正則表達(dá)式介紹及常見用法
正則表達(dá)式(Regular Expression),又稱正規(guī)表示法、常規(guī)表示法,在實(shí)際的軟件開發(fā)項(xiàng)目中經(jīng)常會(huì)被使用到。它使用單個(gè)字符串來(lái)描述、匹配并獲取一系列符合某個(gè)句法規(guī)則的結(jié)果。
正則表達(dá)式起源
1956年,數(shù)學(xué)家Stephen Kleene在Warren McCulloch和Walter Pitts早期神經(jīng)系統(tǒng)工作的基礎(chǔ)上,設(shè)計(jì)出了一個(gè)數(shù)學(xué)符號(hào)體系——regular sets(規(guī)則的集合),這個(gè)東西很快被計(jì)算機(jī)科學(xué)家用于編譯器的掃描或詞法分析。由于正則表達(dá)式強(qiáng)大的文本處理能力,很快被應(yīng)用到Unix的工具軟件grep中;此后,正則表達(dá)式被廣泛應(yīng)用于Unix系操作系統(tǒng)、Perl、PHP,Delphi、JAVAScript、C#(.NET)、JAVA、python、Ruby等語(yǔ)言和開發(fā)環(huán)境中。
正則表達(dá)式定義
正則表達(dá)式是用來(lái)描述字符串特定結(jié)構(gòu)(規(guī)則)的語(yǔ)言,由相關(guān)引擎執(zhí)行。正則表達(dá)式形象化的描述如圖1所示。
圖1 正則表達(dá)式形象化的描述
正則表達(dá)式作用
1.數(shù)據(jù)驗(yàn)證
測(cè)試輸入的字符串,是否符合一定的規(guī)則,是否允許輸入等。例如,可對(duì)Email地址合法性、網(wǎng)址、電話號(hào)碼、出生年月等進(jìn)行驗(yàn)證。
2.操作文本
用來(lái)識(shí)別文檔中的特定文本、完全刪除該文本或者用其它文本或字符替換。
3.提取子字符串
基于模式匹配,可以查找文檔內(nèi)或輸入域內(nèi)特定的文本,在涉及替換操作時(shí)往往都需要先提取。
正則表達(dá)式基本語(yǔ)法
1.直接量字符(通常是不可見的字符及匹配自身的字符)
2.字符類(可以匹配多種字符)
3.重復(fù)
4.選擇、分組和錨字符
5. 標(biāo)志(標(biāo)示引擎的工作模式)
說(shuō)明:
在正則表達(dá)式前用“(?i)”標(biāo)示,例如:(?i)^root$,則root、Root、ROOT都符合要求。
6.其它
1) 匹配元字符“( [ { \ ^ $ | ) ? * + .”,需要用“\”轉(zhuǎn)義。
例如:匹配“.”,正則表達(dá)式為“\.”。
2) 貪婪量詞與惰性量詞
惰性量詞僅僅在貪婪量詞后面加個(gè)“?”。
用貪婪量詞進(jìn)行匹配時(shí),它首先會(huì)將整個(gè)字符串當(dāng)成一個(gè)匹配,如果匹配成功就退出,如果不匹配,就截去最后一個(gè)字符進(jìn)行匹配;如果不匹配,繼續(xù)將最后一個(gè)字符截去進(jìn)行匹配,直到有字符匹配為止。
用惰性量詞進(jìn)行匹配時(shí),它首先將第一個(gè)字符當(dāng)成一個(gè)匹配,如果成功則退出;如果失敗,則測(cè)試前兩個(gè)字符,依次增加,直到遇到合適的匹配為止 。
例如:“\d+”是貪婪量詞,而“\d+?”是非貪婪(惰性)量詞。
3) 子匹配
內(nèi)部的分組匹配,用“()”標(biāo)示一個(gè)分組。
子匹配的每個(gè)分組都被放在一個(gè)特殊的地方以備將來(lái)使用,這些被存儲(chǔ)的值是分組中的特殊值,稱之為反向引用。
例如:驗(yàn)證輸入的是日期,再提取到月份,其正則表達(dá)式為“^\d{4}\-(\d{2})\-\d{2}$”。
4) 正向前瞻和負(fù)向前瞻
正向前瞻:(?<=字符)或(?=字符)
注意:一定要有等于才行。
負(fù)向前瞻:(?<!字符)或(?!字符)
注意:一定要有不等于才行。
也就是說(shuō),我們可以自己制定匹配的邊界在哪里,這在字符串提取時(shí)常用。
示例:
例1,我們?nèi)?ldquo;#”之前的字符,但是不包括“#”,其正則表達(dá)式:[\w]+(?=#)
例2,我們?nèi)〔辉?ldquo;#”之前的字符,但是不包括“#”,其正則表達(dá)式: [\w]+(?!#)
例3,我們?nèi)?ldquo;<>”之間的字符,但是不包括“<>”,其正則表達(dá)式: (?<=<)[\w]+(?=>)
正則表達(dá)式常見用法
1.數(shù)字
1)正整數(shù): ^[1-9][0-9]*$
2)非正整數(shù): ^((-[1-9][0-9]*)|(0))$
3)負(fù)整數(shù):^-[1-9][0-9]*$
4)整數(shù): ^(0|-?[1-9][0-9]*)$
5)非負(fù)浮點(diǎn)數(shù):^\d+(\.\d+)?$
2.字母
1)英文字符串:^[A-Za-z]+$
2)英文大寫串:^[A-Z]+$
3)英文小寫串:^[a-z]+$
4)英文字符數(shù)字串:^[A-Za-z0-9]+$
5)英文數(shù)字加下劃線串:^\w+$
3.其它
1.E-mail地址:^[\w-]+(\.[\w-]+)*@[\w-]+(\.[\w-]+)+$
2.URL:^http:\/\/[A-Za-z0-9]+\.[A-Za-z0-9]+[\/=\?%\-&_~`@[\]\':+!]*([^<>\"\"])*$
3.郵政編碼:^[1-9]\d{5}$
4.中文:^[\u4e00-\u9fA5]+$
5.電話號(hào)碼:^((\d2,3)|(\d{3}\-))?(0\d2,3|0\d{2,3}-)?[1-9]\d{6,7}(\-\d{1,4})?$
6.手機(jī)號(hào)碼:^1\d{10}$
7.首尾空格:(^\s+)|(\s+$)
8.身份證:^(\d{15}|\d{18})$ (注:中國(guó)的身份證為15位或18位)
9.賬號(hào):^[a-zA-Z]\w{4,15}$ (注:字母開頭,允許5-16字節(jié),允許字母數(shù)字下劃線)
10.IP:^([1-9]\d{0,1}|1\d{2}|2[0-4]\d|25[0-5])(\.([1-9]\d{0,1}|1\d{2}|2[0-4]\d|25[0-5])){3}$ (IP是由大于等于0且小于等于255的數(shù)字、“.”組成的,驗(yàn)證每個(gè)數(shù)字分項(xiàng)再和“.”拼接就可以了)
總結(jié)
正則表達(dá)式的功能非常的強(qiáng)大,大家在實(shí)際使用到的時(shí)候才能夠感覺(jué)得到。當(dāng)然,要想同時(shí)記住這么多的正則表達(dá)式的規(guī)則,也不是簡(jiǎn)單的事情。大家可以將常見的正則表達(dá)式記錄下來(lái)(就像本文一樣),待需要用到的時(shí)候可以拿出來(lái)參考。
【本文是51CTO專欄作者周兆熊的原創(chuàng)作品,轉(zhuǎn)載請(qǐng)通過(guò)51CTO獲取作者授權(quán)】