自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

正則表達式-從模糊到清晰

作者：前端工坊 2017-12-07 14:23:55

開發(fā) 前端

正則是一些用來匹配和處理文本的字符串（或者叫工具），往往用于查找特定的信息（搜索），或者查找并編輯特定的信息（替換）。它是一種內置在其他語言里的一種“迷你”語言，比如內置在Javscript、Java等語言中。

1. 什么是正則

簡單點，正則是一些用來匹配和處理文本的字符串（或者叫工具），往往用于查找特定的信息（搜索），或者查找并編輯特定的信息（替換）。它是一種內置在其他語言里的一種“迷你”語言，比如內置在Javscript、Java等語言中。

2. 要認可的事實

正則答案不唯一。幾乎所有的問題，往往都會有不止一種解決方案。有的比較簡單，有的比較快速，有點兼容性更好，有的功能更全。我們需要依據(jù)自己的需求，確認一種最適合自己的方案。

3. 正則引擎概述

正則引擎可以分為2類。一種稱之為NFA（非確定型有窮自動機），另一種稱之為DFA（確定型又窮自動機）。嗯，概念不好理解，我們舉個栗子：

正則：to(Jack|Rose|Jerry)

匹配文本：xxx···toJerry

1）NFA（表達式主導）匹配過程

正則表達式從正則的***個 t 開始，每次由正則引擎查看表達式的一部分，同時檢查當前文本是否匹配表達式的當前部分。如果是，則繼續(xù)表達式的下一部分，如果繼續(xù)，直到表達式的所有部分都能匹配到。此時發(fā)現(xiàn)當檢查到當前文本中的字符 t 時，所以正則表達式的***項匹配成功，接著會檢查緊跟其后的字符是否能由 o 來匹配，然后發(fā)現(xiàn)可以，則接著檢查后面的元素，此時后面的元素是 (Jack|Rose|Jerry) ，引擎會嘗試著3種可能進行分別測試，直到匹配成功。

2）DFA（文本主導）匹配過程

引擎在掃碼當前文本的時候，會記錄當前有效的所有匹配可能。當引擎移動到文本的 t 時，它會在當前處理的匹配可能中添加一個潛在的可能：

接下來掃描的每個字符，都會更新當前的可能匹配序列。例如掃碼到匹配文本的 J 時，有效的可能匹配變成了2個，Rose被淘汰出局。

掃描到匹配文本的 e 時，Jack也被淘汰出局，此時就只剩一個可能的匹配了。當完成后續(xù)的rry的匹配時，整個匹配完成。

3）兩句話點評NFA與DFA

1、DFA匹配速度快但特性少（比如不支持捕獲組、反向引用），NFA匹配稍慢但能力強大；

2、DFA就好比搭載電動發(fā)動機的汽車，加速度很快，但續(xù)航短，不能出遠門，而NFA可以認為是汽油發(fā)動機的汽車，加速度沒那么快，但是適應性廣，哪里都能去，但由于適應性廣，所以調教很重要。

4）需要注意的

Java、Javascript、PHP、Python這些都是NFA引擎。

4. 過基礎（老手請?zhí)^）

5. 要點講解

1）貪婪與懶惰

貪婪模式：

盡可能匹配更多的字符。舉個栗子：

正則：<p>.*</p>

結果：

從匹配過程我們也可以發(fā)現(xiàn)對于 .* 這個表達式會嘗試盡可能多的匹配字符，直到匹配到盡頭，才嘗試匹配正則結尾的 </p> 。

懶惰模式：

與貪婪模式相反，盡可能匹配更少的字符。舉個栗子：

正則：<p>.*?</p>

結果：

從匹配過程我們也可以發(fā)現(xiàn)，會優(yōu)先匹配正則結尾的 </p> ，在沒有滿足此結尾的情況下，才盡可能的去少匹配 .*? 這個表達式。

2）子表達式與反向引用

子表達式：

考慮這種場景，有些短語雖然由多個單詞構成，但其實是一個整體，需要把它當做一個獨立元素來使用，這種時候就需要使用子表達式。子表達式必須用()圓括號括起來。用途就是，可以精確的設定需要重復匹配的文本及重復次數(shù)。

反向引用：

它允許我們在正則中引用之前子表達式匹配到的結果。這有什么用？還是舉個栗子：

需求：匹配Html代碼片段中的h1~h6標簽

正則：<h[1-6]>.*?</h[1-6]>（沒有使用反向引用）

結果：

正則：<h([1-6])>.*?</h1>（使用了反向引用）

結果：

3）回溯

NFA引擎匹配能力強大，但是調教不好，有可能引發(fā)性能問題，它有另一個叫法，叫做回溯失控。那么問題來了，什么是回溯？

舉個栗子：

我們醒來的時候，突然發(fā)現(xiàn)被困在山洞里，這時候需要尋找出路，然而前方是一個岔路口。這個時候也并沒有任何依據(jù)可以告訴我們哪一條是出路，只有挨個嘗試，于是我們可以在岔路口做個標記，以便萬一選擇的這條路走不通，可以原路返回，直到遇見做了標記的岔路口，以便繼續(xù)嘗試另一條路是不是出路。我們可以把每次嘗試失敗然后往回走，找到之前做標記的地方的這個過程，稱之為回溯。

很多情況下，依據(jù)你寫的正則表達式，正則引擎或多或少都需要進行這種2個或者多個選項的選擇。

4）斷言（環(huán)視）

先不做專業(yè)術語解釋，先來看這么一個應用場景

需求：匹配網(wǎng)頁里所有PC商品詳情頁地址所包含的sku信息

PC商品詳情頁地址格式：//item.jd.com/xxxxxx.html

方法一：先正則匹配，再截斷后面固定的.html

正則：/d+\.html/g

方法二：先正則匹配，再截斷前后固定的字符

正則：/item\.jd\.com/d+\.html/g

方法三：使用正向斷言和反向斷言，保證準確性，同時只返回sku數(shù)字

正則：/(?<=item\.jd\.com/)d+(?=\.html)/g

斷言分類：正向肯定斷言、正向否定斷言、反向肯定斷言、反向否定斷言

需要注意的：Javascript不支持反向斷言，Java也是有限制的支持反向斷言

總而言之，言而總之，當我們匹配目標關鍵字的時候，同時期望對目標關鍵字的前后進行限制，并且又不期望這些限制會出現(xiàn)在匹配結果中。這時候，就可以使用斷言。

6. 正則優(yōu)化

1）怎樣才算是一個好正則

準確性：只匹配期望的文本，排除掉不期望的文本

需求：匹配jshop手機活動頁url的域名部分

jshop手機活動頁URL格式：//xxxx.jd.xxx/m/act/xxxxxx.html

正則：///(.*)(?=/m)/g

正則：///(1*)/g

點評：如果不需要匹配/，那就應該在正則表達式中作出這樣的規(guī)定

匹配效率：很快返回匹配結果，如果不能匹配，盡可能短的時間報告匹配失敗

前面有提到過，NFA引擎功能強大，但是寫不好很容易引發(fā)效率問題。其中太多的多選分支很容易成為效率殺手，因為任何多選分支只要匹配失敗，都會導致回溯。所以提高正則匹配效率的方法之一就是減少多選分支。

舉個栗子：

需求：匹配用戶輸入的一個字符串是否是一個4位IP里的一位，直白的說就是匹配0~255

分析：可能有1位，也可能有2位，也可能有3位。3位的時候需要分開判斷，當***位是0或者1的時候，后面兩位可以是任意數(shù)字。當***位是2的時候，第二位只能是0-5。并且當?shù)诙皇?-4的時候，第三位可以是任意數(shù)字，但第二位是5的時候，第三位只能是0-5。

翻譯過來正則：/d|dd|[01]dd|2[0-4]d|25[0-5]/

合并同類項后：/[01]?dd?|2[0-4]d|25[0-5]/

點評：可以通過合并同類項來減少多選分支。同時***個多選分支使用的是 dd? 而不是 d?d ，這樣如果根本不存在數(shù)字，NFA引擎會更快地報告失敗

易讀性

……

2）使用工具

分析正則表達式

比如這個網(wǎng)站 https://jex.im/regulex

可以實現(xiàn)對復雜整個表達式的一個

測試正則表達式性能

比如這個貓頭鷹工具 RegexBuddy

可以用來測試正則表達式的匹配過程以及性能，包括各種語言下的正則特性支持情況。

3）優(yōu)化手段

優(yōu)化方針：減少回溯

1、減少或者合并多選分支

2、避免量詞的嵌套

3、占有優(yōu)先量詞?？梢詼p少回溯，遺憾的是js不支持，但java支持。

舉個栗子：考慮到 /a+b/ 和 /a++b/ 兩個正則，測試的字符串 aaaa

/a+b/ 的匹配過程

/a++b/ 的匹配過程

4、使用正確的邊界匹配器（^、$、b、B等），限定搜索字符串位置

5、盡量不使用通配符".";字符使用具體的元字符、字符類（d、w、s等）（推薦）

6、使用正確的量詞（+、*、?、{n,m}），如果能夠限定長度，匹配***

7、使用非捕獲型括號。如果不需要引用括號內的文本，請使用非捕獲型括號(?:……)，好處就是節(jié)省捕獲時間，同時減少回溯使用的狀態(tài)數(shù)量。

責任編輯：龐桂玉來源： segmentfault

前端 Javascript 正則表達式

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<legend id="uzumb"><track id="uzumb"></track></legend>