五個案例快速熟悉 Python 正則表達式應(yīng)用
正則表達式 (Regular Expression, 簡稱 regex 或 regexp) 是一種強大的文本處理工具,它使用預(yù)定義的特殊字符和模式來匹配、查找、替換和分割字符串。Python 的 re 庫提供了全面的正則表達式支持,讓你能夠在 Python 程序中輕松地處理各種文本任務(wù)。
本文將通過五個案例,帶大家逐步了解 re 庫的常用功能和技巧。
案例 1: 基礎(chǔ)匹配 - 查找郵箱地址
假設(shè)你有一段文本信息,其中包含一些郵箱地址,你想從中提取出所有的郵箱地址。
正則表達式: \w+@\w+\.\w+
- \w: 匹配字母、數(shù)字、下劃線 (word characters)。
- +: 匹配前面的字符一次或多次。
- @: 匹配 @ 符號本身。
- \.: 匹配 . 符號本身 (需要轉(zhuǎn)義,因為 . 在正則中是特殊字符,匹配任意字符)。
import re
text = "聯(lián)系我們:support@example.com 或者 sales.department@another-example.net.cn"
pattern = r'\w+@\w+\.\w+' # r'' 表示原始字符串,避免反斜杠轉(zhuǎn)義問題
emails = re.findall(pattern, text) # findall 查找所有匹配項,返回列表
print("原始文本:", text)
print("提取到的郵箱地址:", emails)
- r'\w+@\w+\.\w+' 定義了正則表達式模式。r 前綴表示原始字符串,這在正則表達式中非常推薦使用,可以避免反斜杠被 Python 字符串轉(zhuǎn)義誤解。
- re.findall(pattern, text) 函數(shù)會在 text 字符串中查找所有符合 pattern 模式的子字符串,并將它們以列表的形式返回。
上面的正則表達式是一個非?;A(chǔ)的郵箱地址匹配模式,它能匹配簡單的郵箱格式,但對于更復(fù)雜的郵箱地址 (例如包含 . 或 - 在用戶名部分) 可能無法完全匹配。在實際應(yīng)用中,你可能需要更完善的正則表達式來處理各種郵箱格式。 例如,\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 可以匹配更復(fù)雜的郵箱地址。
案例 2: 匹配手機號碼
場景:你需要驗證用戶輸入的字符串是否為中國大陸的手機號碼。
正則表達式 (簡化版):^1[3-9]\d{9}$
- ^: 匹配字符串的開始位置。
- 1: 匹配數(shù)字 1,中國大陸手機號碼通常以 1 開頭。
- [3-9]: 匹配數(shù)字 3 到 9 中的任意一個,表示手機號碼的第二位數(shù)字 (常見的號段第二位)。
- \d{9}: 匹配 9 個數(shù)字 (\d 代表數(shù)字,{9} 表示重復(fù) 9 次)。
- $: 匹配字符串的結(jié)束位置。
import re
phone_numbers = ["13812345678", "15098765432", "18655551111", "12345678901", "010-88888888"]
pattern = r'^1[3-9]\d{9}$'
for number in phone_numbers:
if re.match(pattern, number): # match 從字符串的開頭開始匹配
print(f"{number} 是一個有效的手機號碼")
else:
print(f"{number} 不是有效的手機號碼")
- ^1[3-9]\d{9}$ 定義了手機號碼的模式。^ 和 $ 確保模式從字符串的開頭匹配到結(jié)尾,避免匹配到字符串中間部分符合模式的情況。
- re.match(pattern, number) 函數(shù)嘗試從 number 字符串的開頭匹配 pattern。如果匹配成功,返回一個匹配對象;否則返回 None。
這個正則表達式只是一個簡化的版本,實際的手機號碼規(guī)則非常復(fù)雜,號段不斷更新。更嚴格的手機號碼驗證可能需要更復(fù)雜的正則表達式,或者使用專門的手機號碼驗證庫。
案例 3: 分組與提取 - 解析日期格式
你有一系列不同格式的日期字符串,例如 "2023-10-26"、"2023/10/26"、"2023年10月26日",你想統(tǒng)一提取出年、月、日。
正則表達式 (支持多種分隔符): (\d{4})[-/年](\d{1,2})[-/月](\d{1,2})日?
- (\d{4}): 用括號 () 分組,匹配 4 位數(shù)字表示年份。
- [-/年]: 匹配 -、/ 或 年 字作為分隔符。
- (\d{1,2}): 分組,匹配 1 到 2 位數(shù)字表示月份。
- [-/月]: 匹配 -、/ 或 月 字作為分隔符。
- (\d{1,2}): 分組,匹配 1 到 2 位數(shù)字表示日期。
- 日?: 匹配 "日" 字,? 表示 0 次或 1 次,即 "日" 字可選。
import re
dates = ["2023-10-26", "2023/10/26", "2023年10月26日", "2024-1-5", "invalid date"]
pattern = r'(\d{4})[-/年](\d{1,2})[-/月](\d{1,2})日?'
for date_str in dates:
match = re.search(pattern, date_str) # search 在字符串中搜索第一個匹配項
if match:
year = match.group(1) # 獲取第一個分組的內(nèi)容 (年份)
month = match.group(2) # 獲取第二個分組的內(nèi)容 (月份)
day = match.group(3) # 獲取第三個分組的內(nèi)容 (日期)
print(f"日期字符串: {date_str}, 提取結(jié)果: 年={year}, 月={month}, 日={day}")
else:
print(f"日期字符串: {date_str}, 無法解析")
- (\d{4})[-/年](\d{1,2})[-/月](\d{1,2})日? 使用括號 () 創(chuàng)建了三個分組,分別對應(yīng)年、月、日。
- re.search(pattern, date_str) 在 date_str 中搜索第一個匹配項。
- match.group(n) 方法可以獲取第 n 個分組匹配到的內(nèi)容 (從 1 開始計數(shù))。
案例 4: 替換操作 - 統(tǒng)一文本格式
你需要將文本中的所有 "Mr.", "Ms.", "Miss." 等稱謂統(tǒng)一替換為 "先生/女士"。
正則表達式 (匹配多種稱謂): (Mr\.|Ms\.|Miss\.)
- (Mr\.|Ms\.|Miss\.): 使用 | (或) 匹配 "Mr.", "Ms.", 或 "Miss."。 注意 . 需要轉(zhuǎn)義 \.。 整個部分用括號分組。
import re
text = "Hello Mr. Smith, how are you? And Ms. Jane, are you doing well? Also, Miss. Lee is joining us."
pattern = r'(Mr\.|Ms\.|Miss\.)'
replacement = '先生/女士'
new_text = re.sub(pattern, replacement, text) # sub 執(zhí)行替換操作
print("原始文本:", text)
print("替換后的文本:", new_text)
- r'(Mr\.|Ms\.|Miss\.)' 定義了要匹配的稱謂模式。
- re.sub(pattern, replacement, text) 函數(shù)會在 text 中查找所有匹配 pattern 的子字符串,并用 replacement 字符串替換它們。
案例 5: 分割字符串 - 按多種分隔符分割
你需要將一段文本按照句號、逗號、問號、感嘆號等多種標點符號分割成句子。
正則表達式 (匹配多種標點符號): [.,?!]
- [.,?!]: 字符集 [] 匹配方括號中列出的任意一個字符,這里匹配句號 .、逗號 ,、問號 ?、感嘆號 !。
import re
text = "This is the first sentence. And this is the second, with a comma! Is this the third? Yes it is."
pattern = r'[.,?!]'
sentences = re.split(pattern, text) # split 根據(jù)模式分割字符串,返回列表
print("原始文本:", text)
print("分割后的句子列表:", sentences)
- r'[.,?!]' 定義了分隔符模式,匹配任何句號、逗號、問號或感嘆號。
- re.split(pattern, text) 函數(shù)會根據(jù) pattern 將 text 字符串分割成多個子字符串,并將它們以列表形式返回。 分割符本身不會包含在返回的子字符串中。
總結(jié)
這5個案例展示了 re 庫在 Python 中處理正則表達式的一些基本和常用功能:
- re.findall(): 查找所有匹配項。
- re.match(): 從字符串開頭匹配。
- re.search(): 在字符串中搜索第一個匹配項。
- re.sub(): 替換匹配項。
- re.split(): 根據(jù)模式分割字符串。
同時,我們也接觸了一些常用的正則表達式語法元素:
- 字符類: \w, \d, \s, . 等
- 量詞: +, *, ?, {n}, {n,m}
- 錨點: ^, $
- 分組: ()
- 字符集: []
- 或: |
要深入掌握正則表達式,還需要不斷學(xué)習(xí)和實踐。 你可以查閱 Python re 庫的官方文檔,以及在線正則表達式教程和工具,例如 https://regex101.com/ (一個非常棒的在線正則表達式測試工具)。