自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="tlbio"><b id="tlbio"><em id="tlbio"></em></b></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一日一技：XPath 匹配如何忽略大小寫？

作者： kingname 2021-11-03 20:16:49

開發(fā) 前端

GNE[1]在對新聞進(jìn)行預(yù)處理的時(shí)候，會提前移除一些顯然不可能包含正文的 Dom 節(jié)點(diǎn)，從而增加提取的準(zhǔn)確性。

GNE[1]在對新聞進(jìn)行預(yù)處理的時(shí)候，會提前移除一些顯然不可能包含正文的 Dom 節(jié)點(diǎn)，從而增加提取的準(zhǔn)確性。

一般來說，網(wǎng)頁的版權(quán)信息，頁尾信息，會放在一個(gè)叫做<div class="footer"></div>的標(biāo)簽里面。所以，要用 XPath 找到這種版權(quán)信息，本來應(yīng)該非常簡單：//div[@class="footer"]。但實(shí)際場景中，可能有兩種情況：<div class="xxxfooteryyy"></div>和<div class="Footer">。

footer前后都有字符的時(shí)候，我們可以使用 XPath 的關(guān)鍵詞contains：//div[contains(@class, "footer")]，運(yùn)行效果如下圖所示：

但如果我們想忽略大小寫的時(shí)候怎么辦呢?實(shí)際上，在 XPath 2.0的標(biāo)準(zhǔn)里面，有一個(gè)關(guān)鍵字叫做lower-case就可以實(shí)現(xiàn)這個(gè)需求，XPath 寫為： //div[lower-case(@class)="footer"]/text()。我們可以在一些在線 XPath 檢查的工具里面看到提取效果，如下圖所示：

但壞就壞在，Python 的第三方庫lxml使用的是 XPath 1.0標(biāo)準(zhǔn)，因此沒有l(wèi)ower-case這個(gè)關(guān)鍵字。所以要實(shí)現(xiàn)這個(gè)需求，我們需要使用另一個(gè)關(guān)鍵字translate：//div[translate(@class, "ABCDEFGHIJKLMNOPQRSTUVWXYZ", "abcdefghijklmnopqrstuvwxyz")="footer"]/text()。

運(yùn)行效果如下圖所示：

這里的translate效果就跟 Python 字符串的translate差不多。我以前寫過一篇文章：一日一技：在字符串中批量替換單個(gè)字符介紹在 Python 里面怎么使用translate方法。

XPath 的translate的語法為：translate(目標(biāo)屬性, 需要替換的字符, 替換成字符)。這樣就可以把節(jié)點(diǎn)的目標(biāo)屬性值轉(zhuǎn)成小寫再來對比。

那么，如果HTML 標(biāo)簽的屬性值是xxxFooteryyy怎么辦呢?其實(shí)我們也可以像函數(shù)嵌套一樣再套一層contains：//div[contains(translate(@class, "ABCDEFGHIJKLMNOPQRSTUVWXYZ", "abcdefghijklmnopqrstuvwxyz"), "footer")]

運(yùn)行效果如下圖所示：

參考文獻(xiàn)

[1]GNE: https://github.com/GeneralNewsExtractor/GeneralNewsExtractor

本文轉(zhuǎn)載自微信公眾號「未聞Code」，可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系未聞Code公眾號。

責(zé)任編輯：武曉燕來源：未聞Code

匹配 Python 字符

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="jhopj"><b id="jhopj"></b></del>