一日一技:XPath 匹配如何忽略大小寫?
作者: kingname
GNE[1]在對新聞進(jìn)行預(yù)處理的時(shí)候,會提前移除一些顯然不可能包含正文的 Dom 節(jié)點(diǎn),從而增加提取的準(zhǔn)確性。
GNE[1]在對新聞進(jìn)行預(yù)處理的時(shí)候,會提前移除一些顯然不可能包含正文的 Dom 節(jié)點(diǎn),從而增加提取的準(zhǔn)確性。
一般來說,網(wǎng)頁的版權(quán)信息,頁尾信息,會放在一個(gè)叫做<div class="footer"></div>的標(biāo)簽里面。所以,要用 XPath 找到這種版權(quán)信息,本來應(yīng)該非常簡單://div[@class="footer"]。但實(shí)際場景中,可能有兩種情況:<div class="xxxfooteryyy"></div>和<div class="Footer">。
責(zé)任編輯:武曉燕
來源:
未聞Code