自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="0rozw"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一日一技：Selenium 抓不到的內(nèi)容

作者：kingname 2021-04-27 22:15:02

安全應(yīng)用安全

有一些同學(xué)在寫爬蟲的時候，過于依賴 Selenium，覺得只要使用模擬瀏覽器，在不被網(wǎng)站屏蔽的情況下，就可以爬到任何內(nèi)容。

有一些同學(xué)在寫爬蟲的時候，過于依賴 Selenium，覺得只要使用模擬瀏覽器，在不被網(wǎng)站屏蔽的情況下，就可以爬到任何內(nèi)容。

今天我們不討論字體反爬蟲和 CSS 反爬蟲這兩種情況。我們來看一段非常簡單的網(wǎng)頁。這個網(wǎng)頁只有一個HTML 文件，不加載特殊字體，不加載 CSS 文件。

這個網(wǎng)頁的奇怪之處在哪里呢?我們試一試使用 XPath Helper 來提取網(wǎng)頁上面的紅色文字，發(fā)現(xiàn)XPath 竟然無法找到這段文字，如下圖所示：

然后我們使用 Selenium 來試一試：

Selenium果然無法獲取紅字到內(nèi)容。我們再打印一下網(wǎng)頁的源代碼：

這一次，Selenium 獲取到的源代碼，竟然跟 Chrome 開發(fā)者工具里面顯示的源代碼不一樣?

這個問題的關(guān)鍵，就在開發(fā)者工具里面的這樣一段文字：

因?yàn)檫@個節(jié)點(diǎn)是一個shadow DOM[1]。shadow DOM 的行為跟 iframe很像，都是把一段HTML 信息嵌入到另一個 HTML 中。但不同的是，iframe被嵌入的地址需要額外再搭建一個 HTTP服務(wù)，而 shadow DOM 可以只嵌入一段 HTML 代碼，所以它比 iframe 更節(jié)省資源。

在上面的截圖中，通過下面這三行代碼，我們把一個新的

標(biāo)簽嵌入到了原來的 HTML 中：

var content = document.querySelector('.content'); 
    var root = content.attachShadow({mode: 'open'}); 
    root.innerHTML = '<p class="real_content" style="color: red">你抓不到這段文字的！</p>'

而這個被嵌入的影子標(biāo)簽，就像 iframe 一樣，是無法直接使用 Selenium 提取的。如果強(qiáng)行提取，那么，我們需要使用 JavaScript 獲取 shadow DOM，然后再進(jìn)行提取。我們來看一段可以正常工作的代碼：

shadow = driver.execute_script('return document.querySelector(".content").shadowRoot') 
content = shadow.find_element_by_class_name('real_content') 
print(content.text)

運(yùn)行效果如下圖所示：

這段代碼，首先通過 JavaScript 找到shadow-root的父節(jié)點(diǎn)元素，然后返回這個元素的.shadowRoot屬性。在 Python 里面拿到這個屬性以后，使用.find_element_by_class_name()方法獲取里面的內(nèi)容。

要特別注意的是，拿到shadow-root節(jié)點(diǎn)以后，只能通過 CSS 選擇器進(jìn)一步篩選里面的內(nèi)容，不能用 XPath，否則會導(dǎo)致報錯。

參考資料

[1]

shadow DOM: https://developer.mozilla.org/zh-CN/docs/Web/Web_Components/Using_shadow_DOM

本文轉(zhuǎn)載自微信公眾號「未聞Code」，可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系未聞Code公眾號。

責(zé)任編輯：武曉燕來源：未聞Code

Selenium 瀏覽器爬蟲

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="r1wqe"><p id="r1wqe"></p></sub>

<sub id="r1wqe"></sub>

<sub id="r1wqe"></sub>