自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<abbr id="gppl2"><menu id="gppl2"></menu></abbr><dfn id="gppl2"><strike id="gppl2"><input id="gppl2"></input></strike></dfn>

<samp id="gppl2"><option id="gppl2"></option></samp>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

通用爬蟲技術要點： Dom樹的重建

作者：kingname 2020-12-08 06:19:33

開發(fā) 前端

HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進行修改，剔除無關的節(jié)點，合并復雜但沒有必要的嵌套節(jié)點……改寫以后，輸出相對標準和統(tǒng)一的 HTML，傳給下游的信息抽取組件進行內(nèi)容抽取。

這個問題來自于讀者交流群。原問題如下圖所示：

這個問題在通用爬蟲的開發(fā)過程中確實會涉及到。因為網(wǎng)頁的HTML 結構千變?nèi)f化，但是，通用爬蟲需要在不預先知道目標網(wǎng)頁結構的情況下對其中的內(nèi)容進行提取。

這種情況下，通用爬蟲一般會分成幾個不同的部分，如下圖所示：

其中，HTML 源碼改寫這一個組件，會根據(jù)一定的策略對網(wǎng)頁源代碼進行修改，剔除無關的節(jié)點，合并復雜但沒有必要的嵌套節(jié)點……改寫以后，輸出相對標準和統(tǒng)一的 HTML，傳給下游的信息抽取組件進行內(nèi)容抽取。

這位同學的問題，就涉及到對源代碼進行改寫。實際上，使用 lxml 在 DOM 樹中插入一個節(jié)點，這本來根本不是什么問題。任何一個會使用 Google 的同學，只要搜索lxml html insert element，自然就能找到大量的解決方法，如下圖所示：

但是，這個問題怪就怪在，它需要在文本節(jié)點的前面增加子節(jié)點。干講可能不好描述，我用一個例子來說明這個問題。

大家先來看這段代碼：

from lxml.html import fromstring, Element, etree 
from html import unescape 
html = ''' 
<div> 
    <p>你好</p> 
</div> 
''' 
 
node = fromstring(html) 
p_node = node.find('.//p') 
element = Element('span') 
element.text = '青南' 
p_node.insert(0, element) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

根據(jù)我們使用 Python 列表的經(jīng)驗，如果一個列表a現(xiàn)在是['你好']，當我們執(zhí)行a.insert(0, '青南')以后，得到的結果應該是['青南', '你好']。但是我們來看看上面這段代碼的運行效果：

可以看到，青南是在你好后面的。大家再看本文最開頭的圖，提問者舉出的例子中，他希望把子節(jié)點插入到文本之前。具體到這個例子中，應該是青南你好。

大家可以試一試，你在 Google 上面無論怎么搜索，都找不到如何把節(jié)點插入到文本前面的方法。

但實際上，只要回歸官方文檔，你就會發(fā)現(xiàn)整個問題的解決方法并不困難。我們需要使用的，是lxml.html.builder[1]。

還是上面的例子，如何把 span 標簽弄到文本前面呢?我們用 builder來實現(xiàn)：

from lxml.html import builder 
from html import unescape 
 
 
html = ''' 
<div></div> 
''' 
 
node = fromstring(html) 
new_node = builder.P(builder.SPAN('青南'), '你好') 
node.append(new_node) 
new_html = unescape(etree.tostring(node).decode()) 
print(new_html)

運行效果如下圖所示：

看到這里，可能有同學會覺得我在耍無賴。這就像是讓我寫一個程序，計算斐波那契數(shù)列前5項的值，于是我5秒鐘寫出了答案print(1, 1, 2, 3, 5)。上面的代碼中，我直接使用builder.P(builder.SPAN('青南'), '你好')，這跟直接寫<p><span>青南</span>你好</p>有什么區(qū)別？這不是在作弊嗎？

我知道你很不服氣，但是，這就是真實的情況。通用爬蟲在做 HTML源碼改寫的時候，就是這樣做的。因為直接對網(wǎng)頁的 Dom 樹進行改寫是非常麻煩的事情。如果直接修改 Dom 樹，經(jīng)常會出現(xiàn)需要找一個節(jié)點的父節(jié)點，然后再找父節(jié)點的兄弟節(jié)點的子節(jié)點進行修改?；蛘咭袛嗄硞€節(jié)點是否有子節(jié)點，有和沒有，需要兩種邏輯來處理，才能防止破壞 Dom 樹。

所以，我們一般不會直接修改 Dom 樹，而是一邊掃描原始的 Dom 樹，一邊使用 builder 重建一個新的 Dom 樹。重建 Dom 樹的過程比修改 Dom 樹的過程要簡單很多，畢竟寫過代碼的人都知道，寫新代碼比改別人的代碼容易很多。

參考資料

[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html

本文轉載自微信公眾號「未聞Code」，可以通過以下二維碼關注。轉載本文請聯(lián)系未聞Code公眾號。

責任編輯：武曉燕來源：未聞Code

爬蟲 Dom樹組件

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<var id="i5184"></var>