自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="gghbm"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python 爬蟲三劍客：玩轉(zhuǎn) Requests、BeautifulSoup、Selenium！

作者：Ss肥魚 2025-04-22 09:39:46

今天我們舉例，搞懂 Python 爬蟲最常用的三大工具！學(xué)會這三大爬蟲工具，就能勝任 80% 的網(wǎng)頁數(shù)據(jù)抓取任務(wù)。

想提取頁面標(biāo)題、關(guān)鍵內(nèi)容？今天我們舉例，搞懂 Python 爬蟲最常用的三大工具！

Requests：快速發(fā)起請求，獲取網(wǎng)頁結(jié)果

適合處理靜態(tài)網(wǎng)頁，比如獲取CSDN結(jié)果的原始 HTML。不保證一定獲取網(wǎng)頁內(nèi)容，看網(wǎng)站保護措施。

示例：請求CSDN頁面

import requests

url = "https://www.csdn.net/"
headers = {
    "User-Agent": "Mozilla/5.0"
}

res = requests.get(url, headers=headers)
print(res.text[:500])  # 打印前 500 個字符

適合初學(xué)者：一行代碼就能發(fā)請求。

BeautifulSoup：解析 HTML 內(nèi)容，提取標(biāo)題

搭配 Requests，解析頁面結(jié)構(gòu)，提取標(biāo)題。

示例：提取資訊頭條的標(biāo)題

import requests
from bs4 import BeautifulSoup

url = "https://www.csdn.net/"
headers = {
    "User-Agent": "Mozilla/5.0"
}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "lxml")

results = soup.select("div.home-info")  # 獲取“資訊頭條”的標(biāo)題

title = results[0].find("span").get_text()
print(f"{title}\n")

Selenium：模擬瀏覽器操作，解決 JavaScript 加載問題

如果你想實現(xiàn)「打開百度首頁 → 輸入關(guān)鍵詞 → 自動點擊搜索」的完整流程，Selenium 就是你的神器！

示例：自動在百度搜索“Python 爬蟲”

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()
driver.get("https://www.baidu.com")

# 找到輸入框并輸入關(guān)鍵詞
search_input = driver.find_element(By.ID, "kw")
search_input.send_keys("Python 爬蟲")
search_input.send_keys(Keys.RETURN)

# 頁面就自動跳轉(zhuǎn)了
time.sleep(200)

# 具體爬取內(nèi)容方法后續(xù)詳細講
driver.quit()

優(yōu)點：完全模擬瀏覽器操作，可見即可爬。

推薦組合方式

頁面類型	推薦工具
普通 HTML 頁面	`Requests + BeautifulSoup`
JavaScript 頁面	`Selenium`
登錄、操作交互頁	`Selenium`
接口 API	`Requests`

反爬建議

加入User-Agent，防止被百度判定為爬蟲
加上time.sleep()，模擬人類訪問行為
控制請求頻率，避免被封 IP

小結(jié)

工具	優(yōu)勢	劣勢
Requests	快速輕便	不能處理 JS
BeautifulSoup	提取結(jié)構(gòu)清晰、簡單	需搭配其他庫
Selenium	模擬瀏覽器功能強大	啟動慢、資源消耗大

學(xué)會這三大爬蟲工具，就能勝任 80% 的網(wǎng)頁數(shù)據(jù)抓取任務(wù)。關(guān)于js逆向不適合小白學(xué)習(xí)，并且爬蟲爬數(shù)據(jù)本就要遵守網(wǎng)站的規(guī)則，如果設(shè)置復(fù)雜驗證了，那就是不想讓你去爬，強行為之可別太刑了。

責(zé)任編輯：趙寧寧來源： Ssoul肥魚

Python 爬蟲網(wǎng)頁數(shù)據(jù)抓取

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="2r1qh"></blockquote>}

<sub id="2r1qh"><p id="2r1qh"></p></sub>

<pre id="2r1qh"><strike id="2r1qh"></strike></pre><tr id="2r1qh"></tr>