自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<nobr id="i0xkc"><strong id="i0xkc"><label id="i0xkc"></label></strong></nobr>

<pre id="i0xkc"></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲基本實(shí)現(xiàn)代碼解讀

作者：佚名 2010-03-03 09:30:40

開(kāi)發(fā) 后端

Python實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲的實(shí)現(xiàn)，可以幫助用戶輕松的實(shí)現(xiàn)網(wǎng)頁(yè)的離線查看，那么在這篇文章中，我們將會(huì)通過(guò)一段代碼為大家詳細(xì)解讀相關(guān)操作方法。

Python是一款功能強(qiáng)大的計(jì)算機(jī)程序語(yǔ)言，同時(shí)也可以被看做是一款面向?qū)ο蟮耐ㄓ眯驼Z(yǔ)言。它的功能特點(diǎn)比較突出，極大的方便開(kāi)發(fā)人員應(yīng)用。在這里我們先來(lái)一起了解一下有關(guān)Python市縣網(wǎng)頁(yè)爬蟲的方法。

今天看到一個(gè)網(wǎng)頁(yè)，又因?yàn)樵诩依镉秒娫捑€上網(wǎng)，一直在線閱讀很麻煩。所以就寫了個(gè)簡(jiǎn)單的程序把網(wǎng)頁(yè)抓下來(lái)離線閱讀，省點(diǎn)電話費(fèi)：）這個(gè)程序因?yàn)橹黜?yè)面鏈接到的頁(yè)面都在同一個(gè)目錄下，結(jié)構(gòu)很簡(jiǎn)單，只有一層。因此寫了一些硬編碼做鏈接地址的分析。

Python實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲代碼如下：

#!/usr/bin/env python  
# -*- coding: GBK -*-  
import urllib  
from sgmllib import SGMLParser  
class URLLister(SGMLParser):  
def reset(self):  
SGMLParser.reset(self)  
self.urls = []  
def start_a(self, attrs):  
href = [v for k, v in attrs if k == 'href']  
if href:  
self.urls.extend(href)  
url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
sock = urllib.urlopen(url)  
htmlSource = sock.read()  
sock.close()  
#print htmlSource  
f = file('jingangjing.html', 'w')  
f.write(htmlSource)  
f.close()  
mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJingShuoShenMo/' 
parser = URLLister()  
parser.feed(htmlSource)  
for url in parser.urls:  
myurl = mypath + url  
print "get: " + myurl  
sock2 = urllib.urlopen(myurl)  
html2 = sock2.read()  
sock2.close()  
# 保存到文件  
print "save as: " + url  
f2 = file(url, 'w')  
f2.write(html2)  
f2.close()

以上就是我們?yōu)榇蠹医榻B的有關(guān)Python實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲的實(shí)現(xiàn)方法。

【編輯推薦】

深度講述Python標(biāo)準(zhǔn)語(yǔ)言特性
深度剖析Python語(yǔ)言?shī)W秘
探秘簡(jiǎn)單強(qiáng)大的Python語(yǔ)言
對(duì)Python測(cè)試問(wèn)題全解析
幾分鐘教會(huì)您Python程序配置問(wèn)題

責(zé)任編輯：曹凱來(lái)源：博客園

Python實(shí)現(xiàn)網(wǎng)頁(yè)爬蟲

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="eigbn"></pre><tr id="eigbn"><fieldset id="eigbn"></fieldset></tr>

<em id="eigbn"><tt id="eigbn"><kbd id="eigbn"></kbd></tt></em>