自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python網(wǎng)頁爬蟲制作DIY實際操作

作者：佚名 2010-03-09 09:32:20

開發(fā) 后端

Python爬蟲編寫是一個很有意思的事情，有很多有趣的知識需要我們?nèi)W(xué)習(xí)，下面我們就來看看在編寫Python網(wǎng)頁爬蟲的時候具體需要怎么做。

Python網(wǎng)頁爬蟲在實際的使用中需要我們注意很多的地方，其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學(xué)習(xí)下如何自己動手編寫一個Python網(wǎng)頁爬蟲。

這個程序因為主頁面鏈接到的頁面都在同一個目錄下，結(jié)構(gòu)很簡單，只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下：

#!/usr/bin/env python  
# -*- coding: GBK -*-  
import urllib  
from sgmllib import SGMLParser  
class URLLister(SGMLParser):  
def reset(self):  
SGMLParser.reset(self)  
self.urls = []  
def start_a(self, attrs):  
href = [v for k, v in attrs if k == 'href']  
if href:  
self.urls.extend(href)  
url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
ngShuoShenMo/' 
sock = urllib.urlopen(url)  
htmlSource = sock.read()  
sock.close()  
#print htmlSource  
f = file('jingangjing.html', 'w')  
f.write(htmlSource)  
f.close()  
mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
gJingShuoShenMo/' 
parser = URLLister()  
parser.feed(htmlSource)  
for url in parser.urls:  
myurl = mypath + url  
print "get: " + myurl  
sock2 = urllib.urlopen(myurl)  
html2 = sock2.read()  
sock2.close()  
# 保存到文件  
print "save as: " + url  
f2 = file(url, 'w')  
f2.write(html2)  
f2.close()

以上就是對Python網(wǎng)頁爬蟲在編寫過程中的詳細(xì)介紹。

【編輯推薦】

Python腳本解決在游戲開發(fā)中的困難
簡述Python語言經(jīng)驗總結(jié)
Python對象主要特征解析
Python顯示UTF-8中文文本具體操作方法講解
Python綁定C++程序具體實現(xiàn)方法淺談

責(zé)任編輯：張浩來源：互聯(lián)網(wǎng)

Python網(wǎng)頁爬蟲

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="cvkiu"><p id="cvkiu"></p></blockquote>