Python網(wǎng)頁爬蟲制作DIY實際操作
作者:佚名
Python爬蟲編寫是一個很有意思的事情,有很多有趣的知識需要我們?nèi)W(xué)習(xí),下面我們就來看看在編寫Python網(wǎng)頁爬蟲的時候具體需要怎么做。
Python網(wǎng)頁爬蟲在實際的使用中需要我們注意很多的地方,其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學(xué)習(xí)下如何自己動手編寫一個Python網(wǎng)頁爬蟲。
這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結(jié)構(gòu)很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:
- #!/usr/bin/env python
- # -*- coding: GBK -*-
- import urllib
- from sgmllib import SGMLParser
- class URLLister(SGMLParser):
- def reset(self):
- SGMLParser.reset(self)
- self.urls = []
- def start_a(self, attrs):
- href = [v for k, v in attrs if k == 'href']
- if href:
- self.urls.extend(href)
- url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
ngShuoShenMo/'- sock = urllib.urlopen(url)
- htmlSource = sock.read()
- sock.close()
- #print htmlSource
- f = file('jingangjing.html', 'w')
- f.write(htmlSource)
- f.close()
- mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
gJingShuoShenMo/'- parser = URLLister()
- parser.feed(htmlSource)
- for url in parser.urls:
- myurl = mypath + url
- print "get: " + myurl
- sock2 = urllib.urlopen(myurl)
- html2 = sock2.read()
- sock2.close()
- # 保存到文件
- print "save as: " + url
- f2 = file(url, 'w')
- f2.write(html2)
- f2.close()
以上就是對Python網(wǎng)頁爬蟲在編寫過程中的詳細(xì)介紹。
【編輯推薦】
責(zé)任編輯:張浩
來源:
互聯(lián)網(wǎng)