自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python網(wǎng)頁爬蟲制作DIY實際操作

開發(fā) 后端
Python爬蟲編寫是一個很有意思的事情,有很多有趣的知識需要我們?nèi)W(xué)習(xí),下面我們就來看看在編寫Python網(wǎng)頁爬蟲的時候具體需要怎么做。

Python網(wǎng)頁爬蟲在實際的使用中需要我們注意很多的地方,其實有的東西大家看著難但是在實際操作起來的話都很簡單。下面我們就來學(xué)習(xí)下如何自己動手編寫一個Python網(wǎng)頁爬蟲。

這個程序因為主頁面鏈接到的頁面都在同一個目錄下,結(jié)構(gòu)很簡單,只有一層。因此寫了一些硬編碼做鏈接地址的分析。
代碼如下:

  1. #!/usr/bin/env python  
  2. # -*- coding: GBK -*-  
  3. import urllib  
  4. from sgmllib import SGMLParser  
  5. class URLLister(SGMLParser):  
  6. def reset(self):  
  7. SGMLParser.reset(self)  
  8. self.urls = []  
  9. def start_a(self, attrs):  
  10. href = [v for k, v in attrs if k == 'href']  
  11. if href:  
  12. self.urls.extend(href)  
  13. url = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGangJi
    ngShuoShenMo/'
     
  14. sock = urllib.urlopen(url)  
  15. htmlSource = sock.read()  
  16. sock.close()  
  17. #print htmlSource  
  18. f = file('jingangjing.html', 'w')  
  19. f.write(htmlSource)  
  20. f.close()  
  21. mypath = r'http://www.sinc.sunysb.edu/Clubs/buddhism/JinGan
    gJingShuoShenMo/'
     
  22. parser = URLLister()  
  23. parser.feed(htmlSource)  
  24. for url in parser.urls:  
  25. myurl = mypath + url  
  26. print "get: " + myurl  
  27. sock2 = urllib.urlopen(myurl)  
  28. html2 = sock2.read()  
  29. sock2.close()  
  30. # 保存到文件  
  31. print "save as: " + url  
  32. f2 = file(url, 'w')  
  33. f2.write(html2)  
  34. f2.close() 

以上就是對Python網(wǎng)頁爬蟲在編寫過程中的詳細(xì)介紹。

【編輯推薦】

  1. Python腳本解決在游戲開發(fā)中的困難
  2. 簡述Python語言經(jīng)驗總結(jié)
  3. Python對象主要特征解析
  4. Python顯示UTF-8中文文本具體操作方法講解
  5. Python綁定C++程序具體實現(xiàn)方法淺談
責(zé)任編輯:張浩 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2010-03-10 19:00:20

Pythonnext函

2010-03-09 18:55:27

Python djan

2010-03-05 15:07:35

Python優(yōu)化圖片

2010-03-12 15:29:19

Pythonexe

2010-05-10 10:19:28

Oracle實戰(zhàn)RMA

2010-03-16 12:39:09

python for

2010-03-25 17:28:41

Python配置

2010-06-01 15:54:46

MySQL-pytho

2010-03-31 16:11:00

Oracle啟動

2010-04-01 13:39:43

Oracle Name

2010-05-18 17:39:13

MySQL alter

2010-04-14 17:06:41

Oracle安裝路徑

2010-04-16 13:59:40

Oracle數(shù)據(jù)

2010-05-19 10:37:06

MySQL expla

2010-04-01 14:06:13

Oracle Name

2010-04-20 11:06:33

Oracle索引

2010-06-12 13:39:33

MySQL操作blob

2020-04-28 15:10:12

OpenCV Pyth閾值Linux

2010-03-17 13:14:00

Python Libr

2010-03-15 16:54:11

Python字典
點贊
收藏

51CTO技術(shù)棧公眾號