自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python Crawler – 網信貸黑名單數(shù)據(jù)爬取

大數(shù)據(jù)
現(xiàn)在我要獲取的是“姓名、身份證、手機號、微信、支付寶”,這里我使用的是XPATH來獲取這些數(shù)據(jù),因為這樣更簡單一些。

[[197102]]

網信貸黑名單網站截圖:

真實數(shù)據(jù)截圖:

我這里想爬取這些個人的信息,但是有些內容是需要登陸才可以查看的,所以先去注冊了一個賬號。

登陸進來后得到的內容是完整的:

(PS:這里就不激活郵箱了)

– 結構分析&代碼編寫

這些被黑名單的人信息是首頁點入進去的,對比下:

  1. <tr onclick="localHref('jgp94CtrsB')" class="pointer"

點開后的鏈接是:

acklist-jgp94CtrsB.html

相信大家一眼就看出來了規(guī)律吧,顯示的HTML代碼中有鏈接特征。

根據(jù)鏈接的規(guī)則我們可以寫出這樣一段python代碼:

  1. target_url = 'https://*.cc' #設置url 
  2. r = requests.get(target_url) #訪問url 
  3. html = r.text#獲取html代碼 
  4. h = r"localHref(\'(.*?)\')" #正則代碼 
  5. h_re = re.compile(h) #生成正則 
  6. href_all = h_re.findall(html) #正則匹配出鏈接特征 
  7. for i in href_all: #匹配出來的鏈接特征需要用for遍歷 
  8.    url = 'https://*.cc/blacklist-' + i + '.html' #遍歷出來組合成url 

現(xiàn)在我要獲取的是“姓名、身份證、手機號、微信、支付寶”,這里我使用的是XPATH來獲取這些數(shù)據(jù),因為這樣更簡單一些。

大概的來了解下XPATH的語法吧:

這里完全可以使用更快速的方法:

直接使用Firebug或者其它瀏覽器的Copy XPath:

得到的XPath語法:

  1. /html/body/div[2]/div/div/h2 

我們要獲取的名字是h2標簽內的所以直接修改成:

  1. /html/body/div[2]/div/div/h2/text() 

直接上Python代碼:

(注:from lxml import etree 是支持XPath語法的庫)

可以看到輸出的結果是unicode編碼 ,直接解碼就顯示了:

其他的XPath代碼:

  1. sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()') #身份證 
  2. phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()') #手機號 
  3. wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()') #微信 
  4. alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()') #支付寶 

這里要記得加上登陸的Cookie去訪問哦:

1.在控制臺輸入document.cookie獲取Cookie

2.帶上Cookie請求訪問

  1. geturl = requests.get(url,headers={'Cookie':'__cfduid=d8b7bef3c3b678161d9fe747ccb651cea1499931877; PHPSESSID=mp6oh6j7o03hqd42n06r9p2bii;  
  2. AJSTAT_ok_pages=5; AJSTAT_ok_times=1; _ga=GA1.2.1572452184.1499931870; _gid=GA1.2.2100292624.1499931870'}) 

– 最后

核心的代碼都寫好了,其他的就是結構的梳理,完善代碼:

  1. import requests,re 
  2. from requests.packages.urllib3.exceptions import InsecureRequestWarning 
  3. requests.packages.urllib3.disable_warnings(InsecureRequestWarning) 
  4. from lxml import etree 
  5. target_url = 'https://www.xinyongheimingdan.cc/' 
  6. cookie = '你的cookie' 
  7. r = requests.get(target_url,headers={ 
  8.     'Cookie':cookie 
  9.     }) 
  10. html = r.text 
  11. h = r"localHref\(\'(.*?)\'\)" 
  12. h_re = re.compile(h) 
  13. href_all = h_re.findall(html) 
  14.  
  15. for i in href_all: 
  16.     url = 'https://www.xinyongheimingdan.cc/blacklist-' + i + '.html' 
  17.     geturl = requests.get(url,headers={ 
  18.             'Cookie':cookie 
  19.             }) 
  20.     urlHTML = geturl.text.encode("utf-8"
  21.     htmlOBJ = etree.HTML(urlHTML) 
  22.     nameOBJ = htmlOBJ.xpath('/html/body/div[2]/div/div/h2/text()'
  23.     sfzOBJ = htmlOBJ.xpath('//h3[@class="margin_top_15"]/span[@class="inline"]/i[1]/text()'
  24.     phoneOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/h3[1]/span[2]/i/text()'
  25.     wechatOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[1]/text()'
  26.     alipayOBJ = htmlOBJ.xpath('//*[@id="body"]/div/div/div[3]/span[2]/text()'
  27.     all_info = nameOBJ,sfzOBJ,phoneOBJ,wechatOBJ,alipayOBJ 
  28.     print all_info 

成果:

責任編輯:武曉燕 來源: 36大數(shù)據(jù)
相關推薦

2011-01-21 17:53:44

Zimbra

2011-06-02 10:52:11

Android BroadCast 黑名單

2015-06-04 11:11:15

2013-08-27 10:56:24

2010-11-11 13:20:41

2010-05-24 13:36:11

2009-10-29 08:39:14

Windows 7系統(tǒng)激活

2018-06-10 09:04:28

2019-07-29 08:41:33

算法黑名單ip

2011-03-18 13:14:01

2011-07-28 11:10:58

2010-11-01 09:17:21

超級黑名單騰訊QQ360安全中心

2009-05-14 09:11:49

歐盟反壟斷黑名單

2010-01-21 11:44:41

垃圾郵件實時黑名單技術

2012-11-23 17:13:59

2014-06-06 09:38:22

工信部應用軟件黑名單

2012-11-23 10:15:06

2013-11-20 14:02:52

2013-02-25 09:37:38

2020-10-12 09:10:09

黑名單
點贊
收藏

51CTO技術棧公眾號