自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="eyl5p"><option id="eyl5p"><tbody id="eyl5p"></tbody></option></thead>

<u id="eyl5p"><label id="eyl5p"><input id="eyl5p"></input></label></u>

<sup id="eyl5p"><tt id="eyl5p"><source id="eyl5p"></source></tt></sup>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

50行Python代碼獲取高考志愿信息，再也不用百度啦

作者：樂百川 2019-07-23 09:08:43

開發(fā) 后端新聞

最近遇到個(gè)任務(wù)，需要將高考志愿信息保存成Excel表格，BOSS丟給我一個(gè)網(wǎng)址表格之后就讓我自己干了。雖然我以前也學(xué)習(xí)過Python編寫爬蟲的知識(shí)，不過時(shí)間長(zhǎng)了忘了，于是摸索了一天之后終于完成了任務(wù)。不得不說，Python干這個(gè)還是挺容易的，最后寫完一看代碼，只用了50行就完成了任務(wù)。

最近遇到個(gè)任務(wù)，需要將高考志愿信息保存成Excel表格，BOSS丟給我一個(gè)網(wǎng)址表格之后就讓我自己干了。雖然我以前也學(xué)習(xí)過Python編寫爬蟲的知識(shí)，不過時(shí)間長(zhǎng)了忘了，于是摸索了一天之后終于完成了任務(wù)。不得不說，Python干這個(gè)還是挺容易的，最后寫完一看代碼，只用了50行就完成了任務(wù)。

準(zhǔn)備工作

首先明確一下任務(wù)。首先我們要從網(wǎng)址表格中讀取到一大串網(wǎng)址，然后訪問每個(gè)網(wǎng)址，獲取到頁面上的學(xué)校信息，然后將它們?cè)趯懙搅硪粋€(gè)Excel中。顯然，我們需要一個(gè)爬蟲庫和一個(gè)Excel庫來幫助我們完成任務(wù)。

第一步自然是安裝它們，requests-html是一個(gè)非常好用的HTML解析庫，拿來做簡(jiǎn)單的爬蟲非常優(yōu)雅;而openpyxl是一個(gè)Excel表格庫，可以輕松創(chuàng)建和處理Excel數(shù)據(jù)。

pip install requests-html openpyxl

然后就是網(wǎng)址表格，大概長(zhǎng)這樣，總共大概一千七百多條數(shù)據(jù)。其中有少量網(wǎng)址是錯(cuò)誤的，訪問會(huì)得到404錯(cuò)誤，所以在編寫代碼的時(shí)候還要注意錯(cuò)誤處理。

任務(wù)分析

任務(wù)的核心自然就是分析和獲取網(wǎng)頁內(nèi)容了。首先現(xiàn)在瀏覽器里面打開一個(gè)網(wǎng)址，看看網(wǎng)頁上的內(nèi)容是什么。

50行Python代碼獲取高考志愿信息，再也不用百度啦

可以看到這個(gè)網(wǎng)頁格式很亂，學(xué)校名字什么的都是混在一起的，一點(diǎn)也不規(guī)整，這給我們提取數(shù)據(jù)造成了不少的麻煩。不過仔細(xì)分析之后，其實(shí)問題也并不難。

首先要提取的是學(xué)校名字，可以看到學(xué)校名字和其他文字混在一起，例如"本科一批普通文科627集美大學(xué)報(bào)考情況"。本來我準(zhǔn)備用正則表達(dá)式提取，然后發(fā)現(xiàn)用正則表達(dá)式好像很難。之后我多訪問了幾個(gè)網(wǎng)頁，發(fā)現(xiàn)學(xué)校代碼基本上都是數(shù)字，如果有字母的話也出現(xiàn)到第一位，所以我采用了以下的算法，首先將字符串從數(shù)字處分隔，右邊的一個(gè)部分就包含了學(xué)校名字和“報(bào)考情況”幾個(gè)字，然后刪除“報(bào)考情況”即可得到學(xué)校名字。這個(gè)算法唯一的缺點(diǎn)就是，假如出現(xiàn)了字母在中間的代號(hào)，就沒辦法獲取到學(xué)校名字了，不過實(shí)際運(yùn)行之后，我幸運(yùn)的發(fā)現(xiàn)并沒有出現(xiàn)這種情況。

之后要提取的就是專業(yè)信息了，在網(wǎng)頁源代碼中這部分使用tr和td標(biāo)簽來呈現(xiàn)的。一開始我用的是tr加上選擇器來提取，但是這個(gè)網(wǎng)頁生成的時(shí)候很有問題，每個(gè)tr標(biāo)簽的樣式居然還根據(jù)內(nèi)容的多少而不同，導(dǎo)致我寫死的選擇器沒法完美獲取所有行。不過后來我發(fā)現(xiàn)整個(gè)網(wǎng)頁內(nèi)容都是一個(gè)表格，除去表頭和結(jié)尾的幾個(gè)固定行之外，剩下的恰好就是要提取的數(shù)據(jù)行，所以直接獲取tr標(biāo)簽，然后切片除去收尾即可。

50行Python代碼獲取高考志愿信息，再也不用百度啦

網(wǎng)頁基本上分析完了，下面就是編寫代碼了。

編寫代碼

總共50行左右代碼，我添加了注釋，相信大家應(yīng)該很容易就可以看懂。

第一部分代碼是從網(wǎng)址表格讀取所有url，一開始編寫的時(shí)候，表格里的url是從另一個(gè)公式生成的，所以需要在加載的時(shí)候添加data_only=True才能讀取到公式的結(jié)果，否則只能讀取到公式本身。

第二部分是創(chuàng)建輸出文件，然后編寫表頭。順帶為了調(diào)試方便，我讓它如果檢測(cè)到已經(jīng)存在目標(biāo)文件的話就刪掉，在建立一個(gè)新的。

第三部分就是代碼的核心了。Python代碼看著可能有點(diǎn)奇怪，不過對(duì)照上面的分析，我想大家應(yīng)該很容易看懂。需要注意保存文件在最后，假如半路代碼出現(xiàn)異常，整個(gè)就白干了，而一千七百多條網(wǎng)址不可能保證都正常運(yùn)行。由于輸出格式是“學(xué)校名+專業(yè)信息”這樣的格式，所以我獲取學(xué)校名之后，還要將學(xué)校插入到每行專業(yè)信息之前。所以我這里索性直接用try-except包起來，如果出錯(cuò)的話只打印一下出錯(cuò)的網(wǎng)址。

import os 
from requests_html import HTMLSession 
from openpyxl import Workbook, load_workbook 
# 從網(wǎng)址表格獲取urls 
def get_urls(): 
 input_file = 'source.xlsx' 
 wb = load_workbook(input_file, data_only=True) 
 ws = wb.active 
 urls = [row[0] for row in ws.values] 
 wb.close() 
 return urls 
# 輸出Excel文件，如果已存在則刪除已有的 
out_file = 'data.xlsx' 
if os.path.exists(out_file): 
 os.remove(out_file) 
wb = Workbook() 
ws = wb.active  
# 編寫第一行表頭 
ws['a1'] = '學(xué)校' 
ws['b1'] = '專業(yè)代號(hào)' 
ws['c1'] = '專業(yè)名稱' 
ws['d1'] = '計(jì)劃數(shù)' 
ws['e1'] = '預(yù)計(jì)1:1錄取最低分(投檔分)' 
ws['f1'] = '按院校投檔比例投檔線上已報(bào)人數(shù)' 
ws['g1'] = '學(xué)費(fèi)' 
ws['h1'] = '辦學(xué)地點(diǎn)' 
ws['i1'] = '專業(yè)備注'  
# 發(fā)起網(wǎng)絡(luò)請(qǐng)求，解析網(wǎng)頁信息，并寫入文件 
session = HTMLSession() 
urls = get_urls() 
for url in urls: 
 import re 
 page = session.get(url) 
 page.html.encoding = 'gb2312' 
 try: 
 college_info = page.html.xpath('//td[@class="report1_1_1"]/text()', first=True) 
 college = re.split('\d+', college_info)[1].replace('報(bào)考情況', '') 
 rows = page.html.xpath('//tr')[3:-2] 
 for r in rows: 
 info = [x.text for x in r.xpath('//td')] 
 info.insert(0, college) 
 ws.append(info) 
 print(info) 
 except: 
 print(url) 
 
# 保存文件 
wb.save(out_file)

運(yùn)行結(jié)果

好了，費(fèi)了大半天的勁，代碼終于完成了。讓我們運(yùn)行一下看看結(jié)果。整個(gè)代碼大概需要運(yùn)行7-8分鐘，最后完成之后得到了一個(gè)500多k的Excel文件。

50行Python代碼獲取高考志愿信息，再也不用百度啦

打開之后，可以發(fā)現(xiàn)Excel文件填的滿滿的，最后總共獲取到了大約一萬多條數(shù)據(jù)，任務(wù)圓滿完成。

50行Python代碼獲取高考志愿信息，再也不用百度啦

責(zé)任編輯：華軒來源：今日頭條

Python 操作系統(tǒng)高考

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="zv8b4"></thead>

<samp id="zv8b4"><b id="zv8b4"></b></samp>