如何使用 Python 請求網(wǎng)絡資源
很長時間以來我們都在分享 Linux 系統(tǒng)相關的知識,所以可能會有朋友誤以為我們只分享 Linux 操作相關的東西,其實不是啊,我們在平時開發(fā)過程中遇到的一些問題,感覺可以總結的,都有可能拿來分享。
最近在寫一個定時訪問網(wǎng)絡資源的程序,里面涉及到使用 python 訪問網(wǎng)絡,所以我們今天就對這一個點做一個簡短的總結。
使用 python 訪問網(wǎng)絡資源
要訪問網(wǎng)絡中的資源,有些朋友可能會使用 urllib.request,這個模塊也是一個 python 的標準庫。不過我們使用的是 requests,它是 urllib.request 的封裝,使用起來更方便。 如果是第一次使用的話,需要安裝 requests,我們使用 pip 安裝:
安裝成功后,就可以直接使用了,使用的時候,需要在 python 文件的上方引入:
為了方便演示,我們使用 requests 模塊訪問一下 github 上星最高的 python 項目,地址為:
??https://api.github.com/search/repositories?q=language:python&sort=stars??
為了有一個整體的認識,大家可以先使用瀏覽器打開這個地址,看看里面的內(nèi)容,它是一個以 json 格式展現(xiàn)的文本。
然后我們新建一個 ??test-resp.py?? 的文件,里面輸入如下代碼:
上述代碼中第 1 行為引入 requests 模塊,第 2 行將待訪問地址存儲到 url 變量中,第 3 行使用 requests 模塊的 get 方法來訪問這個 url,并將響應存儲在變量 get_resp 中。這個響應是一個對象,包含請求資源的內(nèi)容和狀態(tài)。可以打印一下這個響應的狀態(tài),使用 status_code 對象,如下代碼:
結果如下:
當然,也可以打印出響應的文本,即打印 get_resp.text,不過這個文本沒有格式化,不易讀,如下圖所示:
上圖我們只截取了結果的一部分,因為太長了... 這個結果解析起來是比較麻煩的,不過完全不用擔心,簡單看一下其內(nèi)容我們就可以注意到,其內(nèi)容是一個json格式的,所以響 應結果也是一個 json,而 python 對 json 的解析功能是很強大的,如下我們可以打印出這個 json 的 key 值:
結果如下:
由上結果可以知道,我們完全可以將這個響應結果當作一個 json 對象來處理。比如,上述結果中的第一個 keyi 值 total_count,其表示 python 倉庫的總數(shù),我們可以將這個數(shù)值打印出來,如下所示:
其運行結果如下:
如果讀取的網(wǎng)絡資源,是普通的 html 格式,可以使用一個第三方庫 BeautifulSoup,可以完美解決 html 解析。關于BeautifulSoup我們在之前的文章中也介紹過,大家可以參考:使用 Python 的 Beautiful Soup 庫來分析網(wǎng)頁
添加請求頭信息
有些網(wǎng)絡資源對于請求的響應可能做了限制,比如阻止機器人(程序)訪問,或者需要登錄(有用戶會話)才能訪問,為此,可以在請求中添加請求頭,在請求頭中模擬瀏覽器,添加用戶會話信息(token)等。如下所示:
上述代碼中,headers 對象中的 User-Agent 為模擬的瀏覽器信息,Authorization 為請求令牌。 也可以按需添加其他請求頭信息,如下所示:
其他
上面我們使用的例子,都是處理的 get 請求,對于 post 請求也同樣適用,使用 requests 的 post 方法,如下:
使用方法與 get 請求完全相同。
以上就是我們本次分享全部內(nèi)容,歡迎討論。