自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="pc3bu"></sub>

<sup id="pc3bu"></sup>

<abbr id="pc3bu"><li id="pc3bu"></li></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

如何替換URL中的Query字段？

作者：kingname 2021-08-30 23:47:28

網(wǎng)絡(luò) 通信技術(shù)

由于ParseResult對象的.query屬性是只讀屬性，不能覆蓋，因此我們需要調(diào)用一個(gè)內(nèi)部方法._replace把新的.query字段替換上去，生成新的 ParseResult對象。最后再把它轉(zhuǎn)回網(wǎng)址。

在我們寫爬蟲的時(shí)候，可能會(huì)需要在爬蟲里面基于當(dāng)前url生成一個(gè)新的url。例如下面這段偽代碼：

import re 
current_url = 'https://www.kingname.info/archives/page/2/' 
current_page = re.search('/(\d+)', current_url).group(1) 
next_page = int(current_page) + 1 
next_url = re.sub('\d+', str(next_page), current_url) 
make_request(next_url)

運(yùn)行效果如下圖所示：

但有時(shí)候，翻頁參數(shù)不一定是數(shù)字。例如有些網(wǎng)站，訪問一個(gè)URL：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD

當(dāng)你訪問這個(gè)url的時(shí)候，它返回的是一個(gè)JSON字符串，并且這個(gè)JSON里面，有如下字段：

... 
"paging": { 
        "cursors": { 
            "before": "MTA3NDU0NDExNDEzNTgz", 
            "after": "MTE4OTc5MjU0NDQ4NTkwMgZDZD" 
        }, 
         
    } 
...

這種情況多見于信息流網(wǎng)站。它只能無限下滑看下一頁，不能直接通過頁數(shù)跳頁。每次請求的時(shí)候返回下一頁的參數(shù)after。當(dāng)要訪問下一頁的時(shí)候，用這個(gè)參數(shù)替換當(dāng)前url中的after=后面的參數(shù)。

這樣一來，替換url中的參數(shù)就并不是一件簡單的事情了。因?yàn)榫W(wǎng)址可能有4種情況：

第一頁，沒有after參數(shù)：https://xxx.com/articlelist?category=technology
第一頁，有after參數(shù)名但沒有值：https://xxx.com/articlelist?category=technology&after=
后續(xù)頁面，after參數(shù)值后面沒有內(nèi)容： https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD
后續(xù)頁面，aster參數(shù)值后面有內(nèi)容：https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc

大家可以試一試，如果用正則表達(dá)式，怎么覆蓋這4種情況，生成下一頁的網(wǎng)址。

實(shí)際上，我們不需要使用正則表達(dá)式。Python自帶的urllib模塊已經(jīng)提供了解決這個(gè)問題的方案了。我們先來看一段代碼：

from urllib.parse import urlparse, urlunparse, parse_qs, urlencode 
 
 
def replace_field(url, name, value): 
    parse = urlparse(url) 
    query = parse.query 
    query_pair = parse_qs(query) 
    query_pair[name] = value 
    new_query = urlencode(query_pair, doseq=True) 
    new_parse = parse._replace(query=new_query) 
    next_page = urlunparse(new_parse) 
    return next_page 
 
url_list = [ 
    'https://xxx.com/articlelist?category=technology', 
    'https://xxx.com/articlelist?category=technology&after=', 
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD', 
    'https://xxx.com/articlelist?category=technology&after=asdrtJKSAZFD&other=abc' 
] 
 
for url in url_list: 
    next_page = replace_field(url, 'after', '0000000') 
    print(next_page)

運(yùn)行效果如下圖所示：

從圖中可以看到，這4種情況，都可以被我們成功添加下一頁的參數(shù)after= 0000000。不用再去考慮正則表達(dá)式怎么適配所有情況。

其中urlparse 和urlunparse 是一對相反函數(shù)，前者把網(wǎng)址轉(zhuǎn)成 ParseResult 對象，后者把ParseResult對象轉(zhuǎn)回網(wǎng)址字符串。

ParseResult 對象的.query 屬性，是一個(gè)字符串，也就是網(wǎng)址中，問號后面的內(nèi)容，格式如下：

parse_qs與urlencode也是一對相反函數(shù)。其中前者把 .query輸出的字符串轉(zhuǎn)成字典，而后者把字段轉(zhuǎn)成.query形式的字符串：

當(dāng)使用parse_qs把 query轉(zhuǎn)成字典以后，就可以修改參數(shù)的值，然后再重新轉(zhuǎn)回去。

由于ParseResult對象的.query屬性是只讀屬性，不能覆蓋，因此我們需要調(diào)用一個(gè)內(nèi)部方法._replace把新的.query字段替換上去，生成新的 ParseResult對象。最后再把它轉(zhuǎn)回網(wǎng)址。

以上，就是今天我們介紹的，如何使用urllib自帶的函數(shù)替換網(wǎng)址中的字段。

責(zé)任編輯：武曉燕來源：未聞Code

URL Query 字段

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="2tsa1"><abbr id="2tsa1"></abbr></s>

<sub id="2tsa1"><p id="2tsa1"></p></sub>