URL中的空格、加號究竟應(yīng)該使用何種方式編碼
本文轉(zhuǎn)載自微信公眾號「Gopher指北」,作者新世界雜貨鋪。轉(zhuǎn)載本文請聯(lián)系Gopher指北公眾號。
URL中不能顯示地包含空格這已經(jīng)是一個共識,而空格以何種形式存在,在不同的標(biāo)準(zhǔn)中又不完全一致,以致于不同的語言也有了不同的實現(xiàn)。
rfc2396中明確表示空格應(yīng)該被編碼為%20。
而W3C的標(biāo)準(zhǔn)中卻又說空格可以被替換為+或者%20。
老許當(dāng)場懵逼,空格被替換為+,那+本身只能被編碼。既然如此,為什么不直接對空格進(jìn)行編碼呢。當(dāng)然這只是老許心中的疑惑,以前的背景我們已經(jīng)無法追溯,已成的事實我們也無法改變。但,空格到底是被替換為+還是20%,+是否需要被編碼都是現(xiàn)在的我們需要直面的問題。
Go常用的三種URL編碼方式
作為Gopher最先關(guān)注的自然是Go語言本身的實現(xiàn),因此我們首先了解一下Go中常用的三種URL編碼方式的異同。
url.QueryEscape
- fmt.Println(url.QueryEscape(" +Gopher指北"))
- // 輸出:+%2BGopher%E6%8C%87%E5%8C%97
使用url.QueryEscape編碼時,空格被編碼為+,而+本身被編碼為%2B。
url.PathEscape
- fmt.Println(url.PathEscape(" +Gopher指北"))
- // 輸出:%20+Gopher%E6%8C%87%E5%8C%97
使用url.PathEscape編碼時,空格被編碼為20%, 而+則未被編碼。
url.Values
- var query = url.Values{}
- query.Set("hygz", " +Gopher指北")
- fmt.Println(query.Encode())
- // 輸出:hygz=+%2BGopher%E6%8C%87%E5%8C%97
使用(Values).Encode方法編碼時,空格被編碼為+,而+本身被編碼為%2B,進(jìn)一步查看(Values).Encode方法的源碼知其內(nèi)部仍舊調(diào)用url.QueryEscape函數(shù)。而(Values).Encode方法和url.QueryEscape的區(qū)別在于前者僅編碼query中的key和value,后者會對=、&均進(jìn)行編碼。
對我們開發(fā)者而言,這三種編碼方式到底應(yīng)該使用哪一種,請繼續(xù)閱讀后文相信你可以在后面的文章中找到答案。
不同語言中的實現(xiàn)
既然空格和+在Go中的URL編碼方式有不同的實現(xiàn),那在其他語言中是否也存在這樣的情況呢,下面以PHP和JS為例。
PHP中的URL編碼
urlencode
- echo urlencode(' +Gopher指北');
- // 輸出:+%2BGopher%E6%8C%87%E5%8C%97
rawurlencode
- echo rawurlencode(" +Gopher指北");
- // 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
PHP的urlencode和Go的url.QueryEscape函數(shù)效果一致,而rawurlencode則將空格和+均進(jìn)行編碼。
JS中的URL編碼
encodeURI
- encodeURI(' +Gopher指北')
- // 輸出:%20+Gopher%E6%8C%87%E5%8C%97
encodeURIComponent
- encodeURIComponent(' +Gopher指北')
- // 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
JS的encodeURI和Go的url.PathEscape函數(shù)效果一致,而encodeURIComponent則將空格和+均進(jìn)行編碼。
我們應(yīng)該怎么做
更推薦使用url.PathEscape函數(shù)編碼
在前文中已經(jīng)總結(jié)了Go、PHP和JS對+Gopher指北的編碼操作,下面總結(jié)一下其對應(yīng)的解碼操作是否可行的二維表。
編碼/解碼 | url.QueryUnescape | url.PathUnescape | urldecode | rawurldecode | decodeURI | decodeURIComponent |
---|---|---|---|---|---|---|
url.QueryEscape | Y | N | Y | N | N | N |
url.PathEscape | N | Y | N | YY | Y | YY |
urlencode | Y | N | Y | N | N | N |
rawurlencode | Y | YY | Y | Y | N | Y |
encodeURI | N | Y | N | Y | Y | Y |
encodeURIComponent | Y | YY | Y | Y | N | Y |
上表中的YY和Y同含義,老許僅以YY表示在Go中推薦使用url.PathEscape進(jìn)行編碼,同時在PHP和JS中分別推薦使用rawurldecode和decodeURIComponent進(jìn)行解碼。
在實際的開發(fā)過程中,Gopher一定會存在需要解碼的場景,此時就需要和URL編碼方進(jìn)行溝通以得到合適的方式解碼。
對值進(jìn)行編碼
那有沒有通用的不需要URL編解碼的方式呢?毫無疑問是有的!以base32編碼為例,其編碼字符集為A-Z和數(shù)字2-7,此時對值進(jìn)行base32編碼后就無需url編碼了。
最后,衷心希望本文能夠?qū)Ω魑蛔x者有一定的幫助。
本文使用環(huán)境分別為PHP 7.3.29、go 1.16.6和js Chrome94.0.4606.71的Console
參考
https://www.rfc-editor.org/rfc/rfc2396.txt
https://www.w3schools.com/tags/ref_urlencode.ASP