自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

看破字符 %20 之謎，百分號(hào)編碼以及其背后

作者：云的程序世界 2021-12-07 20:36:13

開發(fā) 前端

提到這個(gè) %20，想必大家都見過，熟悉一點(diǎn)編碼的人，還會(huì)知道這玩意就是空格轉(zhuǎn)換而來!那么我們一起破解，如何編碼而來?

[[439153]]

前言

提到這個(gè) %20，想必大家都見過，熟悉一點(diǎn)編碼的人，還會(huì)知道這玩意就是空格轉(zhuǎn)換而來!那么我們一起破解，如何編碼而來?

我們今天繼續(xù)學(xué)習(xí)前端編碼知識(shí)，其他編碼文章：

前端Base64編碼知識(shí)，一文打盡，探索起源，追求真相
localStorage靈魂五問。 5M空間?? 10M !!!
字母a的6種表示方法，以及其背后的編碼知識(shí)

之后再補(bǔ)上

UTF-16 編碼
UTF-8 編碼

前端所需要的基本編碼知識(shí)體系就基本形成。

Unicode基礎(chǔ)知識(shí)

Unicode 只是一個(gè)字符集, 其為每個(gè)字符提供了一個(gè)編號(hào)，我們稱之為碼點(diǎn)。

Unicode 可以使用的編碼有三種，分別是：

UFT-8：一種變長的編碼方案，使用 1~6 個(gè)字節(jié)來存儲(chǔ)。

UTF-16：對(duì)于碼點(diǎn)小于0xFFFF(65535)的字符，兩個(gè)字節(jié)存儲(chǔ)，反之采用 4個(gè)字節(jié)來存儲(chǔ)。

UFT-32：一種固定長度的編碼方案，不管字符編號(hào)大小，始終使用 4 個(gè)字節(jié)來存儲(chǔ)。

所以UTF-8個(gè)UTF-16都屬于變長編碼方案，而UTF-32屬于固定長度編碼方案。

固定長度編碼方案優(yōu)點(diǎn)當(dāng)然是簡單啊，缺點(diǎn)嘛，費(fèi)空間，這就是為嘛還要有UTF-16和UTF-8。

我們網(wǎng)絡(luò)傳輸常用 UTF-8, 而javascript運(yùn)行時(shí)的字符編碼是 UTF-16.

%20怎么來的

我們看看，我們怎么樣可以得到這個(gè)%20:

escape(" ") "%20" 
 
encodeURI(" ") "%20" 
 
encodeURIComponent(" ") "%20"

其是字符的16進(jìn)制格式值，是百分號(hào)編碼，之后會(huì)細(xì)說。

怎么獲得這個(gè)編碼，寫一個(gè)簡單的方法你就懂了

function to16Format(ch){ 
 
return '%' + ch.codePointAt(0).toString(16) 
 
} 
 
to16Format(" ") // "%20"

雖然3個(gè)方法都能獲得同樣的值，很少有人告訴你 esacpe是基于UTF-16，而另外兩個(gè)是基于 UTF-8, 看個(gè)例子：

0-0xFF碼點(diǎn)范圍編碼結(jié)果是一致的，

0xFF以上，結(jié)果就不一樣了，原理我們后面說。

escape("")         //%20 
encodeURI("")      //%20 
 
escape("人")       // "%u4EBA"  
encodeURI("人")    // "%E4%BA%BA" 
 
escape("𣑕")       //  %uD84D%uDC55 
encodeURI("𣑕")    //  "%F0%A3%91%95"

小結(jié)一下：

escape，encodeURI和encodeURIComponent 對(duì)空格編碼 " "均能得到 20%
escape進(jìn)行的是UTF-16編碼，后兩者是UTF-8編碼，只是碼點(diǎn)0xFF以下的編碼結(jié)果一致罷了

當(dāng)然，不是所有的字符都會(huì)被編碼，接下來一起看哪些字符不會(huì)被編碼。

哪些字符不會(huì)被編碼

%20，就不得不提到我們的常用編碼的三對(duì)姊妹：

escape (unescape) 已過時(shí)
encodeURI (decodeURI)
encodeURIComponent (decodeURIComponent)

我們先把A-Z a-z 0-9單獨(dú)列出來，因?yàn)槎际遣粫?huì)被編碼的，看看哪些字符不會(huì)被編碼。

系列	保留字符	編碼
escape	`@ * _ + - . /`	UTF-16
encodeURI	`- _ . ! ~ * ' ( ) ; , / ? : @ & = + $ #`	UTF-8
encodeURIComponent	`- _ . ! ~ * ' ( )`	UTF-8

編碼之 escape

簡單來說，escape是生成新的由十六進(jìn)制轉(zhuǎn)義序列替換的字符串，作用是讓它們在所有電腦上可讀。

編碼之后的效果是%XX或者%uXXXX這種形式。

當(dāng)你需要對(duì)URL編碼時(shí)，請使用 encodeURI 或者 encodeURIComponent。

劃重點(diǎn)：基于UTF-16進(jìn)行編碼

UTF-16字符編碼，對(duì)于碼點(diǎn)大于0xFFFF的字符，其編碼結(jié)果是分高低位的， charCodeAt(0)可以獲得高位， charCodeAt(1)可以獲得低位。

escape之碼點(diǎn)大于0xFFFF的字符

轉(zhuǎn)義為兩個(gè)%uXXXX

先直接看代碼結(jié)果：

var ch = String.fromCodePoint(0x23455);  // "𣑕" 
escape(ch)  // '%uD84D%uDC55'  碼點(diǎn)大于 0xFFFF 
unescape(escape(ch)) // "𣑕" 
 
ch.charCodeAt(0).toString(16).toUpperCase();  // 高位 
// 'D84D' 
ch.charCodeAt(1).toString(16).toUpperCase();  // 低位 
// 'DC55'

看著結(jié)論就知道了，和charCodeAt的邏輯處理一致。都是返回UTF-16編碼的高低位編碼。

編碼之 encodeURI

由于 URL 只能由標(biāo)準(zhǔn) ASCII 字符組成，因此必須對(duì)其他特殊字符進(jìn)行編碼。它們將被代表 utf-8編碼的一系列不同字符所取代。encodeURI 和 encodeURIComponent 用于此目的。

劃重點(diǎn)，encodeURI 和 encodeURIComponent 采用的是UTF-8編碼。

先看看碼點(diǎn)和UTF-8編碼格式，以及需要的字節(jié)數(shù)。

Unicode 碼點(diǎn)范圍（十六進(jìn)制）	十進(jìn)制范圍	UTF-8 編碼方式（二進(jìn)制）	字節(jié)數(shù)
`0000 0000 ~ 0000 007F`	`0 ~ 127`	`0xxxxxxx`	1
`0000 0080 ~ 0000 07FF`	`128 ~ 2047`	`110xxxxx 10xxxxxx`	2
`0000 0800 ~ 0000 FFFF`	`2048 ~ 65535`	`1110xxxx 10xxxxxx 10xxxxxx`	3
`0001 0000 ~ 0010 FFFF`	`65536 ~ 1114111`	`11110xxx 10xxxxxx 10xxxxxx 10xxxxxx`	4

我們先看看人字：

獲取其碼點(diǎn) 4eba

var codePoint = "人".codePointAt(0).toString(16) // `4eba`

其位于 0000 0800 ~ 0000 FFFF, 格式為1110xxxx 10xxxxxx 10xxxxxx, 需要三個(gè)字節(jié)
encodeURI, 可以看到是三個(gè) %XX

encodeURI("人") // %E4%BA%BA

這里我們省略了具體的編碼過程，具體的編碼結(jié)果驗(yàn)證可以去 Convert UTF8 to Binary Bits - Online UTF8 Tools[5] 驗(yàn)證

最終編碼結(jié)果: 11100100 10111010 10111010

(0b11100100).toString(16).toUpperCase() // E4 
 
(0b10111010).toString(16).toUpperCase() // BA 
 
(0b10111010).toString(16).toUpperCase() // BA 
 
encodeURI("人") // %E4%BA%BA => E4 BA BA

再推導(dǎo)一下??字

碼點(diǎn)是 0x23455
0001 0000 ~ 0010 FFFF之間，格式為 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx, 需四個(gè)字節(jié)
encodeURI, 其由四個(gè)%XX組成

encodeURI("??") // "%F0%A3%91%95"

編碼之 encodeURIComponent

既然有encodeURI為嘛還要來一個(gè)encodeURIComponent呢?

其用于對(duì)地址后的參數(shù)值進(jìn)行編碼, 我們通常稱呼為queryString。

看個(gè)例子：

var param = "http://www.yyy.com"; //param為參數(shù) 
 
param = encodeURIComponent(param); 
 
var url = "http://www.xxxx.com?target=" + param;

同理下面的?之后的部分空鍵=啊哈&type=x，鍵值對(duì)均需要encodeURIComponent進(jìn)行編碼。

http://wwww.xxxyyy.com/哈 哈?空 鍵=啊 哈&type=x

其實(shí)吧，現(xiàn)代瀏覽器，默認(rèn)都會(huì)自行進(jìn)行編碼，你不妨把上面的地址貼到瀏覽器:

image.png

application/x-www-form-urlencoded

對(duì)于 `application/x-www-form-urlencoded`[6] (POST) 這種數(shù)據(jù)方式，也是需要編碼的。

其編碼規(guī)則：

數(shù)據(jù)被編碼成以 '&' 分隔的鍵-值對(duì), 同時(shí)以 '=' 分隔鍵和值.

非字母或數(shù)字的字符會(huì)被 percent-encoding[7]

我們先一起看看 percent-encoding(百分號(hào)編碼)。

percent-encoding

百分比編碼(也有叫百分號(hào)編碼的) 是一種擁有8位字符編碼的編碼機(jī)制，這些編碼在URL[8]的上下文中具有特定的含義。它有時(shí)被稱為URL編碼。編碼由英文字母替換組成：“%” 后跟替換字符的ASCII的十六進(jìn)制表示。

它廣泛地應(yīng)用于主統(tǒng)一資源標(biāo)志符/統(tǒng)一資源定位符集(URI) ，其中包括 URL 和統(tǒng)一資源名(URN)。它還用于準(zhǔn)備應(yīng)用 application/x-www-form-urlencoded 媒體類型的數(shù)據(jù)，這通常用于在 HTTP 請求中提交 HTML 表單數(shù)據(jù)。

URI所允許的字符分作保留與未保留。保留字符是那些具有特殊含義的字符，例如：斜線[9]字符用于URL(或URI)不同部分的分界符;未保留字符沒有這些特殊含義。百分號(hào)編碼把保留字符表示為特殊字符序列。

保留字符

保留字符需要編碼，其有：':'，'/'，'?'，'#'，'['，']'，'@'，'!'，'$'，'&'，"'"，'('，')'，'*'，'+'，','，';'，'='，以及，'%' 本身，以及一個(gè)空格 " "。

percent-encoding編碼對(duì)照表請參見：percent-encoding | MDN [10]

非保留字符

不需要被編碼，直接使用就行。

A-Z
a-z
0-9
- _ . ~

特殊的字符 " "，

其在作為URL的時(shí)候，編碼是轉(zhuǎn)為 %20

post提交(application/x-www-form-urlencoded)替換為 +

那么，我們這里直接使用 encodeURLComponent編碼值和鍵，能行嗎?

答案是不行：

百分比編碼需要編碼特殊字符的是 20個(gè)(加上 ' ')

: / ? # [ ] @ ! $ & ' ( ) * + , ; = %

encodeURLComponent不編碼的字符是 9 個(gè)：

- _ . ! ~ * ' ( )

所以還需要額外編碼為：['!', "'", '(', ')', '*']，怎么計(jì)算而得，參見下面代碼：

var percentChars = [':', '/', '?', '#', '[', ']', '@', '!', '$', '&', "'", '(', ')', '*', '+', ',', ';', '=', '%', ' ']; 
var eURICChars =   ['-', '_', '.', '!', '~', '*', "'", '(', ')']; 
 
var notInPChars = percentChars.filter(c=> eURICChars.includes(c)); 
 
console.log("notInPChars:", notInPChars); 
// notInPChars: (5) ['!', "'", '(', ')', '*']

所以，完整的編碼應(yīng)該如下：

function encodeValue(val) 
{ 
   var eVal = encodeURIComponent(val); 
  
   // 單獨(dú)處理encodeURIComponent不編碼的字符 
   eVal = eVal.replace(/\*/g, '%2A'); 
   eVal = eVal.replace(/!/g, '%21'); 
   eVal = eVal.replace(/\(/g, '%28'); 
   eVal = eVal.replace(/\)/g, '%29'); 
   eVal = eVal.replace(/'/g, '%27'); 
  
   // 特殊處理空格字符 
   return eVal.replace(/\%20/g,'+'); 
}

Content-Disposition: attachment; filename

我們后臺(tái)返回文件的時(shí)候，如果指定Content-Disposition: attachment并設(shè)定好filename，客戶端收到請求后是可以直接進(jìn)行文件下載的。問題就在于這個(gè)filename，其也是需要被編碼的，我們了解一下即可：

參考MDN:

var fileName = 'my file(2).txt'; 
var header = "Content-Disposition: attachment; filename*=UTF-8''" 
             + encodeRFC5987ValueChars(fileName); 
 
console.log(header); 
// 輸出 "Content-Disposition: attachment; filename*=UTF-8''my%20file%282%29.txt" 
 
 
function encodeRFC5987ValueChars (str) { 
    return encodeURIComponent(str). 
        // 注意，盡管 RFC3986 保留 "!"，但 RFC5987 并沒有 
        // 所以我們并不需要過濾它 
        replace(/['()]/g, escape). // i.e., %27 %28 %29 
        replace(/\*/g, '%2A'). 
            // 下面的并不是 RFC5987 中 URI 編碼必須的 
            // 所以對(duì)于 |`^ 這3個(gè)字符我們可以稍稍提高一點(diǎn)可讀性 
            replace(/%(?:7C|60|5E)/g, unescape); 
}

其比 percent-encoding又還有些區(qū)別，注釋里面寫得很清楚。我真想說，搞那么多協(xié)議不累嗎?

看到注冊，我們可以看到 RFC3986， RFC5987等協(xié)議，我們一起了解一下。

RFC3986[11] ，RFC1738[12] ，RFC5987[13]

RFC3986， RFC1738是關(guān)于URI的編碼規(guī)范，RFC5987是關(guān)于http協(xié)議文件頭字段的規(guī)范。

RFC3986[14]

2005年發(fā)布，現(xiàn)行標(biāo)準(zhǔn)。文檔對(duì)URL的編解碼問題做出了詳細(xì)的建議，指出了哪些字符需要被編碼才不會(huì)引起Url語義的轉(zhuǎn)變，以及對(duì)為什么這些字符需要編碼做出了相應(yīng)的解釋

RFC 1738[15]

94年發(fā)布。同上。

RFC5987[16]

Character Set and Language Encoding for Hypertext Transfer Protocol (HTTP) Header Field Parameters。翻譯：超文本傳輸協(xié)議文件頭字段參數(shù)的字符集和語言編碼，對(duì)http傳輸頭部字符串編碼的規(guī)范。

你會(huì)發(fā)現(xiàn)很多代碼還會(huì)處理~符號(hào)，雖然RFC3986文檔規(guī)定，對(duì)于波浪符號(hào)~，不需要進(jìn)行Url編碼，但是還是有很多老的網(wǎng)關(guān)或者傳輸代理。

兼容性好的代碼，會(huì)兼容處理 RFC1738，比如著名的qs庫的 formats.js[17]

image.png

window.btoa 和window.atob

window.btoa可以進(jìn)字符進(jìn)行base64編碼, window.atob可以解碼。

window.btoa("abcd") // "YWJjZA==" 
 
window.atob("YWJjZA==") // "abcd"

但是其職能編碼ASCII 字符串，試試中文：

window.btoa("人") 
 
// Uncaught DOMException: Failed to execute 'btoa' on 'Window': 
 
// The string to be encoded contains characters outside of the Latin1 range.

怎么解決呢?

// ucs-2 string to base64 encoded ascii 
function utoa(str) { 
    return window.btoa(unescape(encodeURIComponent(str))); 
} 
// base64 encoded ascii to ucs-2 string 
function atou(str) { 
    return decodeURIComponent(escape(window.atob(str))); 
}

驗(yàn)證一下, 完美。

utoa("人")     //5Lq6 
atou("5Lq6")   //人

那么這是什么思路呢???

encodeURIComponent 將字符轉(zhuǎn)為百分比utf-8字節(jié)存儲(chǔ)為% XX 之后，unescape 將它們轉(zhuǎn)換為 btoa 所要求的單個(gè)代碼點(diǎn)。因此，btoa (unescape (encodeURIComponent (str)))都將文本編碼為 utf-8字節(jié)，然后將其編碼為 Base64。

雖然，你去掉中間的unescape和escape也可以正常使用，但是必須搭配使用啦。但是，已經(jīng)不是標(biāo)準(zhǔn)的utf-8轉(zhuǎn)為Base64了。

自己玩：

window.btoa(encodeURIComponent("我是人a"))  
// JUU2JTg4JTkxJUU2JTk4JUFGJUU0JUJBJUJBYQ== 
decodeURIComponent(window.atob("JUU2JTg4JTkxJUU2JTk4JUFGJUU0JUJBJUJBYQ==")) 
// 我是人a

標(biāo)準(zhǔn)base解碼，已經(jīng)得不到正確結(jié)果：

總結(jié)

%20 是escape或者URL編碼得到的結(jié)果，對(duì)應(yīng)著空字符 " "。也可是說是百分號(hào)編碼。
escape是把字符串轉(zhuǎn)為十六進(jìn)制轉(zhuǎn)義序列，作用是讓它們在所有電腦上可讀。已過時(shí)，現(xiàn)在也沒啥用。
encodeURI 是URL編碼，不處理參數(shù)部分
encodeURIComponent 也是URL編碼主要用于
- url的參數(shù)部分
- post 數(shù)據(jù)類型為application/x-www-form-urlencoded
- 附件文件名 filename
RFC3986[18] ，RFC1738[19] 是URL編碼協(xié)議
RFC5987[20] 是http傳輸頭部字符串編碼的規(guī)范
window.btoa 和window.atob 默認(rèn)只能處理ASCII碼字符，在encodeURIComponent和escape的配合下，可以處理任意字符。

最后提一個(gè)問題：

百分號(hào)編碼和 escape, encodeURI, encodeURIComponent是什么關(guān)系?

責(zé)任編輯：武曉燕來源：云的程序世界

編碼字符空格

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ul id="1ovu1"></ul>

<blockquote id="1ovu1"><font id="1ovu1"></font></blockquote>