自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

深入淺出理解Python“亂碼”問(wèn)題

開(kāi)發(fā) 后端
當(dāng)源網(wǎng)頁(yè)編碼和爬取下來(lái)后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。

 在爬取某網(wǎng)站時(shí),網(wǎng)頁(yè)的源代碼出現(xiàn)了中文亂碼問(wèn)題。之前關(guān)于爬蟲(chóng)亂碼有各式各樣的問(wèn)題,今天與大家一起總結(jié)下關(guān)于網(wǎng)絡(luò)爬蟲(chóng)的亂碼處理。注意,這里不僅是中文亂碼,還包括一些如日文、韓文 、俄文、藏文之類(lèi)的亂碼處理,因?yàn)樗麄兊慕鉀Q方式 是一致的,故在此統(tǒng)一說(shuō)明。

一、亂碼問(wèn)題的出現(xiàn)

就以爬取51job網(wǎng)站舉例,講講為何會(huì)出現(xiàn)“亂碼”問(wèn)題,如何解決它以及其背后的機(jī)制。

代碼示例:

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. print(res.text) 

顯示結(jié)果:

 

打印res.text時(shí),發(fā)現(xiàn)了什么?中文亂碼!!!不過(guò)發(fā)現(xiàn),網(wǎng)頁(yè)的字符集類(lèi)型采用的gbk編碼格式。

我們知道Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼作出有根據(jù)的推測(cè)。當(dāng)你訪(fǎng)問(wèn) r.text 之時(shí),Requests 會(huì)使用其推測(cè)的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用r.encoding 屬性來(lái)改變它。

接下來(lái),我們一起通過(guò)resquests的一些用法,來(lái)看看Requests 會(huì)基于 HTTP 頭部對(duì)響應(yīng)的編碼方式。

  1. print(res.encoding)  #查看網(wǎng)頁(yè)返回的字符集類(lèi)型 
  2. print(res.apparent_encoding) #自動(dòng)判斷字符集類(lèi)型 

輸出結(jié)果為:

 

可以發(fā)現(xiàn)Requests 推測(cè)的文本編碼(也就是網(wǎng)頁(yè)返回即爬取下來(lái)后的編碼轉(zhuǎn)換)與源網(wǎng)頁(yè)編碼不一致,由此可知其正是導(dǎo)致亂碼原因。

二、亂碼背后的奧秘

當(dāng)源網(wǎng)頁(yè)編碼和爬取下來(lái)后的編碼轉(zhuǎn)換不一致時(shí),如源網(wǎng)頁(yè)為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲(chǔ)文件中,這必然會(huì)引起亂碼,即當(dāng)源網(wǎng)頁(yè)編碼和抓取下來(lái)后程序直接使用處理編碼一致時(shí),則不會(huì)出現(xiàn)亂碼,此時(shí)再進(jìn)行統(tǒng)一的字符編碼也就不會(huì)出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁(yè)無(wú)論何種編碼格式,都轉(zhuǎn)化為utf-8格式進(jìn)行存儲(chǔ)。

注意:區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。

在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系,大概如下:

最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語(yǔ)言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無(wú)法表示中文字符。

1981年中國(guó)人民通過(guò)對(duì) ASCII 編碼的中文擴(kuò)充改造,產(chǎn)生了 GB2312 編碼,可以表示6000多個(gè)常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了 GBK 編碼,它包括了 GB2312 中的編碼,同時(shí)擴(kuò)充了很多。中國(guó)又是個(gè)多民族國(guó)家,各個(gè)民族幾乎都有自己獨(dú)立的語(yǔ)言系統(tǒng),為了表示那些字符,繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個(gè)國(guó)家都像中國(guó)一樣,把自己的語(yǔ)言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無(wú)法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個(gè)叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個(gè)文字和標(biāo)志。所以只要電腦上有 UNICODE 這種編碼系統(tǒng),無(wú)論是全球哪種文字,只需要保存文件的時(shí)候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個(gè)標(biāo)準(zhǔn) UTF-8 和 UTF-16,分別每次傳輸 8個(gè)位和 16個(gè)位。于是就會(huì)有人產(chǎn)生疑問(wèn),UTF-8 既然能保存那么多文字、符號(hào),為什么國(guó)內(nèi)還有這么多使用 GBK 等編碼的人?因?yàn)?UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國(guó)人,用 GBK 等編碼也可以。

也可以這樣來(lái)理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過(guò)二進(jìn)制形式存儲(chǔ),這種二進(jìn)制形式就是編碼。如果直接使用 “字符串↔️字符↔️二進(jìn)制表示(編碼)” ,會(huì)增加不同類(lèi)型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個(gè)抽象層,“字符串↔️字符↔️與存儲(chǔ)無(wú)關(guān)的表示↔️二進(jìn)制表示(編碼)” ,這樣,可以用一種與存儲(chǔ)無(wú)關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時(shí)可以先轉(zhuǎn)換到這個(gè)抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,unicode 就是 “與存儲(chǔ)無(wú)關(guān)的表示”,utf—8 就是 “二進(jìn)制表示”。

三、亂碼的解決方法

根據(jù)原因來(lái)找解決方法,就非常簡(jiǎn)單了。

方法一:直接指定res.encoding

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = "gbk" 
  6. html = res.text 
  7. print(html) 

方法二:通過(guò)res.apparent_encoding屬性指定

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. res.encoding = res.apparent_encoding 
  6. html = res.text 
  7. print(html) 

方法三:通過(guò)編碼、解碼的方式

  1. import requests 
  2.  
  3. url = "http://search.51job.com" 
  4. res = requests.get(url) 
  5. html = res.text.encode('iso-8859-1').decode('gbk'
  6. print(html) 

輸出結(jié)果:

 

基本思路三步走:確定源網(wǎng)頁(yè)的編碼A---gbk、程序通過(guò)編碼B---ISO-8859-1對(duì)源網(wǎng)頁(yè)數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。至于為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)數(shù)據(jù)來(lái)源很多,不可能使用數(shù)據(jù)時(shí),再轉(zhuǎn)化為其原始的數(shù)據(jù),假使這樣做是很廢事的。所以一般的爬蟲(chóng)系統(tǒng)都要對(duì)抓取下來(lái)的結(jié)果進(jìn)行統(tǒng)一編碼,從而在使用時(shí)做到一致對(duì)外,方便使用。

比如如果我們想講網(wǎng)頁(yè)數(shù)據(jù)保存下來(lái),則會(huì)將起轉(zhuǎn)為utf-8,代碼如下:

  1. with open("a.txt",'w',encoding='utf-8'as f: 
  2.     f.write(html) 

四、總結(jié)

關(guān)于網(wǎng)絡(luò)爬蟲(chóng)亂碼問(wèn)題,本文不僅給出了一個(gè)解決方案,還深入到其中的原理,由此問(wèn)題引申出很多有意思的問(wèn)題,如,utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問(wèn)題?

責(zé)任編輯:武曉燕 來(lái)源: Python中文社區(qū)
相關(guān)推薦

2011-07-04 10:39:57

Web

2021-03-16 08:54:35

AQSAbstractQueJava

2022-09-26 09:01:15

語(yǔ)言數(shù)據(jù)JavaScript

2017-07-02 18:04:53

塊加密算法AES算法

2019-01-07 15:29:07

HadoopYarn架構(gòu)調(diào)度器

2021-07-20 15:20:02

FlatBuffers阿里云Java

2012-05-21 10:06:26

FrameworkCocoa

2020-10-19 10:35:18

數(shù)據(jù)庫(kù)監(jiān)控 系統(tǒng)

2009-11-17 17:31:58

Oracle COMM

2021-07-19 11:54:15

MySQL優(yōu)先隊(duì)列

2023-12-04 13:22:00

JavaScript異步編程

2010-07-26 12:57:12

OPhone游戲開(kāi)發(fā)

2016-10-14 13:53:05

JavascriptDOMWeb

2016-10-14 14:32:58

JavascriptDOMWeb

2010-07-16 09:11:40

JavaScript內(nèi)存泄漏

2024-01-09 12:05:24

SSH協(xié)議端口

2012-03-27 15:23:15

JSONPAJAX

2022-01-11 07:52:22

CSS 技巧代碼重構(gòu)

2019-12-04 10:13:58

Kubernetes存儲(chǔ)Docker

2022-11-09 08:06:15

GreatSQLMGR模式
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)