Jython中文問題解決方法參考
Jython中文問題:輸出中文會(huì)遇到亂碼
有Jython學(xué)習(xí)者反映說使用Jython輸出中文字符時(shí)會(huì)遇到中文亂碼。針對(duì)Jython中文問題,需要在在***行有一個(gè)編碼格式的聲明,寫法可參考Python中的編碼聲明寫法:
Python 里面的編碼和解碼也就是 unicode 和 str 這兩種形式的相互轉(zhuǎn)化。編碼是 unicode -> str,相反的,解碼就是 str -> unicode。
下面剩下的問題就是確定何時(shí)需要進(jìn)行編碼或者解碼了,像一些庫是 unicode 版的,這樣我們?cè)趯⑦@些庫函數(shù)的返回值進(jìn)行傳輸或者寫入文件的時(shí)候就要考慮將它編碼成合適的類型。
關(guān)于文件開頭的“編碼指示”,也就是 # -*- coding: -*- 這個(gè)語句。Python 默認(rèn)腳本文件都是 ANSCII 編碼的,當(dāng)文件中有非 ANSCII 編碼范圍內(nèi)的字符的時(shí)候就要使用“編碼指示”來修正。
關(guān)于 sys.defaultencoding,這個(gè)在解碼沒有明確指明解碼方式的時(shí)候使用。比如我有如下代碼:
- #! /usr/bin/env python
- # -*- coding: utf-8 -*-
- s = '中文' # 注意這里的 str 是 str 類型的,而不是 unicode
- s.encode('gb18030')
這句代碼將 s 重新編碼為 gb18030 的格式,即進(jìn)行 unicode -> str 的轉(zhuǎn)換。因?yàn)?s 本身就是 str 類型的,因此Python 會(huì)自動(dòng)的先將 s 解碼為 unicode ,然后再編碼成 gb18030。因?yàn)榻獯a是python自動(dòng)進(jìn)行的,我們沒有指明解碼方式,python 就會(huì)使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是ANSCII,如果 s 不是這個(gè)類型就會(huì)出錯(cuò)。
拿上面的情況來說,我的 sys.defaultencoding 是 anscii,而 s 的編碼方式和文件的編碼方式一致,是 utf8 的,所以出錯(cuò)了:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position
0: ordinal not in range(128)
對(duì)于這種情況,我們有兩種方法來改正錯(cuò)誤:
一是明確的指示出 s 的編碼方式
- #! /usr/bin/env python
- # -*- coding: utf-8 -*-
- s = '中文'
- s.decode('utf-8').encode('gb18030')
二是更改 sys.defaultencoding 為文件的編碼方式
- #! /usr/bin/env python
- # -*- coding: utf-8 -*-
- import sys
- reload(sys) # Python2.5 初始化后會(huì)刪除 sys.setdefaultencoding 這個(gè)方法,我們需要重新載入
- sys.setdefaultencoding('utf-8')
- str = '中文'
- str.encode('gb18030')
這樣應(yīng)該可以解決Jython中文亂碼的問題了。
【編輯推薦】