Python vim檢查編碼在文件中的對應(yīng)編碼的介紹
如果你在打開一個文件時中文編碼是什么格式不太清楚的話,例如文件頭可能指定是utf8,而實(shí)際編碼卻不是,就針對這一情況,你就可以用Python vim檢查編碼對其進(jìn)行解決,以下是文章的具體介紹。
打開一個中文文件,不清楚其中文編碼到底是什么格式。python源程序文件頭可能指定是utf8,而實(shí)際編碼卻是gbk。不一致的編碼在python源碼中,可能在執(zhí)行時得到錯誤的結(jié)果。一種解決辦法是查看二進(jìn)制,但漢字的二進(jìn)制到底對應(yīng)什么編碼呢?
vim的vimrc里面增加兩行:
- set fenc=utf-8
- set fileencodings=utf-8,cp936,big5,euc-jp,
euc-kr,latin1,ucs-bom
這樣,文件保存缺省的為utf-8編碼。
- set enc=cp936
這是gvim界面顯示的編碼,windows下用cp936,linux下用utf8,***不要設(shè),系統(tǒng)自己判斷。
對新打開的已經(jīng)存在的文件,如果不確定一個文件是否是utf8還是gbk,用Pythonvim打開文件,看到中文,再在命令模式下執(zhí)行
- :%!xxd
看到相應(yīng)的二進(jìn)制。假如文本中有“你好”,會在左邊對應(yīng)位置看到你好的十六進(jìn)制表示。打開python3.0,在命令行下將文本中的特定字“你好”進(jìn)行二進(jìn)制轉(zhuǎn)碼。
- view plaincopy to clipboardprint?
- >>> a='你好'
- >>> b=a.encode('utf8')
- >>> b
- b'\xe4\xbd\xa0\xe5\xa5\xbd'
- >>> c=a.encode('gbk')
- >>> c
- b'\xc4\xe3\xba\xc3'
- >>> a='你好'
- >>> b=a.encode('utf8')
- >>> b
- b'\xe4\xbd\xa0\xe5\xa5\xbd'
- >>> c=a.encode('gbk')
- >>> c
- b'\xc4\xe3\xba\xc3'
可以看到,對中文“你好”的二進(jìn)制,utf8是
- 0xe4ba0 0xe5a5bd
而對gbk,gb2312,cp936,gb18030,則二進(jìn)制是:0xc4e3 0xbac3與Python vim檢查編碼中二進(jìn)制一比較,就看出文本中是什么編碼了。知道編碼后,再用
- :%!xxd -r
命令將十六進(jìn)制轉(zhuǎn)為普通的文本,保存。對已經(jīng)存在的文本,linux下可以用iconv將其轉(zhuǎn)碼。以上內(nèi)容就是對Python3.0 和Python vim檢查編碼的介紹。
【編輯推薦】
- Python常用模塊中經(jīng)常使用的其中模塊
- Python模塊功能在實(shí)際應(yīng)用方案中的相關(guān)功能的介紹
- Python安裝中對配置環(huán)境變量實(shí)際操作的方法
- Python手工加載Django的實(shí)際操作的四部分詳解
- Python VIM 注釋掉代碼的具體方案的描述