如何進(jìn)行Python編碼轉(zhuǎn)換?
下面文章主要將使用Python編碼轉(zhuǎn)換的程序向大家進(jìn)行說明,如果對代碼有什么不了解,建議大家還是去網(wǎng)上或者相關(guān)論壇去尋找,大多數(shù)Python編碼是大陸使用的編碼集。
以前使用的為GB-2312編程,它只有常用字,字?jǐn)?shù)有限。后國家制定了新的GBK編碼,漢字已經(jīng)達(dá)到了2萬多。GBK完全兼容原GB-2312編碼,也就是說一個(gè)GB2312的編碼在GBK上是一模一樣的。這里所介紹的轉(zhuǎn)換是以GBK為基礎(chǔ)的,因此適用性很廣。
GBK編碼中不僅包括了原GB-2312編碼,同時(shí)也包括了許多簡碼的繁體碼,同時(shí)還有許多的符號與不常用漢字。GBK編碼的范圍是:高字節(jié)從0x81到0xFE,低字節(jié)從0x40到0xFE,同時(shí)不包括0x7F。這樣如果我們將其排成一個(gè)矩形,看上去就少了xx7F一根線。
那么如何定位一個(gè)GBK碼呢?當(dāng)我們拿到一個(gè)編碼時(shí),如何判斷是不是一個(gè)GBK碼,如果是GBK碼如何定位它的位置呢?判斷一個(gè)GBK碼應(yīng)該比較簡單,我們只要根據(jù)它的有效范圍進(jìn)行判定即可。
這里ch1和ch2分別是一個(gè)字符的高字節(jié)和低字節(jié)。如何定位(為什么要定位我們在后面講)?首先介紹一下碼表。碼表是所有編碼放在一起形成的,你可以將其放在文件中(這里講述的是將編碼放在文件中)。
我們在存放編碼時(shí)是將有實(shí)際意義的編碼放在了一起(因?yàn)橛幸恍┙M合是不存在的),而且是按字節(jié)大小的順序放的。根據(jù)GBK的編碼范圍,我們可以設(shè)想一個(gè)二維坐標(biāo),縱坐標(biāo)是高字節(jié),橫坐標(biāo)是低字節(jié),每一個(gè)交叉點(diǎn)上是一個(gè)漢字,占兩個(gè)字節(jié)。
這樣一行上的漢字個(gè)數(shù)應(yīng)該為0xFE-0x40+1-1=190(加1是因?yàn)橐?x40也算進(jìn)去。減1是因?yàn)橐?F去掉)。定位時(shí),我們先用高字節(jié)減去0x81,得到縱坐標(biāo)偏移量。用低字節(jié)減去0x40得到橫坐標(biāo)偏移量。用縱坐標(biāo)偏移量乘以每個(gè)漢字個(gè)數(shù),加上橫坐標(biāo)偏移量就得到漢字的偏移量。再乘以2得到字節(jié)的偏移量。那么定位算法為:
index=((ch1-0x81)*190+(ch2-0x40)-(ch2/128))*2上面的算法中有-(ch2/128)。這是因?yàn)镚BK中沒有7F碼,因此當(dāng)ch2小于7F時(shí),ch2/128=0,則表示7F沒有計(jì)算在內(nèi)。而當(dāng)ch2大于7F時(shí)。
ch2/128=1,則表示多算了7F一值,因此要去掉。由于一個(gè)漢字有兩個(gè)字節(jié),故要乘以2。這樣我們就得到一個(gè)GBK漢字在碼表中的字節(jié)位置了。BIG5是香港和臺灣地區(qū)使用的編碼集。它的范圍為:高字節(jié)從0xA0到0xFE,低字節(jié)從0x40到0x7E,和0xA1到0xFE兩部分。
判斷一個(gè)漢字是否是BIG5編碼,可以如上對字符的編碼范圍判斷即可。如何定位呢?Python編碼轉(zhuǎn)換那么也想象所有編碼排列為一個(gè)二維坐標(biāo),縱坐標(biāo)是高字節(jié),橫坐標(biāo)是低字節(jié)。這樣一行上的漢字個(gè)數(shù):(0x7E-0x40+1)+(0xFE-0xA1+1)=157。那么定位算法分兩塊。#t#
上面,我們已經(jīng)可以得到GBK漢字和BIG5的字節(jié)位置。那么就可以開始進(jìn)行轉(zhuǎn)換了。對于轉(zhuǎn)換我原以為有一個(gè)特別的算法,能夠按照兩種編碼的不同,簡單地通過計(jì)算就可以得出結(jié)果來,其實(shí)是不存在這種算法的。
真正的做法是通過建立轉(zhuǎn)換碼表文件實(shí)現(xiàn)的。即對于GBK碼表,將原位置上的GBK漢字改成相應(yīng)的BIG5漢字。對于BIG5碼表,將原位置上的BIG5漢字改成相應(yīng)的GBK漢字。這樣,由于原來漢字的位置沒有變。
但編碼已經(jīng)變成了想要轉(zhuǎn)換的編碼。通過計(jì)算出原漢字的位置,將轉(zhuǎn)換碼表中對應(yīng)漢字位置的字符取出來,這樣就完成了轉(zhuǎn)換(這就是為什么要進(jìn)行編碼定位的原因)。的確,程序是簡單的。
但真正細(xì)致的工作是在建立轉(zhuǎn)換碼表上。我們需要從GBK轉(zhuǎn)BIG5的碼表文件,和BIG5轉(zhuǎn)GBK的碼表文件。好在這一工作已經(jīng)有人完成了,在網(wǎng)上可以找到這種信息。本人就是在網(wǎng)上找到了這種對應(yīng)的轉(zhuǎn)換碼表,于是完成了一個(gè)用Python編碼轉(zhuǎn)換程序。