Solaris上開發(fā)J2EE中文問題的解決
關(guān)于JSP和J2EE的中文問題和處理方法,網(wǎng)上已經(jīng)有很多文章。一般在中文內(nèi)核的操作系統(tǒng)(如中文NT,windows2000)上,該問題不是很突出,而在其他一些系統(tǒng)(如linux,solaris)中就比較明顯了。近日在solaris上開發(fā)一個(gè)J2EE的應(yīng)用系統(tǒng),環(huán)境是solaris 2.7+minij2ee+mysql。系統(tǒng)在windows和linux下均沒有出現(xiàn)中文處理的問題,但部署到solaris上面后所有中文顯示為?。
后來(lái)經(jīng)過(guò)分析,發(fā)現(xiàn)原因出在系統(tǒng)編碼上。由于安裝solaris時(shí)默認(rèn)的系統(tǒng)編碼為ASCII,因此以默認(rèn)的系統(tǒng)編碼處理字符串時(shí)漢字高位信息丟失。下面一段簡(jiǎn)單的jsp程序說(shuō)明了這個(gè)問題:
- < %@ page contentType="text/html ;charset=gb2312"%>
- < % String str=request.getParameter("i" );//byte[] b=str.getBytes("iso-8859-1");byte[] b=str.getBytes ();out.println(new String(b ,"gb2312"));%>
在瀏覽器中輸入foo.jsp?i=中文,結(jié)果顯示為??。如果將byte[] b=str.getBytes();換成上面注釋掉的byte[] b=str.getBytes("iso-8859-1");,則正常顯示出“中文”二字。查閱了mysql JDBC的驅(qū)動(dòng)程序,問題相同。
考慮解決的方法有兩個(gè),一個(gè)是修改JDBC驅(qū)動(dòng)程序,另一個(gè)是將漢字編碼成7位,從實(shí)現(xiàn)方便的角度選擇了后者。不過(guò)后者的缺點(diǎn)是字符串長(zhǎng)度增加,并且無(wú)法直接通過(guò)sql工具來(lái)修改數(shù)據(jù)庫(kù)了。網(wǎng)上有一種漢字編碼的方法,是將漢字高位去1,英文則補(bǔ)一個(gè)0表示。這種方法有缺陷,因?yàn)樘囟ǖ臐h字編碼后會(huì)出現(xiàn)“'”等SQL語(yǔ)句中有歧義的字符,導(dǎo)致sql失敗。我摘取了minij2ee中uniString的編碼方法,該方法將字節(jié)表示為其16進(jìn)制編碼,下面是源代碼:
- public String encode()
- {
- try
- {
- StringBuffer sb=new StringBuffer();
- byte[] bytes=m_enc.compareTo("")==0?m_str.getBytes():m_str.getBytes(m_enc);
- for(int i =0;i>4)&0xF,16);
- sb.append(ch);
- ch=Character.forDigit(bytes[i]&0xF,16);
- sb.append(ch);
- }
- return sb.toString();
- }
- catch(java.io.UnsupportedEncodingException e)
- {
- throw new RuntimeException("Unsupported encoding type.");
- }
- }
- public void decode(String encodestr)
- {
- StringBuffer sb=new StringBuffer();
- int i=0;
- while(i!=encodestr.length())
- {
- sb.append((char)Integer.parseInt(encodestr.substring(i,i+2),16));
- i+=2;
- }
- m_str=new uniString(sb.toString(),"iso-8859-1").cvt(m_enc);
- }
使用編碼后,問題解決。
另外提一下,minij2ee***版本中提供了一個(gè)uniString類,解決了在所有操作系統(tǒng)上的中文問題。使用uniString對(duì)象,無(wú)需關(guān)心字符串本身編碼,使用時(shí)只要調(diào)用函數(shù)來(lái)獲得需要的編碼即可,如在jsp里調(diào)用uniString.gb()即可以以gb2312輸出字符串,在數(shù)據(jù)庫(kù)存儲(chǔ)時(shí)調(diào)用uniString.iso()即可以以iso-8859-1編碼輸出字符串,無(wú)論在中文內(nèi)核還是英文內(nèi)核的操作系統(tǒng)上均通用。
【編輯推薦】