double1122
江湖小虾

[学习类] jsp开发中中文乱码问题解决方法介绍(java、struts)

-->
本帖最后由 double1122 于 2012-3-2 23:26 编辑

由于要显示中文,jsp页面编码方式一般设定为utf-8,gb2312或gbk。utf-8可以表示世界上几乎所有的语言,gbk和gb2312是中文字符集标准,其中gb2312任何字符都可以在gbk中找到对应字符,即可以认为gbk字符集包含gb2312字符集。
为了解决中文乱码问题,必须理解一下几个知识点:
1.       jsp中,前台jsp文件传递到后台的参数表示为Unicode代码,而当要保存到文件或其它介质中去时,用的是UTF。这个转化过程是由writeUTF和readUTF来完成的。我们可以理解为,在后台获取前台jsp参数时,获得的是其参数经过一系列转化而获得的unicode编码。
2.       当有某种字符编码转化为另外一种字符编码时,如果后则没有对应编码,则其值会被设定为63,即字符“?”,如果有,则设定为该字符。所以如果出现乱码,并不是所有的字符都是“?”。
3.       JVM中的默认设置file.encoding,一般情况下,这个值是ISO8859-1,可以通过Charset.defaultCharset()获得该值,我电脑上的是GBK。
4.       如果你的前台jsp文件编码方式设定为gb2312,而在处理过程中,绝大部分中文都能正常显示,只有少数几个显示为“?”,则一般可以把gb2312编码改为gbk就可以解决问题。
5.       ISO-8859-1编码转化为Unicode编码时,是在每个字节前增加一个字节,其值为0x00,如d6 d0(ISO-8859-1)变化为00 d6 00 d0(Unicode).Unicode编码转化为ISO-8859-1编码转化成功时,则正好相反(每两个字节分为一组,去掉第一个字节,第一个字节其值应该为0x00)。
6.       任何编码的字节流都可以转化为ISO-8859-1的字节流而不丢失信息,因为ISO-8859-1利用了一个字节的所以位。
对上面内容有大致了解后,我们就可以自己摸索须寻找解决中文乱码问题的解决方案,以下是我最近开发项目时,摸索解决处理中文的具体过程。
为了解决该问题,我写了一个简单的测试项目(struts1),前台jsp文件编码设定为gbk,其中有一个表单,表单中有一个名称为userName的文本框,我把其值定为“中文”(经查,gbk编码为d6 d0 ce c4),提交表单后,转到后台文件处理(java文件),在后台处理文件中,首先我通过request的getParameter()方法获得userName,结果其值为” ÖDÎÄ”(查表可知其编码为:” u00d6 u00d0 u00ce u00c4”),如何获得字节流”d6 d0 ce c4”呢?通过上面知识点5,我通过str.getBytes(“ISO-8859-1”)获得了获得的字符串的ISO-8859-1字符流buf,其值为” d6 d0 ce c4”,正是我所需要的值,接着我就重新构造字符串,通过new String(buf)获得正确显示的中文,如果默认字符集不是gbk,则应该用new String(buf,”gbk”)获得正确的中文字符串。对此问题,我的理解是,gbk编码的中文字符“中文”的编码为“d6 d0 ce c4”,转化为ISO-8859-1字符流为“d6 d0 ce c4”,然后在转化为Unicode字符流“00 d6 00 d0 00 ce 00 c4”,在内存中以对应的字符串” ÖDÎÄ”保存;然后在后台如何处理获得正确显示的中文字符串上面已经讲解。
以上实例是基于我的相关环境及配置研究获得的解决方案,不同环境可能不一定完全相同,但是如果理解了上述发现问题,解决问题的步骤,我相信一般乱码问题都可以得到解决。本文不正确或者不完整的地方还请各位指教,希望和大家一起共同学习,共同进步。
#1楼
发帖时间:2012-03-02 23:24:15   |   回复数:0
游客组