2023年11月28日发(作者:)

乱码的原因及处理方法

2012-05-09 17:16

困扰已久的乱码问题终于得到解决,希望下次出现更多问题,解决问题的过程

很愉快!

关于jsp乱码问题的解决

2009-01-22 21:32

关于jsp乱码问题的解决。

1 最基本的乱码问题。

这个乱码问题是最简单的乱码问题。一般新会出现。就是页面编码不一致导致

的乱码。

<%@ page language="java" pageEncoding="UTF-8"%>

<%@ page contentType="text/html;charset=gb2312"%>

</span><span style='font-size:18px;color:#000000;font-family:SimSun;'>中文问题</span><span style='font-size:18px;color:#000000;font-family:SimSun;'>

我是个好人

三个地方的编码。

第一个地方的编码格式为jsp文件的存储格式。Eclipse会根据这个编码格式

保存文件。并编译jsp文件,包括里面的汉字。

第二处编码为解码格式。因为存为UTF-8的文件被解码为iso8859-1,这样

如有中文肯定出乱码。也就是必须一致。而第二处所在的这一行,可以没有。

缺省也是使用iso8859-1的编码格式。所以如果没有这一行的话,“我是个好

人”也会出现乱码。必须一致才可以。

第三处编码为控制浏览器的解码方式。如果前面的解码都一致并且无误的话,

这个编码格式没有关系。有的网页出现乱码,就是因为浏览器不能确定使用哪

种编码格式。因为页面有时候会嵌入页面,导致浏览器混淆了编码格式。出现

了乱码。

2 表单使用Post方式提交后接收到的乱码问题

这个问题也是一个常见的问题。这个乱码也是tomcat的内部编码格式

iso8859-1在捣乱,也就是说post提交时,如果没有设置提交的编码格式,

则会以iso8859-1方式进行提交,接受的jsp却以utf-8的方式接受。导致乱

码。既然这样的原因,下面有几种解决方式,并比较。

A 接受参数时进行编码转换

String str = new

String(ameter("something").getBytes("ISO-8859-

1"),"utf-8") 这样的话,每一个参数都必须这样进行转码。很麻烦。但确

实可以拿到汉字。

B 在请求页面上开始处,执行请求的编码代码

racterEncoding("UTF-8"),把提交内容的字符集设为UTF

8。这样的话,接受此参数的页面就不必在转码了。直接使用String str =

amete("something");即可得到汉字参数。但每页都需要执行

这句话。这个方法也就对post提交的有效果,对于get提交和上传文件时的

enctype="multipart/form-data"是无效的。稍后下面单独对这个两个的乱码

情况再进行说明。

C 为了避免每页都要写racterEncoding("UTF-8"),建议使用

过滤器对所有jsp进行编码处理。这个网上有很多例子。请大家自己查阅。

3 表单get提交方式的乱码处理方式。

如果使用get方式提交中文,接受参数的页面也会出现乱码,这个乱码的原因

也是tomcat的内部编码格式iso8859-1导致。Tomcat会以get的缺省编码方

iso8859-1对汉字进行编码,编码后追加到url,导致接受页面得到的参数

为乱码/、。

解决办法:

A 使用上例中的第一种方式,对接受到的字符进行解码,再转码。

B Get走的是url提交,而在进入url之前已经进行了iso8859-1的编码处

理。要想影响这个编码则需要在Connector节点增加

useBodyEncodingForURI="true"属性配置,即可控制tomcatget方式的汉

字编码方式,上面这个属性控制get提交也是用

racterEncoding("UTF-8")所设置的编码格式进行编码。所以

自动编码为utf-8,接受页面正常接受就可以了。但我认为真正的编码过程

是,tomcat又要根据

maxThreads="150" minSpareThreads="25" maxSpareThreads="75"

enableLookups="false" redirectPort="8443" acceptCount="100"

debug="0" connectionTimeout="20000" useBodyEncodingForURI="true"

disableUploadTimeout="true" URIEncoding=”UTF-8”/>

里面所设置的URIEncoding=”UTF-8”再进行一次编码,但是由于已经编码为

utf-8,再编码也不会有变化了。如果是从url获取编码,接受页面则是根据

URIEncoding=”UTF-8”来进行解码的。

4 上传文件时的乱码解决

上传文件时,form表单设置的都是enctype="multipart/form-data"。这种方

式以流方式提交文件.如果使用apach的上传组件,会发现有很多乱码想象。

这是因为apach的先期bug,取出汉字后进行解

码,因为这种方式提交,编码又自动使用的是tomcat缺省编码格式iso-

8859-1。但出现的乱码问题是: 句号,逗号,等特殊符号变成了乱码,汉字

如果数量为奇数,则会出现乱码,偶数则解析正常。

解决方式: 下载 这个版本的jar已经解决

了这些bug。但是取出内容时仍然需要对取出的字符进行从iso8859-1utf-

8转码。已经能得到正常所有汉字以及字符。

5 Java代码关于url请求,接受参数的乱码

url的编码格式,取决于上面所说的URIEncoding=”UTF-8”。 如果设定了这

个编码格式,则意味着所有到url的汉字参数,都必须进行编码才可以。否则

得到的汉字参数值都是乱码,例如一个链接 rect

(“/?name=张大维”);而在里面直接使用String name");

得到的就是乱码。因为规定了必须是utf-8才可以,所以,这个转向应该这样

写:

rect(“/?name=(“张大

维”,”utf-8”);才可以。如果不设置这个参数URIEncoding=”UTF-8”,

会怎么样呢? 不设置则就使用了缺省的编码格式iso8859-1。问题又出来了,

第一就是参数值的个数如果是奇数个数,则就可以正常解析,如果使偶数个

数,得到最后字符就是乱码。还有就是如果最后一个字符如果是英文,则就能

正常解析,但中文的标点符号仍出现乱码。权宜之计,如果您的参数中没有中

文标点符号,则可以在参数值最后加一个英文符号来解决乱码问题,得到参数

后再去掉这个最后面的符号。也可以凑或使用。

6 脚本代码关于url请求,接受到的参数乱码

脚本中也会进行页面转向的控制,也会涉及到附带参数,并在接受页面解析这

个参数的情况。如果这个汉字参数不进行URIEncoding=”UTF-8”所指定的编

码处理,则接受页面接受到的汉字也是乱码。脚本处理编码比较麻烦,必须有

相应的编码脚本对应文件,然后调用脚本中的方法对汉字进行编码即可。

7 关于jspMyEclipse中打开的乱码问题对于一个已经存在的项目,Jsp

件的存储格式可能是utf-8。如果新安装的eclipse,则缺省打开使用的编码

格式都是iso8859-1。所以导致jsp里面的汉字出现乱码。这个乱码比较容易

解决,直接到

eclipse3.1的偏好设置里面找到general-edidor,设置为您的文件打开编

码为utf-8即可。Eclipse会自动重新以新的编码格式打开。汉字即可正常显

示。

8 关于html页面在eclipse中打开出现乱码情况由于大部分页面都是由

dreamweaver制作,其存储格式跟eclipse的识别有差别导致。一般这种情

况,在eclipse中新建一个jsp,直接从dreamweaver复制页面内容粘贴到

jsp即可。

////////////////////////////////////////////////////////////////////

//////////////////////

jsp中文乱码问题的解决办法 jspjava中文编码问题的个人经验|终于看到

一个完全解决的方案

四月 5th, 2006

====================/blog===================zsjnj

*************=========

=======

开发java应用出现乱码是很常见的,毕竟现在unicode的使用还不是很广

泛,在使用gb2312(包含了gbk简体,big5繁体)的系统中要正确实现中文

display和数据库的存储是最基本的要求。

========================/blog====================

===================

1,首先developer要明确自己为什么会遇到乱码,遇到什么样的乱码(无意

义的符号还是一串问号或者其它什么东西)。新手遇到一堆很乱的字符时通常

不知所措,最直接的反映就是打开google搜索”java中文”(这个字符串在

搜索引擎上的查询频率非常高),然后一个一个的去看别人的解决方法。这样

做没有错,但是很难达到目的,原因下面会提到。总之,出现乱码的原因是非

常多的,解决的方法也完全不一样,要解决问题必须先分析自己的”上下文环

境”。

========================/blog====================

=================

2,具体说来,需要哪些信息才能确定项目中的乱码的根源。

a,开发者所用的操作系统

bj2ee容器的名称,版本

c,数据库的名称,版本(精确版本)以及jdbc驱动的版本

d,出现乱码的source code(比如是system out 出来的,还是jsp页面中

的,如果是jsp中的,那么头部声明的情况也很重要)

=========================/blog===================

=====================

3,如何初步分析乱码出现的原因。

有了上述的信息,基本上就可以发帖求助了,相信放到javaworld等论坛上,

很快就会有高手给你提出有效的解决方案的。当然不能总靠发帖求助,也要试

试自行解决问题。如何下手呢?

a,分析一下你的”乱码”到底是什么编码。这个其实不难,比如

n(testString);

这一段出现了乱码,那么不妨用穷举法猜测一下它的实际编码格式。

n(new String(es(”ISO-8859-

1〃),”gb2312〃));

n(new

String(es(”UTF8〃),”gb2312〃));

n(new

String(es(”GB2312〃),”gb2312〃));

n(new

String(es(”GBK”),”gb2312〃));

n(new

String(es(”BIG5〃),”gb2312〃));

等等,上述代码的意思是用制定的编码格式去读取testString这个”乱

码”,并转换成gb2312(此处仅以中文为例)然后你看哪一个转换出来的结

果是ok的,那就。。。

b,如果用上面的步骤能得到正确的中文,说明你的数据肯定是在的,只不过

是界面中没有正确显示而已。那么第二步就该纠正你的view部分了,通常需

要检查的是jsp中是否选择了正确的页面编码。在此要声明被很多人误解的一

点,那就是<%@ page contentType=”text/html; charset=GB2312〃 %>

指令和

content=”text/html; charset=gb2312〃>两者的不同。通常网上的很多文章

在提到中文问题时都是说数据库中选择unicode或者gb2312存储,同

时在jsp中用page指令声明编码就可以解决。但是我觉得这种说法很不负责

任,害的我费了N多时间为本来并不存在的乱码而郁闷。实际上page的作用

是在jsp被编译成为html的过程中提供编码方式让java来”读取”表达式当

中的String(有点类似于上面的第三个语句的作用),而meta的作用是众所

周知的为IE浏览器提供编码选择,是用来”显示”最后的数据的。但是没有

看到有人提醒这一点,我一直把page当成meta在用,导致本来是iso-8859

的数据,被page指令读成gb2312,于是乱码,所以又加了编码转化的函数把

所有的string数据都从iso8859转到gb2312(为什么这么转,当时也没考虑

这么多,因为这么做可以正常显示了,所以就这么改了,呵呵当时实在没有时

间慢慢排查问题了)。

注解:文中引用部分内容转自:/blog/380326