Java字符集编码问题

黄炳期

本帖最后由我能学编程吗于 2013-11-3 01:44 编辑

看张孝详老师的基础视频，有讲到字符编码的知识，看着他的代码一模一样的敲都得不到相同结果，我简化后如下：

//iso8859-1:西方国家使用的字符集
System.setProperty("file.encoding","iso8859-1");//修改JAVA系统使用的默认字符编码为iso8859-1
System.getProperties().list(System.out);//打印JAVA系统属性，从中查看file.encoding字符集
String strChina="中国";
byte [] buf=strChina.getBytes();//按默认字符集（即iso8859-1)对strChina编码，并转换成byte[]
for(int k=0;k<buf.length;k++) {
System.out.write(buf[k]);//这里传的必须是gbk编码的字节才能正确显示中文
}
System.out.println(); // 这里会自动调用flush，这样上面写的内容才会输出。说明System.out也是用了缓冲技术的。

复制代码

要求：                1、修改Java默认的字符集编码：System.setProperty("file.encoding","iso8859-1");
      2、修改后String类的.getBytes();方法没指定字符集的话，就会使用默认的字符集编码，即上面设置的iso8859-1，所以上面代码中得到的buf编码应该是iso8859-1类型的
      3、System.out.write(buf[k])写到显示器上，这里写的是iso8859-1编码字节的数据，我们知道电脑的默认是使用gbk进行显示的，应该传gbk编码的数据才能正确显示。
      4、为什么电脑仍然输出的是正常的“中国”两字，说明我调用getBytes();方法的时候拿到的依然是gbk编码的字节数据，这是为什么啊？

麻烦大家跑一下这代码，看是输出“中国”，还是乱码。我看张孝详老师的可是会输出乱码的。

魏春旭 · 魏春旭

{:soso_e127:}我还没看张老师的视频。

黄炳期 · 黄炳期

魏春旭发表于 2013-11-3 08:31
我还没看张老师的视频。

抓紧时间哦！

--_.Is’攸稀 · --_.Is’攸稀

没看张孝详老师的视频，也没学到那么深，所以就只能帮你运行一下了。

∏艾力克斯※ · ∏艾力克斯※

// iso8859-1:西方国家使用的字符集
System.setProperty("file.encoding", "");// 修改JAVA系统使用的默认字符编码为iso8859-1
System.getProperties().list(System.out);// 打印JAVA系统属性，从中查看file.encoding字符集
String strChina = "中国";
byte[] buf = strChina.getBytes();// 按默认字符集（即iso8859-1)对strChina编码，并转换成byte[]
for (int k = 0; k < buf.length; k++) {
System.out.write(buf[k]);// 这里传的必须是gbk编码的字节才能正确显示中文
}
System.out.println(); // 这里会自动调用flush，这样上面写的内容才会输出。说明System.out也是用了缓冲技术的。

复制代码

修改后，以不输入字符编码，或者干脆输入一个不存在的字符编码，均会输出结果“中国”，不乱码。
可见，System.setProperty("file.encoding", "123");这行代码已经失去作用，无效化。
本人推测，是运行环境所导致的问题，项目编码之类的可能会影响，但是没找到具体原因

黄炳期 · 黄炳期

如果问题已经解决，请及时修改主题为“提问结束”。
修改主题的方法链接
http://bbs.itheima.com/thread-89313-1-1.html

Mr.Z.Lee · Mr.Z.Lee

是正常的不是乱码

我能学编程吗 · 我能学编程吗

黄炳期发表于 2013-11-3 13:28
如果问题已经解决，请及时修改主题为“提问结束”。
修改主题的方法链接
http://bbs.itheima.com/thread-89 ...

还木有解决呢，具体原因不知道啊！

我能学编程吗 · 我能学编程吗

本帖最后由我能学编程吗于 2013-11-3 19:36 编辑

终于，通过自己看源代码，我知道原因了：

查源代码，肯定是查返回byte字节的地方，点击getBytes()查看源码如下：

public byte[] getBytes() {

return StringCoding.encode(value, offset, count);

}

这里看到调用了ecode方法，并且该方法没有任何的注释，所以只能再进源代码看了，点击进入encode方法的源代码如下：

static byte[] encode(char[] ca, int off, int len) {

String csn = Charset.defaultCharset().name();

.....多句代码

}

此处第一句很明显是获取到了默认的字符编码的名称，查看JDK文档也有这个方法说明。把这句代码复制出来运行，可看到结果是GBK。为什么是GBK呢？只有再进源码再看了，点击defaultCharset方法进入源码，如下：

public static Charset defaultCharset() {

if (defaultCharset == null) {

synchronized (Charset.class) {

java.security.PrivilegedAction pa = new GetPropertyAction("file.encoding");

String csn = (String)AccessController.doPrivileged(pa);

Charset cs = lookup(csn);

if (cs != null) defaultCharset = cs;

else defaultCharset = forName("UTF-8");

}

return defaultCharset;

}

从上面源码可知，如果成员defaultCharset不为空，则直接返回，否则就是去获取一个字符集了，在代码中看到有new GetPropertyAction("file.encoding")，猜想它应该是要去获取Java环境属性中的“file.encoding”属性，

而代码：String csn = (String)AccessController.doPrivileged(pa); 一猜就是获取“file.encoding”属性的值，变量名应该是CharSetName的缩写吧。

而代码：Charset cs = lookup(csn); 很明显这句就是返名字为csn对应的字符集对象。Lookup方法没有注释说明。

而forName("UTF-8");是返回编码为"UTF-8"的字符集，这个方法有注释，也可在JDK文档中查看说明，再看这个方法的源码如下：

public static Charset forName(String charsetName) {

Charset cs = lookup(charsetName);

if (cs != null)

return cs;

throw new UnsupportedCharsetException(charsetName);

}

从上面源码可知，forName方法最终也是调用lookup方法返回一个字符集对象的。

综合上面的理解，可把上面的public static Charset defaultCharset()方法简化如下：

public static Charset defaultCharset() {

if (defaultCharset == null) {

Charset cs = 获取Java环境变量"file.encoding"中指定的字符集

if (cs != null) defaultCharset = cs;

else defaultCharset = forName("UTF-8");

}

return defaultCharset;

}

因此我们调用String csn = Charset.defaultCharset().name();时得到csn的值为GBK，说明上面的代码没有去获取"file.encoding"中指定的字符集，也就是说明上面代码中defaultCharset的值默认就有值了，而且是“GBK”，所以知道了：就算我改变了file.encoding变量的值，但是系统也不会查找这个变量的值来当默认的编码。因此，可以说张孝详老师的代码没有错，我们的代码也没有错，只是老师录那个视频时用的JDK版本比较低，而现在高版本的代码对这部份进行了修改。

空想没凭证，百度学习了一下反射，验证过程如下：

上面的源码中defaultCharset变量的声明的源码为：private static volatile Charset defaultCharset; ，一看是静态的，而且私有的，这样就不能访问这个变量了，所以采用了反射技术拿到这个变量，并将它的值修改为 null ，当defaultCharset == null 时，则上面public static Charset defaultCharset()方法就会执行 “获取Java环境变量"file.encoding"中指定的字符集” 的那些代码，运行结果证明，我是正确的，代码如下：

//修改JAVA系统使用的默认字符编码为iso8859-1

System.setProperty("file.encoding","iso8859-1");

// 通过反射技术，把Charset.defaultCharset的值修改为null

Class clazz = Class.forName("java.nio.charset.Charset");// 获取Charset的字节码对象

Field field = clazz.getDeclaredField("defaultCharset"); // 获取字段（包括私有的），这里获取的是私有的成员属性：defaultCharset

field.setAccessible(true); // 设置私有字段可以被访问

field.set(clazz, null); // 修改defaultCharset成员的值为null

// 如果Charset.defaultCharset == null，即会去获取环境变量file.encoding中指定的字符集

String csn = Charset.defaultCharset().name(); // 获取默认的字符集的名字

System.out.println(csn);

String strChina = "中国";

byte[] buf = strChina.getBytes(); // 此处拿到的字节数据将是"iso8859-1"编码类型的

System.out.write(buf); // 只有传GBK类型的才能正确显示中文字符，所以此处是乱码

System.out.flush();

通过使用反射知识后，感觉自己的技术一下子就提升了，好牛 B 啊！

所以仔细一想，老师的方法已经过时，上面的代码中，不应该使用设置Java的环境变量file.encoding的值，来改变Java默认使用的编码，file.encoding默认是GBK，不要改变它，应该直接改变Charset.defaultCharset变量的方式来改变默认编码，在上面的代码中把修改file.encoding的代码注释，并增加如下代码：

Charset iso8859 = Charset.forName("ISO8859-1"); // 创建一个"ISO8859-1"的字符集

field.set(clazz, iso8859); // 修改defaultCharset成员的值为"ISO8859-1"字符集

哇！好牛叉，我自己回答自己的问题，而且回答的这么详细，版主是否应该给加1分呢？

补充：Charset.defaultCharset变量的值是怎么默认就为GBK的呢？这个我就没有再去深究了，已经究不下去了，但是已经足够了，通过看源码已经让我学到许多东西了！

不过我可以猜想一下：Charset这个类是要比我们写的类先装进内存的，JVM自动调用了Charset.defaultCharset()方法，此方法会去查询Java环境变量file.encoding的值，此时的值是默认的GBK，所以JVM是首先把Charset.defaultCharset设置了GBK。JVM自己的一些必须的类都启动完成了，才是启动我们写的类，虽然我们改变了file.encoding的值，但是Charset.defaultCharset的值已经初始化好了，已经是GBK了。

⋛⋌⋚JEEP · ⋛⋌⋚JEEP

lz牛逼，学习了:lol

a191170796 · a191170796

楼上的！跟着你有汤喝啊！

nxp1986 · nxp1986

lz牛逼，我也跟着学习了

刘斌2014 · 刘斌2014

看了一下别人的解答我也懂了

黑马-胡明 · 黑马-胡明

厉害吧···

日光加蓝 · 日光加蓝

。。。。。。。。。。。。。。。。。。。。。。。。。

狐狸FMF · 狐狸FMF

java 真是学无止境啊

狐狸FMF · 狐狸FMF

楼主真给力

黄小橙 · 黄小橙

学习了！谢谢

wujiemin · wujiemin

求张泽华老师讲课时用的color.exe和size.exe工具

wujiemin · wujiemin

为了实现梦想；让自己活着更有意义做自己有兴趣的事

帐号		自动登录	找回密码
密码			加入黑马

Java字符集编码问题

评分

27 个回复

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

评分

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

回帖奖励 +5 黑马币

浏览过的版块

黑马骑士勋章

优秀作者