黑马程序员技术交流社区

标题: 汉字在gbk编码中被转换成字节之后变成什么了？ [打印本页]

作者: 刘丰伟 时间: 2012-12-28 21:51
标题: 汉字在gbk编码中被转换成字节之后变成什么了？
汉字在gbk编码中被转换成字节之后变成什么了，一个汉字变成了两个负数，是什么怎么变的？

package com.heima;
public class 汉字的字符数量 {
/**
* @param args
*/
public static void main(String[] args) {
byte[] zifu = "a我是afdd好的".getBytes();
char[] zifu1 = "a我是afdd好的".toCharArray();
for (int i = 0; i < zifu1.length; i++)
System.out.print(zifu1[i] + ",");
System.out.println();
for (int i1 = 0; i1 < zifu.length; i1++)
System.out.print(zifu1[i1] + ",");
}
}

复制代码

打印结果是
a,我,是,a,f,d,d,好,的,
97,-50,-46,-54,-57,97,102,100,100,-70,-61,-75,-60,

作者: 肖志锋 时间: 2012-12-28 22:03
其实很简单，一个字节才一个8位，一个字符是2个8位，在编码表里面有对应的数字和所代表的字符，你把你的字符变成字节之后，就变成另外的数据了，需要重新组合之后才能变成字符，但是你在程序里面把每一个字节都打印出来了，也就是有办法跟他原来一起的另外一个字节组合一起了，所以打印出来只能是一个个的数字了。至于说负数整数则也是因为汉字在字符集里面的位置决定的，靠后的字肯定对应的2进制数前面1比较多是不是？有1就容易首位是1成负数了。

作者: Tom 时间: 2012-12-29 11:11
我想楼主应该是困惑在汉字的编码问题，以及char类型的字节数。
一个汉字占用两个字节，string.getBytes( )默认使用GBK字符集（GBK向下兼容GB-2312）,返回来的字节范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间。从中可以看出，首字节一定为负数，而尾字节可正可负。所以你说的一个字符打印成两个负数是不正确的，只能说你所使用的例子是打印出两个负数。
一个char类型是由两个字节组成，与GBK编码一致，所以你最终打印的结果没有错误。
希望能对你有所帮助！

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2