为什么"a".getBytes("Unicode").length输出的是4

今天看毕老师的IO流视频，视频中说Unicode的字符都是两个字节，为甚么我用System.out.println("a".getBytes("Unicode").length);输出的却是4

贾波 · 贾波

本帖最后由贾波于 2013-11-28 22:29 编辑

public class Test {
public static void main(String[] args) {
try {
byte[] unicodes = "a".getBytes("Unicode");
System.out.println("unicodes=" + unicodes.length);
for (int i = 0; i < unicodes.length; i++) {
System.out.println(unicodes[i]);
}
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}

复制代码

输出结果：
unicodes=4
-2
-1
0
97

在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分，并加上 BOM。
Unicode一个字符占两个字节。-2，-1是一个字节的BOM标志。

胡永城 · 胡永城

实际输出为 // 0xfe 0xff 0x00 0x31

/**
* UNICODE 是一种字符集，在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分，由于
* UTF-16 分为 UTF-16LE 和 UTF-16BE，也就是小端序和大端序，因此在网络传过程中，无法判断是 LE 还是 BE
* 序的，因此需要加上一个额外的字节序 BOM 头。
*
* BOM 头的字符是一个特殊的字符，其 Unicode 编码为 U+FEFF，字符名为“ZERO WIDTH
* NON-BREAKING SPACE”，根据 RFC2781 3.2 节规定，开头两个字节为 FE FF 的称为
* Big-Endian，开头为 FF FE 的称为 Little-Endian。
*
* 因此，你直接使用 Unicode 转换字节的话，也就是按 UTF-16LE 方式进行解码，会额外地加上 BOM 的两个字节 FF
* FE。
*/

复制代码

详细的解释见： http://blog.csdn.net/lipeijs3/article/details/5062243
和
http://bbs.csdn.net/topics/270062448

QQ被盗 · QQ被盗

谢啦，又让我了解到了，Unicode编码，一直以来都弄不清它

ysunday · ysunday

楼上说的很对了，那两个多出来的字节是因为在unicode编码中，还要指定字节序，就是字节的顺序，大于一个字节的数据在内存中存放的的顺序。有两种，大字节序BIG-ENDIAN和小字节序LITTLE-ENDIAN.
传输协议中，需要先传一个标识，一个叫“ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在Unicode中是不存在的字符，所以不应该出现在实际传输中。unicode规范建议在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样就多出了两个字节。
不信你换”ab“.getBytes()/length;输出就是6.还是多两位

QQ被盗 · QQ被盗

胡永城发表于 2013-11-28 22:50
实际输出为 // 0xfe 0xff 0x00 0x31

详细的解释见： http://blog.csdn.net/lipeijs3/article/details/5062 ...

大哥，看来下你的博客，让我感触很深啊

帐号		自动登录	找回密码
密码			加入黑马

为什么"a".getBytes("Unicode").length输出的是4

5 个回复

评分

评分

评分

浏览过的版块

黑马骑士勋章