Unicode的不解之处

黑妞~

本帖最后由 sanguodouble1 于 2014-5-29 22:37 编辑

今天看到一道关于字符集的笔试题，然后总结了一下：
ASCII ：英文一个字节
gb2312，gbk ：中文两个字节，英文一个字节
在中文系统中ansi一般指gb2312或gbk
GB2312、GBK都属于双字节字符集 (DBCS)
Utf-8 ：中文三个字节，英文一个字节
Unicode：中文两个字节，英文两个字，java中默认编码
以上我的理解没错吧？

如果没错的话，下面这个使我十分不解：

public class Test {
public static void main(String[] args) throws UnsupportedEncodingException {
String str1 = "我爱abc";
String str2 = "a";
byte[] buf1 = str1.getBytes("unicode");
byte[] buf2 = str2.getBytes("unicode");
System.out.println(buf1.length+"字节");
for (byte c : buf1) {
System.out.print(c + " ");
}
System.out.println();
System.out.println(buf2.length+"字节");
for (byte c : buf2) {
System.out.print(c + " ");
}
}
}

复制代码

输出结果：
str1-----------12字节
-2 -1 98 17 114 49 0 97 0 98 0 99
str2-----------4字节
-2 -1 0 97

理论上，str1应该是10个字节，str2是两个字节啊
现在多出来了两个字节-2和-1，这个是什么东西呢？

DGNT00 · DGNT00

涨见识了，萌新表示原来还有这么多讲究

fanhongwei1105 · fanhongwei1105

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？
UTF-8是不用排序的，而Unicode是可以多个字节表示的，是需要排序的。

innovator · innovator

暂时看不懂...先收藏之后再研究。楼主很赞，分享很给力

图兰朵 · 图兰朵

顶一个!!!!

图兰朵 · 图兰朵

顶一下!!!!

docwei · docwei

看不懂啊啊啊啊

376699155

牛逼，学习了！

蓦然回首102 · 蓦然回首102

楼主给力！！！

灵韵依存 · 灵韵依存

围观中。。。。学习大神结论

15225159271

前几位总结的挺好，学习方法受教了

xuelanghu120 · xuelanghu120

非常好见识了

Lscreat · Lscreat

学习了啊，谢谢啊。

何艳梅 · 何艳梅

学习了

hmid · hmid

学习，顶

沐子松/kf · 沐子松/kf

学习　　　　　　　　　　

、海 · 、海

学习了！！

博€$€海 · 博€$€海

在 Java 中直接使用Unicode 转码时会按照UTF-16LE 的方式拆分

向前看向前走 · 向前看向前走

sanguodouble1 发表于 2014-5-26 23:04
非常好
不过我估计Utf-8之所以没有BOM头，是因为utf-8可以根据每个字节的前几位来判定，

你可以再看看这个，就应该能理解了
UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？
UTF-8是不用排序的，而Unicode是可以多个字节表示的，是需要排序的。

TS__likewise · TS__likewise

额，-2 -1(FE FF)是unicode big endian标志
fe ff:big endian
ff fe: no big endian
按照上面的结果看好像一个char是3 byte,但java中一个char是2 byte，
其实java中无论什么字符集string都会以unicode编码来存储，所以每个char都是一个
unicode编码占两个byte。

import java.io.UnsupportedEncodingException;


public class TestUtf8File {

  /**
   * @param args
   *
   */
  public static void main(String[] args) throws UnsupportedEncodingException {

    String s = "中国人";
    byte[] b = s.getBytes("utf-8");
    String s_utf8 = new String(b,"utf-8");
    System.out.println(s_utf8.getBytes("utf-8").length);
    System.out.println("utf-8 bytes:");
    printByteArray(s_utf8.getBytes("utf-8"));
    System.out.println("chars:");
    printCharArray(s_utf8.toCharArray());

    byte[] unicodeb= s.getBytes("unicode");
    String s_unidode = new String(unicodeb,"unicode");
    System.out.println("unicode bytes:");
    printByteArray(s_unidode.getBytes("unicode"));

  }

  private static void printByteArray(byte[] b){
    for(int i = 0;i < b.length; i++){
      System.out.println((Integer.toString(b[i],16)));

    }
  }

  private static void printCharArray(char[] c){
    for(int i = 0;i < c.length; i++){
      System.out.println(Integer.toString((byte)(c[i]>>8),16));
      System.out.println(Integer.toString((byte)(c[i]&0xff),16));

    }
  }

}

结果是output:
9
utf-8 bytes:
-1c
-48
-53
-1b
-65
-43
-1c
-46
-46
chars:
4e
2d
56
-3
4e
-46
unicode bytes:
-2
-1
4e
2d
56
-3
4e
-46

帐号		自动登录	找回密码
密码			加入黑马

Unicode的不解之处

评分

22 个回复

评分

浏览过的版块

黑马骑士勋章