[学习交流] Java编码问题详解

>汉字编码的相关说明
  汉字是双字节的，要占用两个BYTE的位置（即16位），分别称为高位和低位。
中国规定的汉字编码为GB2312，这是强制性的，目前几乎所有的能处理中文的应用程序都支持GB2312。GB2312包括了一二级汉字和9区符号，高位从0xa1到0xfe，低位也是从0xa1到0xfe，其中，汉字的编码范围为0xb0a1到0xf7fe。
另外有一种编码，叫做GBK，但这是一份规范，不是强制的。GBK提供了20902个汉字，它兼容GB2312，编码范围为0x8140到0xfefe。GBK中的所有字符都可以一一映射到Unicode 2.0。
中国还颁布了另一种标准：GB18030-2000（GBK2K）。它收录了藏、蒙等少数民族的字型，从根本上解决了字位不足的问题。注意：它不再是定长的。其二字节部份与GBK兼容，四字节部分是扩充的字符、字形。它的首字节和第三字节从0x81到0xfe，二字节和第四字节从0x30到0x39。

2>不同语言直接的转换
  异种语言之间的转换是通过Unicode来完成的。假设有两种不同的语言A和B，转换的步骤为：先把A转化为Unicode，再把Unicode转化为B。
  举例说明。有GB2312中有一个汉字“李”，其编码为“C0EE”，欲转化为ISO8859-1编码。步骤为：先把“李”字转化为Unicode，得到 “674E”，再把“674E”转化为ISO8859-1字符。当然，这个映射不会成功，因为ISO8859-1中根本就没有与“674E”对应的字符。当映射不成功时，问题就发生了！当从某语言向Unicode转化时，如果在某语言中没有该字符，得到的将是Unicode的代码“\uffffd”（“\ u”表示是Unicode编码，）。而从Unicode向某语言转化时，如果某语言没有对应的字符，则得到的是“0x3f”（“?”）。这就是“?”的由来。例如：把字符流buf =“0x80 0x40 0xb0 0xa1”进行new String(buf, "gb2312")操作，得到的结果是“\ufffd\u554a”，再println出来，得到的结果将是“?啊”，因为“0x80 0x40”是GBK中的字符，在GB2312中没有。再如，把字符串String="\u00d6\u00ec\u00e9\u0046\u00bb\ u00f9"进行new String (buf.getBytes("GBK"))操作，得到的结果是“3fa8aca8a6463fa8b4”，其中，“\u00d6”在“GBK”中没有对应的字符，得到“3f”，“\u00ec”对应着“a8ac”，“\u00e9”对应着“a8a6”，“0046”对应着“46”（因为这是ASCII字符），“\u00bb”没找到，得到“3f”，最后，“\u00f9”对应着“a8b4”。把这个字符串println一下，得到的结果是“?ìéF? ù”。看到没？这里并不全是问号，因为GBK与Unicode映射的内容中除了汉字外还有字符，本例就是最好的明证。

3>Unicode格式
  Unicode默认为UTF-16格式。
  UTF-8是Unicode压缩版本，对于大多数常用字符集(ASCII中0~127字符)它只使用单字节，而对其它常用字符(特别是朝鲜和汉语会意文字)，它使用３字节。如果写的主要是英语，那么UTF-8可减少文件大小一半左右。

  >7位的Unicode: 0 _ _ _ _ _ _ _
  ● 如果Unicode的16位字符的头5位是0，则用2个字节表示，首字节是“110”开头，后面的5位与源字符中除去头5个零后的最高5位相同；第二个字节以“10”开头，后面的6位与源字符中的低6位相同。如“\u025d”（0000 0010 0101 1101），转化后为“c99d”（1100 1001 1001 1101）；
  >11位的Unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
  ● 如果不符合上述两个规则，则用三个字节表示。第一个字节以“1110”开头，后四位为源字符的高四位；第二个字节以“10”开头，后六位为源字符中间的六位；第三个字节以“10”开头，后六位为源字符的低六位；如“\u9da7”（1001 1101 1010 0111），转化为“e9b6a7”（1110 1001 1011 0110 1010 0111）；
  >16位的Unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
  >21位的Unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
  可以这么描述JAVA程序中Unicode与UTF的关系，虽然不绝对：字符串在内存中运行时，表现为Unicode代码，而当要保存到文件或其它介质中去时，用的是UTF。这个转化过程是由writeUTF和readUTF来完成的。

4>Java程序中的编码格式内幕
  input(charsetA)-＞process(Unicode)-＞output(charsetB)
  即输入、处理和输出要经过“从charsetA到unicode再到charsetB”的转化。

  SourceFile(jsp,java)-＞class-＞output
  输入的是jsp和java源文件，在处理过程中，以Class文件为载体，然后输出。

　● JSP从源文件到Class的过程。
  在本节中，将阐述JSP文件的解释和编译过程，并跟踪其中的中文变化。
　　1、JSP/Servlet引擎提供的JSP转换工具（jspc）搜索JSP文件中用＜%@ page contentType ="text/html; charset=＜Jsp-charset＞"%＞中指定的charset。如果在JSP文件中未指定＜Jsp-charset＞，则取JVM中的默认设置file.encoding，一般情况下，这个值是ISO8859-1；
　　2、jspc用相当于“javac –encoding ＜Jsp-charset＞”的命令解释JSP文件中出现的所有字符，包括中文字符和ASCII字符，然后把这些字符转换成Unicode字符，再转化成 UTF格式，存为JAVA文件。ASCII码字符转化为Unicode字符时只是简单地在前面加“00”，如“A”，转化为“\u0041”（不需要理由，Unicode的码表就是这么编的）。然后，经过到UTF的转换，又变回“41”了！这也就是可以使用普通文本编辑器查看由JSP生成的JAVA文件的原因；
　　3、引擎用相当于“javac –encoding UNICODE”的命令，把JAVA文件编译成CLASS文件；
　　先看一下这些过程中中文字符的转换情况。有如下源代码：
＜%@ page contentType="text/html; charset=gb2312"%＞
＜html＞＜body＞
＜%
　String a="中文";
　out.println(a);
%＞
＜/body＞＜/html＞
  两个字的GB2312编码为“D6 D0 CE C4”。经查表，“中文”两字的Unicode编码为“\u4E2D\u6587”，用 UTF表示就是“E4 B8 AD E6 96 87”。此JSP文件生成的JAVA文件中的“中文”两个字被“E4 B8 AD E6 96 87”替代了，再查看由JAVA文件编译生成的CLASS文件，发现结果与JAVA文件中的完全一样。

  再看JSP中指定的CharSet为ISO-8859-1的情况。
＜%@ page contentType="text/html; charset=ISO-8859-1"%＞
＜html＞＜body＞
＜%
　String a="中文";
　out.println(a);
%＞
＜/body＞＜/html＞
  先推测一下生成的JAVA文件和CLASS文件的过程：jspc用ISO-8859-1来解释“中文”，并把它映射到Unicode。由于ISO- 8859-1是8位的，其映射规则就是在每个字节前加“00”，所以，映射后的Unicode编码应为“\u00D6\u00D0\u00CE\ u00C4”，转化成UTF后应该是“C3 96 C3 90 C3 8E C3 84”。最后，打开文件看一下，JAVA文件和CLASS文件中，“中文”果然都表示为“C3 96 C3 90 C3 8E C3 84”。
  如果上述代码中不指定＜Jsp-charset＞，即把第一行写成“＜%@ page contentType="text/html" %＞”，JSPC会使用file.encoding的设置来解释JSP文件。在RedHat 6.2上，其处理结果与指定为ISO-8859-1是完全相同的。

永飞 · 永飞

我去这是什么东西

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] Java编码问题详解

1 个回复

浏览过的版块