DataOutputStream与编码

代码如下：private static void writeUtf() throws IOException {
DataOutputStream dos = new DataOutputStream(new FileOutputStream(
"f:\\data1.txt"));
dos.writeUTF("你好");
dos.close();
}
private static void writeU8Data() throws IOException {
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(
"f:\\data2.txt"), "utf-8");
osw.write("你好");
osw.close();
}
private static void writeGbkData() throws IOException {
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream(
"f:\\data3.txt"), "gbk");
osw.write("你好");
osw.close();
}

结果：
data1.txt    8字节
data2.txt    6字节
data3.txt    4字节

问：一个汉字不都是占两个字节吗，为何会产生如此差异？

fantacyleo · fantacyleo

占几个字节跟编码有关。gbk的汉字2个字节，utf-8的汉字就是3个字节的

禅伤 · 禅伤

fantacyleo 发表于 2014-8-4 10:34
占几个字节跟编码有关。gbk的汉字2个字节，utf-8的汉字就是3个字节的

还有一个占4个字节的呢

fantacyleo · fantacyleo

禅伤发表于 2014-8-4 11:48
还有一个占4个字节的呢

也正常啊。那是所谓的Modified UTF-8

帐号		自动登录	找回密码
密码			加入黑马

DataOutputStream与编码

3 个回复

浏览过的版块

黑马骑士勋章