黑马程序员技术交流社区

标题: 关于转换流默认UTF-8编码格式下读取字符问题 [打印本页]

作者: 菊花爆满山 时间: 2015-9-16 22:03
标题: 关于转换流默认UTF-8编码格式下读取字符问题

import java.io.*;
class EncodeStreamDemo
{
public static void main(String[] args) throws IOException
{
//writeText();
readText();
}
public static void readText() throws IOException
{
InputStreamReader isr = new InputStreamReader(new FileInputStream("gbk.txt"),"UTF-8");
char [] byt = new char[10];
int len = 0;
int count = 0;
while ((len =isr.read(byt))!=-1)
{
count++;
String s = new String(byt,0,len);
System.out.print(s);
}
System.out.println(count);
/*
int len = isr.read(byt);
String s = new String(byt,0,len);
System.out.println(s);
isr.close();
*/
}
public static void writeText() throws IOException
{
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("utf.txt"),"UTF-8");
osw.write("你好");
osw.close();
}
}

复制代码

这段代码执行后为什么count的值是2 意思是为什么循环2次

作者: 夸克 时间: 2015-9-16 22:03
本帖最后由夸克于 2015-9-17 21:19 编辑

这个问题有意思，以前没想过，占个座等大牛解答~
我说下我自己的理解，抛砖引玉
我实验了下，发现读两次和定义的数组长度，读取的文件有多少字节这些都没有关系。但是竟然跟存的汉字有关
比如存的肯定是“你好”，读两次；现在你去试试存“哈哈”这两个字，只读一次。
跟存储的内容有关，我就想到了UTF-8的特点，UTF-8是变长的，根据左侧位1的个数来决定占用了几个字节（二进制形式下）。就是说，我们认为UTF-8格式下一个汉字占3个字节是不准确的，具体可以去百度下。而且读的过程中好像有半个字的时候会舍弃，挺复杂的，所以我觉得，举个例子可能是读的过程中开始按比如3个字节算一个汉字读，认为读完了。但是还有内容后来又按1个字节读，可以读。

作者: 芝麻糊 时间: 2015-9-16 22:56
两次才把gbk.txt文件读完

作者: Chendamai 时间: 2015-9-17 11:22
byt存满了还没有到流末尾所以它得再循环一次到了流末尾就等于-1结束了

作者: 生存追求 时间: 2015-9-17 15:59
我自己建了一个gbk.txt文件，写了：
fdsagdshkdkd
fafasnjkjj
afkhakj
faoj
运行结果为：
fdsagdshkdkd
fafasnjkjj
afkhakj
faoj4
没问题的，看看文件名是否一致

作者: 芝麻糊 时间: 2015-9-17 19:07