[Java] 关于转换流默认UTF-8编码格式下读取字符问题

夸克

import java.io.*;
class EncodeStreamDemo
{
public static void main(String[] args) throws IOException
{
//writeText();
readText();
}
public static void readText() throws IOException
{
InputStreamReader isr = new InputStreamReader(new FileInputStream("gbk.txt"),"UTF-8");
char [] byt = new char[10];
int len = 0;
int count = 0;
while ((len =isr.read(byt))!=-1)
{
count++;
String s = new String(byt,0,len);
System.out.print(s);
}
System.out.println(count);
/*
int len = isr.read(byt);
String s = new String(byt,0,len);
System.out.println(s);
isr.close();
*/
}
public static void writeText() throws IOException
{
OutputStreamWriter osw = new OutputStreamWriter(new FileOutputStream("utf.txt"),"UTF-8");
osw.write("你好");
osw.close();
}
}

复制代码

这段代码执行后为什么count的值是2 意思是为什么循环2次

夸克 · 夸克

本帖最后由夸克于 2015-9-17 21:19 编辑

这个问题有意思，以前没想过，占个座等大牛解答~
我说下我自己的理解，抛砖引玉
我实验了下，发现读两次和定义的数组长度，读取的文件有多少字节这些都没有关系。但是竟然跟存的汉字有关
比如存的肯定是“你好”，读两次；现在你去试试存“哈哈”这两个字，只读一次。
跟存储的内容有关，我就想到了UTF-8的特点，UTF-8是变长的，根据左侧位1的个数来决定占用了几个字节（二进制形式下）。就是说，我们认为UTF-8格式下一个汉字占3个字节是不准确的，具体可以去百度下。而且读的过程中好像有半个字的时候会舍弃，挺复杂的，所以我觉得，举个例子可能是读的过程中开始按比如3个字节算一个汉字读，认为读完了。但是还有内容后来又按1个字节读，可以读。

芝麻糊 · 芝麻糊

两次才把gbk.txt文件读完

Chendamai · Chendamai

byt存满了还没有到流末尾所以它得再循环一次到了流末尾就等于-1结束了

生存追求 · 生存追求

我自己建了一个gbk.txt文件，写了：
fdsagdshkdkd
fafasnjkjj
afkhakj
faoj
运行结果为：
fdsagdshkdkd
fafasnjkjj
afkhakj
faoj4
没问题的，看看文件名是否一致

芝麻糊 · 芝麻糊

Chendamai 发表于 2015-9-17 11:22
byt存满了还没有到流末尾所以它得再循环一次到了流末尾就等于-1结束了

不会吧，txt文件真的是4个字节？右击属性看看

菊花爆满山 · 15173139267

如图所示，其实就是二次编码问题<乱码>。

菊花爆满山 · 15173139267

朋友，乱码问题。你在gbk.txt中输入的是中文吧. <是不是一猜就中

>

15173139267

15173139267 发表于 2015-9-17 20:42
如图所示，其实就是二次编码问题。

刚刚没有把图传上去，下面那个是我的图。

15173139267

15173139267 发表于 2015-9-17 20:45
朋友，乱码问题。你在gbk.txt中输入的是中文吧.

GBK每个汉字两个字节，UTF-8每个汉字三个字节。

15173139267

15173139267 发表于 2015-9-17 20:45
朋友，乱码问题。你在gbk.txt中输入的是中文吧.

我发现编码方式越往深处研究。真的就好高深了。牵扯到二进制、16进制等去了。

0814java1 · 0814java1

生存追求发表于 2015-9-17 15:59
我自己建了一个gbk.txt文件，写了：
fdsagdshkdkd
fafasnjkjj

GBK可以说是简体中文码表，2个字节表示一个数据
UTF-8是Unicode码表的升级码表，一个汉字需要3个字节来表示，并且他是动态的

帐号		自动登录	找回密码
密码			加入黑马

[Java] 关于转换流默认UTF-8编码格式下读取字符问题

最佳答案

17 个回复

点评

点评

点评

点评

点评

点评