[学习交流] 关于java文件读写、字节流、字符流的一点心得

关于编码方式我们不讲，有兴趣自己去看，这里大概提一下。

UTF-16采用等幅编码，即每个字符占2个字节。优点：简单；缺点：西文会膨胀到200%，冗余！而且字与字之间的疆界不好找，容易划分错误，没有考虑好前缀问题。这一点huffman编码做的很好。
UTF-8为不等幅编码，有1到3个字节的不等长度。优点：由于采用了很好的前缀，不会出现字之间疆界不好找和划分错误的情况。缺点：中日韩等文字膨胀到150%，冗余。

现在主要说一下字节流、字符流的区别，顾名思义字节流是以字节为单位读取数据的，而字符流是以字符为单位读取的。我们都知道java采用了两种I/O读写方式主要有两个超类系：一个是inputstream和outputstream字节流类系；另一个是Reader和Writer字符流类系。使用他们来读写文本文件时有些要注意的问题：

1、使用inputstream类的子类读取的单位为字节，对于英语字母（只占一个字节）不受任何影响，而中文文字在unicode编码为两个字节（或者以上？），在读取中一个中文文字会被划分为两个（或多个）字节，因而受到影响。
如果将读取到的字节保存在byte[]数组中，为了正确地处理字节到字符的转化应注意如下问题：
对byte[]数组采用toString的方法转化为字符，会导致错误的分割方式生成字符，不能正确地显示字符；而采用String的构造函数String(byte[] b)可以正确的分割构造字符。（或者String(byte[] b, Charset a)带编码方式的构造函数，在知道要读入的文本的编码方式的情况下。）
2、使用Reader类的子类读取的单位为字符，即中文、英文都为两个字节大小，故而都不受影响。
如果将读取到的每一个字符保存到一个字符数组char[] a中问题又来了：
（特别注意！！！）如对字符数组char[]使用toString()函数时同样会遇到错误的分隔，建议使用String类的构造函数String(char[] c)来构造正确的字符划分。
当然有更简便的方法：如果你采用的读取函数是readline()当然不存在如上字符转换的问题（请注意在InputStream类系的子类中是不存在类似readline()这样的函数的，只有read()这样的函数）。

StringBuffer就像一个动态数组一样，我可以保存任意长的char字符，需要时只需将他们读取出来就行了。
在这里我们将读到的每一个byte转化为一个char保存在StringBuffer中，需要时将他们读出再转化为byte，此过程数据不会溢出，精度不会受到损失。

另外好像对转义字符 ’\’，String类的split(String a)函数出现了问题，这是怎么回事？java本身的bug吗？

当一个带完整文件夹路径的文件名，传给File类的mkdir(String FilePathAndName)函数时一定要小心，如果该文件名中包含的文件路径不存在（或者说还未被创建的）的话，直接用此函数创建文件是会出错的，你需要先一层层的创建好这些路径方可创建该路径下的文件。（创建路径和文件其实是一个函数，本质上也没有什么区别！^_^）

GoodGoogStudy · GoodGoogStudy

不错!不错!!!!!!!!!!!

aomingchao · aomingchao

多谢你的总结,让我受益匪浅！！

ab159263487 · ab159263487

学习了，谢谢啦

帐号		自动登录	找回密码
密码			加入黑马

[学习交流] 关于java文件读写、字节流、字符流的一点心得

3 个回复

浏览过的版块