两个关于IO的问题

黄奕豪

第一个问题：毕老师讲了一个合并txt的例子，txt文件一般有两种编码ANSI（默认为GB2312）和 Unicode ，如果我要合并100个以上的txt文件，里面若干文件是ANSI编码，若干文件是Unicode编码，有没有什么办法使合并后的文件不产生乱码，或者采用续写的形式也可以。（不采用手动去一个个看txt文件是什么格式的编码，然后把不同的编码改成同一编码= =！）

第二个问题：被Buffered修饰的流对象如：BufferedInputStream, BufferedOutputStream, BufferedReader, BufferedWriter 一般都是用来提高效率的。但是这个效率提高有多少？在大文件的情况下会不会反而会降低效率？
我利用TCP上传文件的例子试了一下，我上传的是4G以上的文件，部分代码如下：
第一种：用BufferInputStream 和 BufferedOutputStream：

Socket s = new Socket("192.168.1.100", 10005);
BufferedInputStream bis = new BufferedInputStream(new FileInputStream("D:\\WIN7.iso"));
BufferedOutputStream bos = new BufferedOutputStream(s.getOutputStream());
long time1 = System.currentTimeMillis();
byte[] buff = new byte[1024*1024*32];
int by = 0;
while((by = bis.read(buff)) != -1){
bos.write(buff, 0, by);
bos.flush();
}
s.shutdownOutput();
long time2 = System.currentTimeMillis();

System.out.println(time2 - time1);
打印出时间的数值大概保持在150000左右。

第二种方法用FileInputStream和OutputSteam的方法：

Socket s = new Socket("192.168.1.100", 10005);
FileInputStream fis = new FileInputStream("D:\\WIN7.iso");
OutputStream out = s.getOutputStream();
long time1 = System.currentTimeMillis();
byte[] buff = new byte[1024*1024*32];
int by = 0;
while((by = fis.read(buff)) != -1){
out.write(buff, 0, by);
out.flush();
}
s.shutdownOutput();
long time2 = System.currentTimeMillis();

System.out.println(time2 - time1);

打印出的时间的数值大概在120000左右。

上面的例子感觉Buffered效率还没有没加修饰的高，求解具体原因……

黄奕豪 · 黄奕豪

第一个可以用InputStreamReader和OutputStreamWriter指定相同的编码就行了！第二个，个人试过，用Reader和Writer操作纯文本的时候速度调高十倍以上，但是用BufferInputStream和BufferedOutputStream的话效率还不如自己定义的一个缓冲字节数组。我只是简单测试了一下，不能保证是对的！这个还希望自己多加验证。

邓杰 · 邓杰

第一问题；
不同文件因为有了不同的编码形式，而只采取同一种解码形式进行解码并合并到一起，肯定是会产生乱码；
我的思路是。先把所有的文件用Charset类中的decode或encode方法转换成Unicode码的编成形式；再进行合并是不是可以呢？
第二个问题参见楼上！呵呵；

罗文杰 · 罗文杰

黄奕豪发表于 2012-6-11 11:40
第一个可以用InputStreamReader和OutputStreamWriter指定相同的编码就行了！第二个，个人试过，用Reader和W ...

首先谢谢回答，嘿嘿。
第一个问题如果指定相同编码的话会有乱码，从ANSI转到Unicode会出乱码，或者从Unicode转到ANSI都会出现乱码，即使编码再解码还是会有乱码，实在想不到有什么方法。
第二个问题，我也就纳闷为啥自己定义字节数组会更快，特别操作字节流的大文件的时候特别明显，纳闷中……

罗文杰 · 罗文杰

邓杰发表于 2012-6-11 14:38
第一问题；
不同文件因为有了不同的编码形式，而只采取同一种解码形式进行解码并合并到一起，肯定是会产生 ...

第一个问题我的想法是先把所有的文件转成一个编码 ANSI或者Unicode，然后再合并，但是如何获得那么多TXT文件中的各个文件的编码格式，以及转换完不出乱码，这个是我的想法要解决的重点， = =~~可是俺没想到咋解决……为啥记事本看ANSI编码和Unicode编码都是汉字，我转完了就是乱码…………:'(

罗文杰 · 罗文杰

黄奕豪发表于 2012-6-11 11:40
第一个可以用InputStreamReader和OutputStreamWriter指定相同的编码就行了！第二个，个人试过，用Reader和W ...

第一个问题我的想法是先把所有的文件转成一个编码 ANSI或者Unicode，然后再合并，但是如何获得那么多TXT文件中的各个文件的编码格式，以及转换完不出乱码，这个是我的想法要解决的重点， = =~~可是俺没想到咋解决……为啥记事本看ANSI编码和Unicode编码都是汉字，我转完了就是乱码…………:'(

黄奕豪 · 黄奕豪

{:soso_e103:}本来以为JDK里面能找到get编码方法的，结果File没有，专门操纵数据的DataInputStream也没有，不过在DataInputStream找到一个readUTF方法，你可以试下~~

帐号		自动登录	找回密码
密码			加入黑马

两个关于IO的问题

评分

6 个回复

浏览过的版块