A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

LoveStoned

中级黑马

  • 黑马币:28

  • 帖子:35

  • 精华:0

© LoveStoned 中级黑马   /  2014-11-6 08:30  /  872 人查看  /  2 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

小弟编写了下面代码爬取某个留邮箱贴的所有邮箱,可是在这过程中也出现了一个问题,还请大神指教:在爬取该贴的邮箱时,该贴有78页,怎么样才能让程序自动检测贴子后面页面的网址自行爬取,而不是我这样通过自己写的循环控制循环次数一页一页爬
import java.io.*;
import java.net.*;
import java.util.regex.*;
class URLSpider
{
        public static void main(String[] args)throws Exception
        {        
                String path="http://tieba.baidu.com/p/2729393850?pn=";
                for(int i=1;i<=78;i++)
                {
                        URL u=new URL(path+i);
                InputStreamReader isr=new InputStreamReader(u.openStream());
                BufferedReader bufr=new BufferedReader(isr);
                BufferedWriter bufw=new BufferedWriter(new FileWriter("mail.txt",true));
                String line="";
                String regex="[\\w]{5,12}[@][\\w]{2,}(\\.[\\w]{2,}){1,2}";
               
                        while((line=bufr.readLine())!=null)
                        {
                                Pattern p=Pattern.compile(regex);
                                Matcher m=p.matcher(line);
                                while(m.find())
                                {
                                        bufw.write(m.group(),0,m.group().length());
                                        bufw.newLine();
                                        bufw.flush();
                                }
                        }
                }
        
               
        }
}

2 个回复

倒序浏览
没人么:'(
回复 使用道具 举报
大神快来啊:L
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马