黑马程序员技术交流社区

标题: 网页爬虫获取网页中的电子邮件,超级经典 [打印本页]

作者: 草上飞    时间: 2012-11-10 22:56
标题: 网页爬虫获取网页中的电子邮件,超级经典
//最好是用自己的Tomcat服务器效果明显
import java.io.*;
import java.util.regex.*;
import java.net.*;
class GetMail
{
public static void main(String[] args) throws Exception
{
  //getMail();
  getNetMail();
}
//从网页中获取大量的弟子邮件
public static void getNetMail()throws Exception
{
  URL url=new URL("http://192.168.2.71:8080/myweb/mail.html");
  System.out.println("conn");
  URLConnection conn=url.openConnection();
  System.out.println(conn);
  BufferedReader br=
   new BufferedReader(new InputStreamReader(conn.getInputStream()));//获取从此打开的连接读取的输入流
  String reg="\\w+@\\w+(\\.\\w+)+";
  String line=null;
  Pattern p=Pattern.compile(reg);//封装正则表达式对象
  while ((line=br.readLine())!=null)
  {
   Matcher m=p.matcher(line);
   while (m.find())
   {
    System.out.println(m.group());
   }
   
  }
}

public static void getMail()throws Exception
{
  BufferedReader br=
   new BufferedReader(new FileReader("mail.txt"));
  String reg="\\w+@\\w+(\\.\\w+)+";
  String line=null;
  Pattern p=Pattern.compile(reg);//封装正则表达式对象
  while ((line=br.readLine())!=null)
  {
   Matcher m=p.matcher(line);
   while (m.find())
   {
    System.out.println(m.group());
   }
   
  }
}
}


作者: 许庭洲    时间: 2012-11-11 21:11
值得学习ing!
作者: 草上飞    时间: 2012-11-11 22:19
许个夸奖了,技术556了,是我几十倍,我向你学习才对。
作者: 草上飞    时间: 2012-11-11 22:20
发错了是“哥”才对




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2