黑马程序员技术交流社区

标题: 网页爬虫获取网页中的电子邮件，超级经典 [打印本页]

作者: 草上飞 时间: 2012-11-10 22:56
标题: 网页爬虫获取网页中的电子邮件，超级经典
//最好是用自己的Tomcat服务器效果明显
import java.io.*;
import java.util.regex.*;
import java.net.*;
class GetMail
{
public static void main(String[] args) throws Exception
{
  //getMail();
  getNetMail();
}
//从网页中获取大量的弟子邮件
public static void getNetMail()throws Exception
{
  URL url=new URL("http://192.168.2.71:8080/myweb/mail.html");
  System.out.println("conn");
  URLConnection conn=url.openConnection();
  System.out.println(conn);
  BufferedReader br=
new BufferedReader(new InputStreamReader(conn.getInputStream()));//获取从此打开的连接读取的输入流
  String reg="\\w+@\\w+(\\.\\w+)+";
  String line=null;
  Pattern p=Pattern.compile(reg);//封装正则表达式对象
  while ((line=br.readLine())!=null)
  {
Matcher m=p.matcher(line);
while (m.find())
{
System.out.println(m.group());
}

  }
}

public static void getMail()throws Exception
{
  BufferedReader br=
new BufferedReader(new FileReader("mail.txt"));
  String reg="\\w+@\\w+(\\.\\w+)+";
  String line=null;
  Pattern p=Pattern.compile(reg);//封装正则表达式对象
  while ((line=br.readLine())!=null)
  {
Matcher m=p.matcher(line);
while (m.find())
{
System.out.println(m.group());
}

  }
}
}

作者: 许庭洲 时间: 2012-11-11 21:11
值得学习ing!

作者: 草上飞 时间: 2012-11-11 22:19
许个夸奖了，技术556了，是我几十倍，我向你学习才对。

作者: 草上飞 时间: 2012-11-11 22:20
发错了是“哥”才对

欢迎光临黑马程序员技术交流社区 (http://bbs.itheima.com/)

黑马程序员IT技术论坛 X3.2