黑马程序员技术交流社区

标题: 网页爬虫代码练习 [打印本页]

作者: cloud1991    时间: 2015-9-16 10:04
标题: 网页爬虫代码练习
  1. /*
  2. 网页爬虫(蜘蛛)
  3. */
  4. import java.io.*;
  5. import java.util.regex.*;
  6. import java.net.*;
  7. import java.util.*;
  8. class RegexTest2
  9. {
  10.         public static void main(String[] args) throws Exception
  11.         {
  12.                 getMails_1();
  13.         }


  14.         public static void getMails_1()throws Exception
  15.         {
  16.                 URL url = new URL("http://192.168.0.102:8080/myweb/mail.html");

  17.                 URLConnection conn = url.openConnection();

  18.                 BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
  19.                
  20.                 String line = null;

  21.                 String mailreg = "\\w+@\\w+(\\.\\w+)+";
  22.                 Pattern p = Pattern.compile(mailreg);

  23.                

  24.                 while((line=bufIn.readLine())!=null)
  25.                 {
  26.                         Matcher m = p.matcher(line);
  27.                         while(m.find())
  28.                         {
  29.                                 System.out.println(m.group());
  30.                         }
  31.                 }
  32.         }

  33.         /*
  34.         获取指定文档中的邮件地址。
  35.         使用获取功能。Pattern  Matcher
  36.         */
  37.         public static void getMails()throws Exception
  38.         {
  39.                 BufferedReader bufr =
  40.                         new BufferedReader(new FileReader("mail.txt"));

  41.                 String line = null;

  42.                 String mailreg = "\\w+@\\w+(\\.\\w+)+";
  43.                 Pattern p = Pattern.compile(mailreg);



  44.                 while((line=bufr.readLine())!=null)
  45.                 {
  46.                         Matcher m = p.matcher(line);
  47.                         while(m.find())
  48.                         {
  49.                                 System.out.println(m.group());
  50.                         }
  51.                 }
  52.         }
  53. }
复制代码



作者: doterlm    时间: 2015-9-16 14:50
毫无抄袭痕迹




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2