A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

© yi651312197 中级黑马   /  2016-1-9 23:05  /  561 人查看  /  0 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

  1. import java.io.BufferedReader;
  2. import java.io.FileNotFoundException;
  3. import java.io.FileReader;
  4. import java.io.IOException;
  5. import java.io.InputStreamReader;
  6. import java.net.URL;
  7. import java.net.URLConnection;
  8. import java.sql.Connection;
  9. import java.util.*;
  10. import java.util.regex.Matcher;
  11. import java.util.regex.Pattern;

  12. public class i {

  13.         public static void main(String[] args) throws IOException{
  14.                
  15.                 URL url = new URL("http://tieba.baidu.com/p/3892898422");
  16.                
  17.                 URLConnection con =  url.openConnection();
  18.                
  19.                 BufferedReader bufr = new BufferedReader(new InputStreamReader(con.getInputStream()));
  20.                
  21.                 String mailreg = "[a-zA-Z0-9_]{6,12}@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,3}";
  22.                
  23.                 Pattern p = Pattern.compile(mailreg);
  24.                
  25.                 int i = 1;
  26.                 String line = null;
  27.                 while((line=bufr.readLine())!=null){
  28.                        
  29.                         Matcher m = p.matcher(line);
  30.                         while(m.find()){
  31.                                 System.out.println(i+++":"+m.group());
  32.                         }
  33.                 }
  34.                
  35.         }
  36. }
复制代码
网页爬虫确认很好玩啊,大家数据分析的工作应该会经常使用这样的代码吧?

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马