黑马程序员技术交流社区
标题: java基础之--正则email校验和网页爬虫 [打印本页]
作者: 周发建 时间: 2016-4-1 09:54
标题: java基础之--正则email校验和网页爬虫
(一)校验Email//校验email
public static void regEmail(){
String email = "zhoujian@sina.com";
boolean b = email.matches("\\w+@\\w+(\\.\\w+){1,3}");
System.out.println(b); //true
}
(二)网页爬虫//网页爬虫
public static void inteCrawler() throws IOException{
//网页爬虫:是在互联网上查找需要信息的程序,例如:爬邮箱
//1. 读取的信息
URL url = new URL("http://www.sina.com.cn");
BufferedReader bfr = new BufferedReader(new InputStreamReader(url.openStream()));
//2. 对读取的信息进行匹配,从中获取需要的信息
String reg = "\\w+@\\w+(\\.\\w+)+";
Pattern p = Pattern.compile(reg);
//3. 将符合条件的信息集中存储
List<String> list = new ArrayList<String>();
String line = null;
while((line = bfr.readLine())!=null){
Matcher m = p.matcher(line);
while(m.find()){
list.add(m.group());
}
}
System.out.println(list);
}
作者: 小海龙 时间: 2016-4-1 19:08
哇,感觉好厉害啊
作者: IT小笨鸟 时间: 2016-4-1 19:54
好厉害哦,每次看到你的代码都要想好久才明白
作者: leiothrixs 时间: 2016-4-1 20:55
基础班就会写爬虫了?
作者: sAnChu 时间: 2016-4-1 20:59
新人报道,表示基础班的看不懂
| 欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) |
黑马程序员IT技术论坛 X3.2 |