正则表达式，网络爬虫

李培根

这是我写的一个网络爬虫程序，在黑马的入学测试的网页中找“黑马”这个关键字，为什么爬虫只能爬到11个,但在网页源代码中确有51呢？

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HeiMa {
public static void main(String[] args) throws Exception{
URL url = new URL("http://bbs.itheima.com/forum-19-1.html");
BufferedReader br = new BufferedReader(new InputStreamReader(url.openConnection().getInputStream()));
String regex = "[黑][马]";
Pattern heimaregex = Pattern.compile(regex);
String line = null;
int x = 0;
while((line = br.readLine())!=null){
Matcher heimamacher = heimaregex.matcher(line);
if(heimamacher.find()){
x++;
System.out.println(heimamacher.group());
}
}
System.out.println(x);
}
}

复制代码

黑马-张洋 · 黑马-张洋

我虽然未能彻底解决你的问题。但是我找2点问题，应该是解决问题的关键

1、我们在eclipse里面读到的代码和网页代码不一样（附件图和第一张和第二张对比可以看出）

2、我们在eclipse里面读到的代码没有读完。看我第三张图，读到一小半就结束了，注意看第10个黑马出现的地方

我没有学过javaweb，所以只能给你这些参考意见了

唐长智 · 唐长智

是哈，我也发现了，这是为什么呢？

帐号		自动登录	找回密码
密码			加入黑马

正则表达式，网络爬虫

评分

2 个回复

浏览过的版块