黑马程序员技术交流社区
标题:
自己写的简单网络爬虫,有兴趣的可以研究一下
[打印本页]
作者:
韩伟
时间:
2012-8-10 16:48
标题:
自己写的简单网络爬虫,有兴趣的可以研究一下
import java.io.*;
import java.net.*;
import java.util.regex.*;
class UrlDemo
{
public static void main(String[] args) throws Exception
{
URL url = new URL("http://www.csdn.net");
URLConnection conn = url.openConnection();
String rex = "[https]{4,5}[:][/]{2}\\w+(\\.\\w+)+(/\\w+)*(\\.\\w+)?(\\?\\w+\\=\\-?\\w+)*(\\&\\w+\\=\\-?\\w+)*";
Pattern p = Pattern.compile(rex);
BufferedWriter bw = new BufferedWriter(new FileWriter("F:\\csdn.txt"));
BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream()));
String line = null;
while((line = br.readLine())!=null)
{
Matcher m = p.matcher(line);
while(m.find())
{
bw.write(m.group());
bw.newLine();
bw.flush();
}
}
br.close();
bw.close();
}
}
复制代码
作者:
郑枫
时间:
2012-8-10 17:16
{:soso_e103:} 看不明白干什么使的。
作者:
赵俊杰
时间:
2012-8-10 17:24
抓网址的吧,是http://开头就算符合。?
作者:
韩伟
时间:
2012-8-13 12:31
"[https]{4,5}[:][/]{2}\\w+(\\.\\w+)+(/\\w+)*(\\.\\w+)?(\\?\\w+\\=\\-?\\w+)*(\\&\\w+\\=\\-?\\w+)*";
这个正则表达式是用来筛选网址的,如果看不懂什么意思的话就去看看毕老师第25天的课程吧,讲的很清晰的
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/)
黑马程序员IT技术论坛 X3.2