崇志恒 -java爬虫 - 黑马程序员技术交流社区

实现的效果，自动在工程下创建Pictures文件夹，根据网站URL爬取图片，层层获取。在Pictures下以网站的层级URL命名文件夹，用来装该层URL下的图片。同时将文件名，路径，URL插入数据库，便于索引。

10. private static final String DBurl = "jdbc:mysql://127.0.0.1:3306/edupic";

16. public void insertFilePath(String fileName, String filepath, String url) {

22. private ArrayList<String> arrUrls = new ArrayList<String>(); // 存储未处理URL

23. private ArrayList<String> arrUrl = new ArrayList<String>(); // 存储所有URL供建立索引

24. private Hashtable<String, Integer> allUrls = new Hashtable<String, Integer>(); // 存储所有URL的网页号

25. private Hashtable<String, Integer> deepUrls = new Hashtable<String, Integer>(); // 存储所有URL深度

26. private int intWebIndex = 0; // 网页对应文件下标，从0开始

97. this.getWebByUrl(tmp, allUrls.get(tmp) + ""); // 对新URL所对应的网页进行抓取

108. "开始时间 = " + startTime + " " + "结束时间 = " + finishTime + " " + "爬取总时间= " + costTime + "ms");

109. System.out.println("爬取的URL总数 = " + (webSuccessed + webFailed) + " 成功的URL总数: " + webSuccessed

115. strIndex += "Web depth:" + deepUrls.get(tmpUrl) + " Filepath: " + fPath + "/web"

120. PrintWriter pwIndex = new PrintWriter(new FileOutputStream("fileindex.txt"));

175. BufferedReader bReader = new BufferedReader(new InputStreamReader(is));

193. System.out.println("获取网站失败，请检查URL是否存在 " + strUrl);

204. String reg = "(?<=http\\://[a-zA-Z0-9]{0,100}[.]{0,1})[^.\\s]*?\\.(com|cn|net|org|biz|info|cc|tv|edu)";

222. String regUrl = "(?<=(href=)[\"]?[\']?)[http://][^\\s\"\'\\?]*(" + myDomain + ")[^\\s\"\'>]*";

228. System.out.println("Find a new url,depth:" + (deepUrls.get(strUrl) + 1) + " " + m.group(0));

private String fPath = "CSDN"; 这里定义你爬取图片存放的位置，这里直接放在工程下的CSDN文件夹下，随意放，自己找得到就OK。

23. String fileName = httpUrl.substring(httpUrl.lastIndexOf("/")).replace("/", "");

44. BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));

63. public void get(String url, String filePath) throws IOException {

66. String searchImgReg = "(?x)(src|SRC|background|BACKGROUND)=('|\")/?(([\\w-]+/)*([\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";

67. String searchImgReg2 = "(?x)(src|SRC|background|BACKGROUND)=('|\")(http://([\\w-]+\\.)+[\\w-]+(:[0-9]+)*(/[\\w-]+)*(/[\\w-]+\\.(jpg|JPG|png|PNG|gif|GIF)))('|\")";

我们看到，已经基本实现，这里不需要额外导包，只需要导一个MySQL驱动包，当然，如果不需要插入数据到数据库，对爬取图片没有任何影响，把第一个类去掉就好。另外可能有些网站做了防爬虫可能会失败。注：爬取网站之前最好和所有者进行沟通，另外爬取非公开内容是侵权的，这里只做测试使用。