黑马程序员技术交流社区

标题: java网页爬虫怎么抓取文字和图片 [打印本页]

作者: 段黄军    时间: 2015-4-13 21:48
标题: java网页爬虫怎么抓取文字和图片
package cn.dhj;

import java.io.*;
import java.net.*;
import java.util.regex.*;

/*
* 网页爬虫,从网页中获取信息
*/
public class RegexTest {
        public static void main(String[] args) throws Exception{
                getmails();
        }
       
        public static void getmails() throws Exception{
                URL url = new URL("http://www.9u8u.com/yxzt/25684.html");
                URLConnection conn = url.openConnection();
                BufferedReader buffIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
                String line = null;
                String reg = "\\w+@\\w+(\\.\\w+)+";
                Pattern p = Pattern.compile(reg);
                while((line = buffIn.readLine())!=null){
                        Matcher m = p.matcher(line);
                        while(m.find()){
                                System.out.println(m.group());
                        }
                       
                }
        }
       
}







欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2