A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© 赵鹏程 中级黑马   /  2012-6-4 11:02  /  1781 人查看  /  3 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 赵鹏程 于 2012-6-4 13:25 编辑

用c#中的正则表达式编程提取url为http://cancer.39.net/a/2012531/2036560.html 的标题 也就是提取“一个癌症家属的真实感人催泪剖白!_39健康网_癌症"

评分

参与人数 1技术分 +1 收起 理由
宋天琪 + 1

查看全部评分

3 个回复

倒序浏览
有木有人能搞定呢。
我的意想是 写个函数 通过一个函数来获取URL指向网页的HTML内容,然后再提取title的内容,我的正则式是:.*<title>(^[<]+)</title>*. 就想问下怎么提取所有的HTML内容 还有正则式这个该怎么写呢
回复 使用道具 举报
你用下HttpWebRequest和HttpWebResponse
具体实现我也不清楚

评分

参与人数 1技术分 +1 收起 理由
宋天琪 + 1

查看全部评分

回复 使用道具 举报
你想写采集器吗,要获取全部的字符串: 想要采集别的筛选字符,自己用正则筛选,。貌似采集器都是这样的思路,一个站一个站的采集方法也不同,
HttpWebRequest request;
HttpWebResponse response;
StreamReader reader;

request = WebRequest.Create("http://bbs.kukupig.com/") as HttpWebRequest;
response = (HttpWebResponse)request.GetResponse();
reader = new StreamReader(response.GetResponseStream());//这里面可以重载encoding,对应网页编码方式
string returnText = reader.ReadToEnd();

评分

参与人数 1技术分 +2 收起 理由
宋天琪 + 2

查看全部评分

回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马