黑马程序员技术交流社区

标题: 用c#中的正则表达编程提取标题 [打印本页]

作者: 赵鹏程    时间: 2012-6-4 11:02
标题: 用c#中的正则表达编程提取标题
本帖最后由 赵鹏程 于 2012-6-4 13:25 编辑

用c#中的正则表达式编程提取url为http://cancer.39.net/a/2012531/2036560.html 的标题 也就是提取“一个癌症家属的真实感人催泪剖白!_39健康网_癌症"
作者: 赵鹏程    时间: 2012-6-4 16:54
有木有人能搞定呢。
我的意想是 写个函数 通过一个函数来获取URL指向网页的HTML内容,然后再提取title的内容,我的正则式是:.*<title>(^[<]+)</title>*. 就想问下怎么提取所有的HTML内容 还有正则式这个该怎么写呢
作者: 牛景亮    时间: 2012-6-5 09:45
你用下HttpWebRequest和HttpWebResponse
具体实现我也不清楚
作者: 钟广雄    时间: 2012-6-9 20:32
你想写采集器吗,要获取全部的字符串: 想要采集别的筛选字符,自己用正则筛选,。貌似采集器都是这样的思路,一个站一个站的采集方法也不同,
HttpWebRequest request;
HttpWebResponse response;
StreamReader reader;

request = WebRequest.Create("http://bbs.kukupig.com/") as HttpWebRequest;
response = (HttpWebResponse)request.GetResponse();
reader = new StreamReader(response.GetResponseStream());//这里面可以重载encoding,对应网页编码方式
string returnText = reader.ReadToEnd();




欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2