A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© huawei 黑马粉丝团   /  2017-3-29 16:51  /  18574 人查看  /  103 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 huawei 于 2017-6-29 11:41 编辑

        如果在公司真正开发过新闻类的网站的朋友,一定会知道,网站很多内容不是网站编辑自己写的,而是由采集器采集的。如果是小网站,那就可以用第三方采集器如什么X车头采集器之类;如果是大公司,可能就要自己去写一个采集器,来抓取和我们网站相关的网页啦。

       先说说抓取网站数据的基本原理,简单剖析起来,就是5步:
游客,如果您要查看本帖隐藏内容请回复



       下面就通过一个真实的项目案例来给大家讲解如何制作网页采集器:
        我们要采集一个如下网站的内容:

         查看一下原代码主要结构如下:



          也就是说,我们把<p>标签下的内容获取到,然后把内容是 的删除即可,再就是把每个标签内容的序号和顿号去除,我们一起看下具体的代码实现

游客,如果您要查看本帖隐藏内容请回复

输出结果片段如下:



      将数据放入到数据表中(比如遍历数组,依次插入到数据库中),我就不赘述了。希望对大家有所帮助。(建议还是不要随便去抓其他网站的数据哦)




103 个回复

倒序浏览
回复 使用道具 举报
感谢,赞赞赞
回复 使用道具 举报
如何利用PHP来做一个抓取网页的采集器
回复 使用道具 举报
想知道大神怎么做的
回复 使用道具 举报
采集器是什么,我是为了解的 。
回复 使用道具 举报
cgf350 初级黑马 2017-3-30 13:55:41
7#
路过看看
回复 使用道具 举报
谢谢分享
回复 使用道具 举报
截取位置1以后的所有字符
回复 使用道具 举报
fffffffffffffffffffff
回复 使用道具 举报
哈哈哈哈哈哈哈哈哈哈
回复 使用道具 举报
坎坎坷坷扩扩扩333
回复 使用道具 举报
qtkc 初级黑马 2017-3-31 23:52:15
13#
阿萨德的等等等等等等等等等等等等
回复 使用道具 举报
谢谢分享
回复 使用道具 举报
学习学习很不错啊啊
回复 使用道具 举报
学习学习!
回复 使用道具 举报
//66666666
回复 使用道具 举报
一般的采集是不是只是采集数据而不是站里所有信息呢?
回复 使用道具 举报
好资源 谢谢分享哦
回复 使用道具 举报
我爱学习,我要学习
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马