传智播客旗下技术交流社区北京校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© huawei 黑马粉丝团   /  2017-3-29 16:51  /  6799 人查看  /  103 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 huawei 于 2017-6-29 11:41 编辑

        如果在公司真正开发过新闻类的网站的朋友,一定会知道,网站很多内容不是网站编辑自己写的,而是由采集器采集的。如果是小网站,那就可以用第三方采集器如什么X车头采集器之类;如果是大公司,可能就要自己去写一个采集器,来抓取和我们网站相关的网页啦。

       先说说抓取网站数据的基本原理,简单剖析起来,就是5步:
游客,如果您要查看本帖隐藏内容请回复



       下面就通过一个真实的项目案例来给大家讲解如何制作网页采集器:
        我们要采集一个如下网站的内容:
1.jpg

         查看一下原代码主要结构如下:


2.jpg

          也就是说,我们把<p>标签下的内容获取到,然后把内容是 的删除即可,再就是把每个标签内容的序号和顿号去除,我们一起看下具体的代码实现

游客,如果您要查看本帖隐藏内容请回复

输出结果片段如下:
3.jpg


      将数据放入到数据表中(比如遍历数组,依次插入到数据库中),我就不赘述了。希望对大家有所帮助。(建议还是不要随便去抓其他网站的数据哦)




分享至 : QQ空间
收藏

103 个回复

倒序浏览
回复 使用道具 举报
感谢,赞赞赞
回复 使用道具 举报
如何利用PHP来做一个抓取网页的采集器
回复 使用道具 举报
想知道大神怎么做的
回复 使用道具 举报
采集器是什么,我是为了解的 。
回复 使用道具 举报
路过看看
回复 使用道具 举报
谢谢分享
回复 使用道具 举报
截取位置1以后的所有字符
回复 使用道具 举报
fffffffffffffffffffff
回复 使用道具 举报
哈哈哈哈哈哈哈哈哈哈
回复 使用道具 举报
坎坎坷坷扩扩扩333
回复 使用道具 举报
阿萨德的等等等等等等等等等等等等
回复 使用道具 举报
谢谢分享
回复 使用道具 举报
学习学习很不错啊啊
回复 使用道具 举报
学习学习!
回复 使用道具 举报
//66666666
回复 使用道具 举报
一般的采集是不是只是采集数据而不是站里所有信息呢?
回复 使用道具 举报
好资源 谢谢分享哦
回复 使用道具 举报
我爱学习,我要学习
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马