A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

© huawei 黑马粉丝团   /  2017-3-29 16:51  /  16388 人查看  /  103 人回复  /   0 人收藏 转载请遵从CC协议 禁止商业使用本文

本帖最后由 huawei 于 2017-6-29 11:41 编辑

        如果在公司真正开发过新闻类的网站的朋友,一定会知道,网站很多内容不是网站编辑自己写的,而是由采集器采集的。如果是小网站,那就可以用第三方采集器如什么X车头采集器之类;如果是大公司,可能就要自己去写一个采集器,来抓取和我们网站相关的网页啦。

       先说说抓取网站数据的基本原理,简单剖析起来,就是5步:
游客,如果您要查看本帖隐藏内容请回复



       下面就通过一个真实的项目案例来给大家讲解如何制作网页采集器:
        我们要采集一个如下网站的内容:
1.jpg

         查看一下原代码主要结构如下:


2.jpg

          也就是说,我们把<p>标签下的内容获取到,然后把内容是 的删除即可,再就是把每个标签内容的序号和顿号去除,我们一起看下具体的代码实现

游客,如果您要查看本帖隐藏内容请回复

输出结果片段如下:
3.jpg


      将数据放入到数据表中(比如遍历数组,依次插入到数据库中),我就不赘述了。希望对大家有所帮助。(建议还是不要随便去抓其他网站的数据哦)




103 个回复

正序浏览
dsfdsfsdfdfff
回复 使用道具 举报
RE: 如何利用PHP来做一个抓取网页的采集器? [修改]
回复 使用道具 举报
学习学习
回复 使用道具 举报
echo :'hello world';
回复 使用道具 举报
好东西,先谢了!!!!!!!!!!!!!!!!
回复 使用道具 举报
巧巧敲敲群群群群群
回复 使用道具 举报
学习一下采集。
回复 使用道具 举报
很好很好很好啊!
回复 使用道具 举报
shadouyaoyanzhengma,zhentmdfan
回复 使用道具 举报
ddawdawdawda
回复 使用道具 举报
谢谢分享
回复 使用道具 举报
来看看来看看来看看来看看来看看来看看来看看
回复 使用道具 举报
1111111111111111111111
回复 使用道具 举报
学习学习了
回复 使用道具 举报
多谢分享,学生党前来学习
回复 使用道具 举报
挺好的,先学学
回复 使用道具 举报
........................
回复 使用道具 举报
路过看看啊啊!!!
回复 使用道具 举报
xsm 初级黑马 2017-10-22 07:07:03
86#
正在自觉,想多了解再去
回复 使用道具 举报
您需要登录后才可以回帖 登录 | 加入黑马