黑马程序员技术交流社区

标题: 如何利用PHP来做一个抓取网页的采集器? [打印本页]

作者: huawei    时间: 2017-3-29 16:51
标题: 如何利用PHP来做一个抓取网页的采集器?
本帖最后由 huawei 于 2017-6-29 11:41 编辑

        如果在公司真正开发过新闻类的网站的朋友,一定会知道,网站很多内容不是网站编辑自己写的,而是由采集器采集的。如果是小网站,那就可以用第三方采集器如什么X车头采集器之类;如果是大公司,可能就要自己去写一个采集器,来抓取和我们网站相关的网页啦。

       先说说抓取网站数据的基本原理,简单剖析起来,就是5步:



       下面就通过一个真实的项目案例来给大家讲解如何制作网页采集器:
        我们要采集一个如下网站的内容:

         查看一下原代码主要结构如下:



          也就是说,我们把<p>标签下的内容获取到,然后把内容是 的删除即可,再就是把每个标签内容的序号和顿号去除,我们一起看下具体的代码实现


输出结果片段如下:



      将数据放入到数据表中(比如遍历数组,依次插入到数据库中),我就不赘述了。希望对大家有所帮助。(建议还是不要随便去抓其他网站的数据哦)


精华推荐:

2017最新PHP学习路线图(附完整视频资源)+源码+技巧/经验+求职+前景总结!
逆了天!2017黑马PHP全国就业率竟接近百分百,细节披露,还不快看!



作者: starhub    时间: 2017-3-29 17:53
这个应该用python吧

作者: thinkJUN    时间: 2017-3-30 08:24
感谢,赞赞赞
作者: puede    时间: 2017-3-30 10:31
如何利用PHP来做一个抓取网页的采集器
作者: qq414058937    时间: 2017-3-30 10:31
想知道大神怎么做的
作者: xingliusheng    时间: 2017-3-30 12:38
采集器是什么,我是为了解的 。
作者: cgf350    时间: 2017-3-30 13:55
路过看看
作者: 独树一帜    时间: 2017-3-30 19:56
谢谢分享
作者: 用户名不得小    时间: 2017-3-30 19:58
截取位置1以后的所有字符
作者: pcg765018483    时间: 2017-3-30 23:03
fffffffffffffffffffff
作者: thk106    时间: 2017-3-31 17:06
哈哈哈哈哈哈哈哈哈哈
作者: 剑客星辰    时间: 2017-3-31 18:22
坎坎坷坷扩扩扩333
作者: qtkc    时间: 2017-3-31 23:52
阿萨德的等等等等等等等等等等等等
作者: yeyilu天雪    时间: 2017-4-1 09:11
谢谢分享
作者: mfknny    时间: 2017-4-1 10:22
学习学习很不错啊啊
作者: JinnyRX    时间: 2017-4-1 12:49
学习学习!
作者: wherein    时间: 2017-4-1 14:55
//66666666
作者: wherein    时间: 2017-4-1 15:04
一般的采集是不是只是采集数据而不是站里所有信息呢?
作者: fancl1    时间: 2017-4-1 17:49
好资源 谢谢分享哦
作者: 782934029    时间: 2017-4-2 12:11
我爱学习,我要学习
作者: 瞬间回忆    时间: 2017-4-3 21:08
何利用PHP来做一个抓取网页的采集器?
作者: yyyyy777    时间: 2017-4-5 23:04
kankanba  haha
作者: 以梦为马5566    时间: 2017-4-6 09:48
66666666666666666666
作者: dbs2688    时间: 2017-4-8 07:14
好好学习  天天在线
作者: 小兵张嘎    时间: 2017-4-8 16:20
标题都说了,是PHP呀
作者: powertogo    时间: 2017-4-9 14:27
如何利用PHP来做一个抓取网页的采集器? thx  fenxiang
作者: wy.    时间: 2017-4-9 19:47
学习了 支持一下楼主
作者: jiang317107581    时间: 2017-4-10 11:37
回复看看~ 谢谢
作者: qmmdyw    时间: 2017-4-10 17:51
66666666666
作者: 木偶Ghost    时间: 2017-4-11 11:46
666,谢谢楼主,学习了
作者: 木偶Ghost    时间: 2017-4-11 11:50
666,谢谢楼主,学习了
作者: —码农—    时间: 2017-4-11 16:27
回复才能看
作者: He110    时间: 2017-4-12 13:31
{:8_469:}{:8_469:}
作者: TraceurMW    时间: 2017-4-12 20:36
重中之重做做做做做做
作者: wang1874207723    时间: 2017-4-16 13:33
不错啊,之前一直想要这个采集器,就是不知道怎么去做
作者: swocn    时间: 2017-4-16 23:01
多学习,必有用
作者: heheddff    时间: 2017-4-18 10:27
学习一下
作者: li0222    时间: 2017-4-21 09:03
支持{:8_470:}支持11111111111111
作者: qihuimin    时间: 2017-4-23 08:19
666666666666
作者: xie~    时间: 2017-4-24 11:00
学习学习~~~~~

作者: zhujunfeng    时间: 2017-4-30 18:32
非常棒棒棒哒
作者: 15955116811    时间: 2017-5-1 16:15
学习不错
作者: zp450594151    时间: 2017-5-1 23:53
学习学习学习学习学习
作者: zeroCCC    时间: 2017-5-2 10:24
看看                       
作者: geek_jy    时间: 2017-5-2 13:08
如何利用PHP来做一个抓取网页的采集器
作者: wtx    时间: 2017-5-4 22:20
感谢,分享。。。
作者: zcy0776    时间: 2017-5-10 08:24
强,一起看下具体的代码实现

作者: 乌龟    时间: 2017-5-14 08:43
这个好,适用性强
作者: PHP小别离    时间: 2017-5-14 09:18
666666666666666666
作者: worldtongf    时间: 2017-5-14 12:46
如何利用PHP来做一个抓取网页的采集器? [修
作者: qq780749235    时间: 2017-5-19 12:04
11111111111111111111
作者: huangwu_188    时间: 2017-5-23 10:53
采集器

作者: badly    时间: 2017-5-24 17:02
报告报告!
作者: libing0906    时间: 2017-5-27 10:44
谢谢分享!
作者: dongfengyuli    时间: 2017-5-28 10:17
6666666666666666666666666
作者: 小戚    时间: 2017-5-29 17:54
顶顶顶顶顶顶的点点滴滴
作者: 杨恒    时间: 2017-5-29 22:39
谢谢老师
作者: k先生    时间: 2017-6-1 09:58
听说评论可以加分
作者: Jasonone    时间: 2017-6-1 21:35
daddsadadafafafafafd
作者: hello_sgw    时间: 2017-6-3 23:27
抓起页面
作者: 我是泥鳅哎    时间: 2017-6-5 16:45
1111111111111111111111111
作者: LinCF    时间: 2017-6-12 14:01
支持。。。。。。。。。。。。。。。
作者: yu44303    时间: 2017-6-15 23:55
研究一下!!!
作者: 彬bin    时间: 2017-6-17 22:19
为什么要评论才给看,伟大的程序员不是都懒吗?

作者: 100387510    时间: 2017-6-20 12:27
来占一层
作者: 645847022    时间: 2017-6-20 16:06
不错的学习网站,收藏咯
作者: Alphabet1    时间: 2017-6-22 15:53
我看看看看看

作者: poq    时间: 2017-6-24 16:42
看看看啊
作者: jackwei    时间: 2017-6-26 16:53
感觉不错,能学到东西。不错哟
作者: 扑克k    时间: 2017-6-27 16:33

想知道php怎么做的
作者: vinson    时间: 2017-6-28 12:53
哈哈…看看就行…
作者: absqiang10    时间: 2017-6-28 16:12
fjalfjlwefjlkwflkeafkleasfj
作者: a8955907    时间: 2017-6-28 17:12
看看!~~~~!~~
作者: 人生司机    时间: 2017-6-29 09:38
不错,小弟在此受教了,感谢共享
作者: 人生司机    时间: 2017-6-29 09:38
不错,小弟在此受教了,感谢共享
作者: 人生司机    时间: 2017-6-29 09:46
目前主要用来查看一下,以后在研究
作者: 654383444    时间: 2017-8-12 09:33
你好 想学学
作者: qq19880527    时间: 2017-8-23 16:27
感谢分享
作者: dabour    时间: 2017-8-30 16:13
给哥哥哥哥哥哥哥哥哥哥哥哥
作者: LM18353621521    时间: 2017-8-30 21:31
一直都想学习这个技术,难得看到这篇文章
作者: ap2017    时间: 2017-9-11 16:09
做一个抓取网页的采集器
作者: 名字难得想    时间: 2017-9-25 10:44
感谢楼主分享的好东西哈哈哈哈啊
作者: leannie    时间: 2017-9-25 16:31
ddddddddddd
作者: hello123456    时间: 2017-10-6 23:41
厉害了,多谢大神的分享

作者: anno1602    时间: 2017-10-7 08:18
支持回覆!!
作者: xsm    时间: 2017-10-22 07:07
正在自觉,想多了解再去
作者: dakun007    时间: 2017-11-2 16:46
路过看看啊啊!!!
作者: 棉眸棉    时间: 2017-11-7 21:31
........................
作者: anan8888    时间: 2017-11-21 10:58
挺好的,先学学
作者: 52Hz白鲸    时间: 2017-11-28 00:13
多谢分享,学生党前来学习
作者: mvpicy    时间: 2017-11-28 08:24
学习学习了
作者: 101大哥    时间: 2018-1-4 11:21
1111111111111111111111
作者: stupid_12138    时间: 2018-1-19 10:09
来看看来看看来看看来看看来看看来看看来看看
作者: AllenPHP    时间: 2018-1-27 21:41
谢谢分享
作者: 大武当    时间: 2018-2-28 13:39
ddawdawdawda
作者: liangzhihuangli    时间: 2018-4-8 08:04
shadouyaoyanzhengma,zhentmdfan
作者: 96年的仙人掌    时间: 2018-5-8 17:47
很好很好很好啊!
作者: nobita1995    时间: 2018-8-20 22:00
学习一下采集。
作者: yhm12345687    时间: 2018-9-9 23:45
巧巧敲敲群群群群群
作者: uuuqqq    时间: 2018-10-7 08:20
好东西,先谢了!!!!!!!!!!!!!!!!





欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) 黑马程序员IT技术论坛 X3.2