这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用
(二)爬虫操作步骤:百度 网易新闻并选择
步骤一:
步骤二:
步骤三:
步骤四:
最后一步:
注意点:(1)网易新闻类型,一共是下面的几种:
{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}
(2)新闻翻页动作:
从0-10 ——> 10-10
步数为10,0起步
我们试着从0页开始获取一下(浏览器输入一下):
http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/0-10.html
很好的json,有没有。下面开始coding,不多说,直接看代码。
(三) 代码编写部分:使用环境:win10 python3 scrapy
这里给出了spider文件部分
欢迎光临 黑马程序员技术交流社区 (http://bbs.itheima.com/) | 黑马程序员IT技术论坛 X3.2 |