(一)使用工具 这里使用了火狐浏览器的user-agent插件,不懂的可以点这里火狐插件使用 (二)爬虫操作步骤:百度 网易新闻并选择 步骤一: 步骤二: 步骤三: 步骤四: 最后一步: 注意点:(1)网易新闻类型,一共是下面的几种:
{"BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"} (2)新闻翻页动作:
从0-10 ——> 10-10
步数为10,0起步
我们试着从0页开始获取一下(浏览器输入一下): http://3g.163.com/touch/reconstruct/article/list/BD29LPUBwangning/0-10.html
很好的json,有没有。下面开始coding,不多说,直接看代码。 (三) 代码编写部分:使用环境:win10 python3 scrapy 这里给出了spider文件部分
|