本帖最后由 我是楠楠 于 2018-5-8 15:29 编辑
【郑州校区】Scrapyd 使用详解 前言:
必须清楚一点的是,scrapyd 不是scrapy.
scarpy是一个爬虫框架, 而scrapyd是一个网页版管理scrapy的工具, scrapy爬虫写好后,可以用命令行运行,但是如果能在网页上操作就比较方便. scrapyd就是为了解决这个问题,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大. 还有一个更加强大的国产工具 gerapy! Scrapyd 使用详解:一. 安装scrapyd
[AppleScript] 纯文本查看 复制代码 pip install
2.安装scrapyd-client
[AppleScript] 纯文本查看 复制代码 pip install scrapyd-client
3.运行scrapyd首先切换命令行路径到Scrapy项目的根目录下,
要执行以下的命令,需要先在命令行里执行scrapyd,将scrapyd运行起来 [AppleScript] 纯文本查看 复制代码 $ scrapyd $的意思是.在命令行下
4.发布工程到scrapyd[AppleScript] 纯文本查看 复制代码 # Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# [url=https://scrapyd.readthedocs.io/en/latest/deploy.html]https://scrapyd.readthedocs.io/en/latest/deploy.html[/url]
[settings]
default = CZBK.settings
[deploy]
url = http://localhost:6800/ 将#注释掉
project = CZBK [deploy:服务器名随意设置(trager)],一般情况用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。相当于服务器名. [AppleScript] 纯文本查看 复制代码 scrapyd-deploy -l # 注意是小写的 L,不是数字1
5. 发布爬虫
[AppleScript] 纯文本查看 复制代码 scrapyd-deploy <target> -p <project> --version <version> target就是前面配置文件里deploy后面的的target名字。
project 可以随意定义,跟爬虫的工程名字无关。
version自定义版本号,不写的话默认为当前时间戳。 注意,爬虫目录下不要放无关的py文件,放无关的py文件会导致发布失败,但是当爬虫发布成功后,会在当前目录生成一个setup.py文件,可以删除掉。 [AppleScript] 纯文本查看 复制代码 $scrapyd-deploy -p cz $的意思是.在命令行下.注意刚刚启动scrapyd的命令行不要关闭
发布成功后信息:
Packing version 1523349647
Deploying to project "cz" in http://localhost:6800/addversion.json
Server response (200):
{"project": "cz", "node_name": "ubuntu", "status": "ok", "spiders": 1, "version": "1523349647"}
6.启动爬虫
[AppleScript] 纯文本查看 复制代码 curl [url=http://127.0.0.1:6800/schedule.json]http://127.0.0.1:6800/schedule.json[/url] -d project=工程名 -d spider=爬虫名 在发布成功的信息中可以找到工程名(这个工程名不是项目,而是发布时-p后的参数) [AppleScript] 纯文本查看 复制代码 $curl [url=http://127.0.0.1:6800/schedule.json]http://127.0.0.1:6800/schedule.json[/url] -d project=cz -d spider=cz
成功信息:
{"node_name": "ubuntu", "status": "ok", "jobid": "23be21443cc411e89c37000c29e9c505"} 运行后,可以在http://127.0.0.1:6800/jobs 查看运行的爬虫的详细信息 7. 取消爬虫[AppleScript] 纯文本查看 复制代码 curl [url=http://127.0.0.1:6800/cancel.json]http://127.0.0.1:6800/cancel.json[/url] -d project=cz -d job=jobid #jobid不要带"" 注: gerapy 持续更新 传智播客·黑马程序员郑州校区地址 河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层 联系电话 0371-56061160/61/62 来校路线 地铁一号线梧桐街站A口出
|