本帖最后由 我是楠楠 于 2018-5-8 15:18 编辑
【郑州校区】Gerapy 使用详解 介绍: Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们: 更方便地控制爬虫运行 更直观地查看爬虫状态 更实时地查看爬取结果 更简单地实现项目部署 更统一地实现主机管理 更轻松地编写爬虫代码(几乎没用,感觉比较鸡肋)
一 : Greapy 安装1. gerapy下载[AppleScript] 纯文本查看 复制代码 $pip install gerapy
$gerapy 查看是否安装成功
成功信息: [AppleScript] 纯文本查看 复制代码 Usage:
gerapy init [--folder=<folder>]
gerapy migrate
gerapy createsuperuser
gerapy runserver [<host:port>]
2. 初始化gerapy$gerapy init执行完毕之后,便会在当前目录下生成一个名字为 gerapy 的文件夹,接着进入该文件夹,可以看到有一个 projects 文件夹 3. 初始化数据库要cd 到gerapy目录 [AppleScript] 纯文本查看 复制代码 $cd gerapy
$gerapy migrate
会在gerapy目录下生产一个sqlite数据库,同时创建数据表 4.运行gerapy服务
$gerapy runserver
5.访问gerapy管理界面
http://127.0.0.1:8000二 : Greapy 管理界面使用
1. 配置主机就是配置我们scrapyd 远程服务. 需要添加 IP、端口,以及名称,点击创建即可完成添加,点击返回即可看到当前添加的 Scrapyd 服务列表 不了解scrapyd的请移步:https://blog.csdn.net/fengltxx/article/details/79889340 创建成功后,我们可以在列表中查看已经添加的服务 如果想执行爬虫,就点击调度.然后运行.
前提是: 我们配置的scrapyd中,已经发布了 爬虫. 可能有的疑问:
Gerapy 与 scrapyd 有什么关联吗? 我们仅仅使用scrapyd是可以调用scrapy进行爬虫. 只是 需要使用命令行开启爬虫 curl http://127.0.0.1:6800/schedule.json -d project=工程名 -d spider=爬虫名使用Greapy就是为了将使用命令行开启爬虫变成 “小手一点”. 我们在gerapy中配置了scrapyd后,不需要使用命令行,可以通过图形化界面直接开启爬虫. 2. 配置Projects我们可以将scarpy项目直接放到 /gerapy/projects下.然后可以看到gerapy后台看到有个项目,可以为这个项目部署到之前配置的主机中. 有时间再更新,吃饭……
传智播客·黑马程序员郑州校区地址 河南省郑州市 高新区长椿路11号大学科技园(西区)东门8号楼三层 联系电话 0371-56061160/61/62 来校路线 地铁一号线梧桐街站A口出
|