A股上市公司传智教育(股票代码 003032)旗下技术交流社区北京昌平校区

 找回密码
 加入黑马

QQ登录

只需一步,快速开始

爬虫工作从来都不是一劳永逸的,并非搭建好了爬虫,买好了优质代理IP后,爬虫就可以永远持续稳定的工作下去了。在工作过程中,也许你会发现,在某一天的某一刻,爬虫停了下来,或者效率极差,这个时候不要慌张,冷静的找出问题,再解决问题才是最重要的。

爬虫停止工作或者工作效率极差不外乎有两个原因:一是代理IP问题,可以联系客服处理;二是反爬虫策略升级了,相应的爬虫策略也要跟着升级了。那么怎么判断是什么原因造成爬虫停止工作或者效率极差呢?

我们可以先用浏览器设置代理访问目标网站测试,因为这样是真实用户访问行为,爬虫不可能杀死真实用户的。如果浏览器设置代理IP成功了,并且可以成功的访问网站,返回正常的内容,说明代理IP是没有问题的,那么有可能是目标网站的反爬策略升级了,需要调整自己的爬虫策略,具体如何调整,则需要好好的研究下目标网站的策略;如果浏览器设置代理IP成功了,但不能正常的访问网站,那么可能是代理IP出问题了,这时需要联系代理服务商客服解决问题。

代理IP问题一般有三种:一是代理服务器故障了,二是使用授权出问题了,三是代理IP不新鲜了。代理服务器故障了很好判断,所有的代理IP都用不了,连不上,这时候找代理服务商尽快处理;使用授权出问题了一般可以从返回结果看出来,比如407错误,这是典型的授权错误,站大爷代理IP的授权有两种,分别是“终端IP授权”和“用户名+密码”授权,当选择“终端IP授权”时,要注意绑定的终端IP是否发生改变,如发生改变,需要重新绑定终端IP;代理IP不新鲜了这种情况一般发生在共享IP池上,可能有其他用户使用和你相同的IP,访问和你相同的网站,这样就很容易被目标网站限制,可以重新提取新的IP进行使用。

爬虫问题不外乎就是这两种问题,当我们找出真正的问题了,就能很快的解决问题了,爬虫就可以继续稳定的进行工作了。

0 个回复

您需要登录后才可以回帖 登录 | 加入黑马