scrapy运行定量爬虫（scrapy增量爬虫）-APISpace

scrapy运行定量爬虫（scrapy增量爬虫）

假设需求

现在大概有三千个scrapy的爬虫文件，10台机器，如何合理的分配爬虫？什么，这么简单的数学题还要问，一台机器分300个爬虫不就行了。确实，这样分配最简单也最直接，但会带来一些问题。就比如，有些站点网页少而有些网站很大，每个爬虫运行的时间是不一样的，最后可能导致一台累死，九台围观。而且一台机器同时运行300个爬虫，在硬件资源上的消耗会很大，也可能会导致很多爬虫无法正常运行，所以即使是这样分配爬虫我们也要限制同时运行的爬虫数量。当某个爬虫运行完了，才执行下一个。

解决方法

可以先创建出一个队列，队列里存放待抓取的爬虫(通常会创建三个，分别是pending(待抓取)、running(正抓取)、finished(已抓取))。然后每台机器开始都取指定数量的爬虫运行，当其中一个运行完，在去任务队列里取，直到队列空了。

实现

这种数量不多的队列使用Redis的集合就行，我们创建pending、running、finished三个集合，然后将所有的爬虫的name字段存放在pending集合中(当然爬虫文件名也可以，只是启动爬虫的方式稍微不一样)，接着我们就可以写个脚本来运行爬虫了。

方式有两种：

一、crawl命令

伪代码：

pending.add(所有爬虫)

while True:

if len(running) < 指定数量:

spider = pending.pop()

多进程执行：f'scrapy crawl {spider}'

else:

time.sleep(指定时间)

然后只要编写一个extension来同步爬虫状态到Redis里

class SpiderCountLimit:

def __init__(self, count):

self.spider_count = count

self.r = redis.Redis(decode_responses=True)

@classmethod

def from_crawler(cls, crawler):

count = crawler.settings.get('SPIDER_COUNT', 20)

ext = cls(count)

crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

return ext

def spider_closed(self, spider, reason):

self.r.srem('running', spider.name) # 爬虫关闭时，删除running中的爬虫

self.r.sadd('finished', spider.name) # 加入到已完成队列

def spider_opened(self, spider):

self.r.sadd('running', spider.name) # 添加爬虫到running中

这种方法就不多说了，因为我没尝试，直接看第二种

二、Crawler API

伪代码：(不懂怎么用的Crawler API可以看scrapy自定义命令)

for i in range(指定数量):

crawler_process.crawl(pending.pop())

crawler_process.start()

while True:

if len(running) < 指定数量:

多进程执行：

crawler_process.crawl(pending.pop())

crawler_process.start()

else:

time.sleep(指定时间)

因为crawler_process.start()这个语句是阻塞的，所以需要多进程来执行。也可以去掉多进程，把extension的内容改成这样：

class SpiderCountLimit:

def __init__(self, count):

self.spider_count = count

self.r = redis.Redis(decode_responses=True)

@classmethod

def from_crawler(cls, crawler):

count = crawler.settings.get('SPIDER_COUNT', 20)

ext = cls(count)

crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)

crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)

return ext

def spider_closed(self, spider, reason):

self.r.srem('running', spider.name)

self.r.sadd('finished', spider.name)

spider = self.r.spop('pending')

process = CrawlerProcess()

process.crawl(spider)

process.start()

def spider_opened(self, spider):

self.r.sadd('running', spider.name)

不过我感觉这个方法不如多进程添加，因为上面提到process.start() 是阻塞的，也就是说spider_closed这个方法一直没有结束，这可能会带来一些无法预见的问题。

至于其他一些细节上的优化就自己思考了，比如改用进程池来管理进程等。

深入理解python之self（谈谈对python的认识）

351 2022-08-17

scrapy运行定量爬虫（scrapy增量爬虫）

深入理解python之self（谈谈对python的认识）

爬虫基本原理（昆虫爬行原理）

来自一位资深Python大佬对爬虫的总结（Python爬虫笔记）

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）