scrapy-redis 的工作流程
发布时间:2022-09-07 17:39:42
发布人:syq
master端通过redis进行网址的去重,进行任务的调度,slave端争夺任务开始爬取,并将爬取的数据交回master端。
第一:爬虫指定好redis_key,启动,等待起始url。
第二:运行脚本,往redis_key中填充start_urls
第三:爬虫发现redis_key中有了start_urls,开始取出这些url
第四:爬虫按照默认参数,将这些url打包生成requests
第五:将这些requests送往scheduler调度模块,进入等待队列,等待调度。
第六:scheduler模块开始调度这些requests,出队,发往爬虫引擎。
第七:爬虫引擎将这些requests送到下载中间件(多个,例如加header,代理,自定义等等)进行处理。
第八:处理完之后,送往Downloader模块进行下载。