全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  技术干货

scrapy-redis 的工作流程

发布时间:2022-09-07 17:39:42
发布人:syq

  master端通过redis进行网址的去重,进行任务的调度,slave端争夺任务开始爬取,并将爬取的数据交回master端。

scrapy-redis 的工作流程

  第一:爬虫指定好redis_key,启动,等待起始url。

  第二:运行脚本,往redis_key中填充start_urls

  第三:爬虫发现redis_key中有了start_urls,开始取出这些url

  第四:爬虫按照默认参数,将这些url打包生成requests

  第五:将这些requests送往scheduler调度模块,进入等待队列,等待调度。

  第六:scheduler模块开始调度这些requests,出队,发往爬虫引擎。

  第七:爬虫引擎将这些requests送到下载中间件(多个,例如加header,代理,自定义等等)进行处理。

  第八:处理完之后,送往Downloader模块进行下载。

相关文章

什么项目适合使用Scrum?

什么项目适合使用Scrum?

2023-10-14
scrum敏捷软件开发是什么?

scrum敏捷软件开发是什么?

2023-10-14
敏捷BI和传统BI有什么区别?

敏捷BI和传统BI有什么区别?

2023-10-14
敏捷开发实行中各岗位职能是什么?

敏捷开发实行中各岗位职能是什么?

2023-10-14

最新文章

常见网络安全面试题:Windows常用的命令有哪些?

常见网络安全面试题:Windows常用的命令有哪些?

2023-10-09
常见网络安全面试题:根据设备告警如何展开排查?

常见网络安全面试题:根据设备告警如何展开排查?

2023-10-09
常见网络安全面试题:mysql加固呢?(数据库加固)

常见网络安全面试题:mysql加固呢?(数据库加固)

2023-10-09
常见网络安全面试题:windows和linux加固?(操作系统加固)

常见网络安全面试题:windows和linux加固?(操作系统加固)

2023-10-09
在线咨询 免费试学 教程领取