全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+

当前位置:首页 > 广州

请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?

请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?Scrapy由五大组件组成:调度器(Scheduler)、下载器(Dpwnloader)、爬虫(Spider) 、实体管道(item Pipline)、 Scrapy引 |擎(Scrapy Engine)

2022-08-22

去重是对数据去重还是对请求url进行去重

url去重可以使用Scrapy+redis实现url去重(使用set)另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。生成-个字符串,放到数据库中 作为唯-标示。

2022-08-22

负责的项目有多少人参与,还是一个人来负责的?

一般在公司项目组中,如果是较大的爬虫项目是几个人协同负责编写及维护,例如全网服装商品数据爬取(国内及国外电商平台、各专卖网等);如果是十几二十个网站的爬虫项目基本一个人完全可以负责。

2022-08-22

代理的作用

一个人,需要先打开浏览器、输入网址,从网站后台获取网页并加载到浏览器展示,最后才能获取数据。爬虫的请求部分,就相当于浏览器的角色,会根据你输入的url从网站后台获取html,而解析部分就会根据预先设定的规则,从html中获取数据。

2022-08-22

PCA为什么要中心化? PCA的主成分是什么?

因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。

2022-08-22

热问标签

热门频道

在线咨询 免费试学 教程领取