请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?
请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?Scrapy由五大组件组成:调度器(Scheduler)、下载器(Dpwnloader)、爬虫(Spider) 、实体管道(item Pipline)、 Scrapy引 |擎(Scrapy Engine)
去重是对数据去重还是对请求url进行去重
url去重可以使用Scrapy+redis实现url去重(使用set)另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。生成-个字符串,放到数据库中 作为唯-标示。
负责的项目有多少人参与,还是一个人来负责的?
一般在公司项目组中,如果是较大的爬虫项目是几个人协同负责编写及维护,例如全网服装商品数据爬取(国内及国外电商平台、各专卖网等);如果是十几二十个网站的爬虫项目基本一个人完全可以负责。
代理的作用
一个人,需要先打开浏览器、输入网址,从网站后台获取网页并加载到浏览器展示,最后才能获取数据。爬虫的请求部分,就相当于浏览器的角色,会根据你输入的url从网站后台获取html,而解析部分就会根据预先设定的规则,从html中获取数据。
PCA为什么要中心化? PCA的主成分是什么?
因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。