去重是对数据去重还是对请求url进行去重
发布时间:2022-08-22 11:18:29
发布人:wjy
去重是对数据去重还是对请求url进行去重?分别是如何来实现的?
url去重可以使用Scrapy+redis实现url去重(使用set)
另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。
然后进行32进制的转义符字符串生成指纹。
生成-个字符串,放到数据库中 作为唯-标示。
数据去重可以使用sql语句或者pandas对爬取数据进行去重操作即可。