全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  应聘面试  >  Python面试题

去重是对数据去重还是对请求url进行去重

发布时间:2022-08-22 11:18:29
发布人:wjy

去重是对数据去重还是对请求url进行去重?分别是如何来实现的?

url去重可以使用Scrapy+redis实现url去重(使用set) 

另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。

然后进行32进制的转义符字符串生成指纹。

生成-个字符串,放到数据库中 作为唯-标示。 

数据去重可以使用sql语句或者pandas对爬取数据进行去重操作即可。

去重是对数据去重还是对请求url进行去重

相关文章

华为外包python面试题-Python实现斐波那契数列

2023-07-25

常见Python程序员面试题

2023-07-21

Python面试题及答案

2023-07-20

matlab和python实现pca降维算法

2023-03-29

【Python面试题】运行下面的代码是否会报错?

2022-08-23

【Python面试题】对下面给出的字典按值从大到小对键进行排序。

2022-08-23
在线咨询 免费试学 教程领取