●首先要定位到现象真正发生的位置, 到底是谁的销售 额变低了?这里划分的维度有: 1. 用户(画像、来源地区、新老、渠道等) 2. 产品或栏目
(1)渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征(2) 环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、 wifi使用情况、 使用时间、来源地区、ip是否进过黑名单
首先采用两层模型分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。
请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?Scrapy由五大组件组成:调度器(Scheduler)、下载器(Dpwnloader)、爬虫(Spider) 、实体管道(item Pipline)、 Scrapy引 |擎(Scrapy Engine)
url去重可以使用Scrapy+redis实现url去重(使用set)另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。生成-个字符串,放到数据库中 作为唯-标示。