首先采用两层模型分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。
如果资金宽裕的话,可以直接调用第三方的ip(经济实惠) 如果资金紧缩,爬取第三方提供的免费ip之后测试可用后保存到redis或其他数据库,建立ip代理池,这里需要注意的是爬取第三方别用自己的ip,否则会被封。
请求头、cookie (参数加密)、 js加密(混淆) 、ip、验证码、登陆,内容使用编码混淆等
一般在公司项目组中,如果是较大的爬虫项目是几个人协同负责编写及维护,例如全网服装商品数据爬取(国内及国外电商平台、各专卖网等);如果是十几二十个网站的爬虫项目基本一个人完全可以负责。
中心极限定理定义: (1) 任何一个样本的平均值将会约等于其所在总体的平均值。(2) 不管总体是什么分布,任意一 个 总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。