采用两层模型(人群画像x人群转化) : 新生儿出生数=2各年龄层育龄女性数量*各年龄层生育比率 (一般面试中采用这种方法,即费米估计问题,可以参考《这也能想到?--巧妙 解答无厘头问题》)
首先采用两层模型分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。
请说一下Scrapy及底层实现?如何设置多线程?爬虫除了Scrapy还了解过其他框架吗?Scrapy由五大组件组成:调度器(Scheduler)、下载器(Dpwnloader)、爬虫(Spider) 、实体管道(item Pipline)、 Scrapy引 |擎(Scrapy Engine)
请求头、cookie (参数加密)、 js加密(混淆) 、ip、验证码、登陆,内容使用编码混淆等
一般在公司项目组中,如果是较大的爬虫项目是几个人协同负责编写及维护,例如全网服装商品数据爬取(国内及国外电商平台、各专卖网等);如果是十几二十个网站的爬虫项目基本一个人完全可以负责。