采用两层模型(人群画像x人群转化) : 新生儿出生数=2各年龄层育龄女性数量*各年龄层生育比率 (一般面试中采用这种方法,即费米估计问题,可以参考《这也能想到?--巧妙 解答无厘头问题》)
(3)建立好URL排序算法。 而深度爬取(深度优先算法)就是从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续追踪链接,scrapy默认就是 使用的深度优先算法。
如果资金宽裕的话,可以直接调用第三方的ip(经济实惠) 如果资金紧缩,爬取第三方提供的免费ip之后测试可用后保存到redis或其他数据库,建立ip代理池,这里需要注意的是爬取第三方别用自己的ip,否则会被封。
请求头、cookie (参数加密)、 js加密(混淆) 、ip、验证码、登陆,内容使用编码混淆等
证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。