如何进行深度、定向爬取?
(3)建立好URL排序算法。 而深度爬取(深度优先算法)就是从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续追踪链接,scrapy默认就是 使用的深度优先算法。
ip代理池怎么设置?
如果资金宽裕的话,可以直接调用第三方的ip(经济实惠) 如果资金紧缩,爬取第三方提供的免费ip之后测试可用后保存到redis或其他数据库,建立ip代理池,这里需要注意的是爬取第三方别用自己的ip,否则会被封。
怎么向小孩子解释正态分布
拿出小朋友班级的成绩表,每隔2分统计一下人数(因为小学- -年级大家成绩很接近), 画出钟形。然后说这就是正态分布,大多数的人都集中在中间,只有少数特别好和不够好
p值的含义
证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。
中心极限定理
中心极限定理定义: (1) 任何一个样本的平均值将会约等于其所在总体的平均值。(2) 不管总体是什么分布,任意一 个 总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。