头条放多少广告可以获得最大收益
收益=出价x流量x点击率x有效转化率,放广告的数量会提高流量,但会降低匹配程度,因此降低点击 率。最大收益是找到这个乘积的最大值,是一个有约束条件的最优化问题。同时参考价格歧视方案,可以对不同的用户投放不同数量的广告。
去重是对数据去重还是对请求url进行去重
url去重可以使用Scrapy+redis实现url去重(使用set)另-种方式: Scrapy-Redis手 动添加去重ur|(指纹),实现实录:通过MD5加密,把请求体,请求方式,请求url放在一起。生成-个字符串,放到数据库中 作为唯-标示。
是定时的,还是通过提交url来启动爬虫?
一般是通过脚本定时(crontab) 启动爬虫;若是做爬虫自动化系统业务人员可以通过手动提交url的方 式进行启动爬虫(类似于八爪鱼工具)
如何进行深度、定向爬取?
(3)建立好URL排序算法。 而深度爬取(深度优先算法)就是从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续追踪链接,scrapy默认就是 使用的深度优先算法。
PCA为什么要中心化? PCA的主成分是什么?
因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。