一般是通过脚本定时(crontab) 启动爬虫;若是做爬虫自动化系统业务人员可以通过手动提交url的方 式进行启动爬虫(类似于八爪鱼工具)
(3)建立好URL排序算法。 而深度爬取(深度优先算法)就是从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续追踪链接,scrapy默认就是 使用的深度优先算法。
如果资金宽裕的话,可以直接调用第三方的ip(经济实惠) 如果资金紧缩,爬取第三方提供的免费ip之后测试可用后保存到redis或其他数据库,建立ip代理池,这里需要注意的是爬取第三方别用自己的ip,否则会被封。
请求头、cookie (参数加密)、 js加密(混淆) 、ip、验证码、登陆,内容使用编码混淆等
一般在公司项目组中,如果是较大的爬虫项目是几个人协同负责编写及维护,例如全网服装商品数据爬取(国内及国外电商平台、各专卖网等);如果是十几二十个网站的爬虫项目基本一个人完全可以负责。