如何进行深度、定向爬取?
发布时间:2022-08-22 11:18:20
发布人:wjy
主要就是设定爬取规则定向爬取:
(1)清晰地定义好爬虫的爬取目标,规划好主题。
(2)建立好爬取网址的过滤筛选规则以及内容的过滤筛选规则。
(3)建立好URL排序算法。 而深度爬取(深度优先算法)就是从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续追踪链接,scrapy默认就是 使用的深度优先算法。