Scrapy框架与Selenium我们前面都介绍过,本次给大家分享的是两者如何配合使用。如果喜欢不要忘记分享、点赞哦!我们想获取更多的日榜达人的数据怎么操作?借助selenium哦!为了获取更多我们结合Scrapy完成此次的爬虫任务。编写spider.py爬虫文件,如果不登陆我们是无法看的更多的小红书达人们的账号排行、涨粉等信息。如果想看的更多则需要登陆才可以。
其实搜索引擎都是爬虫,负责从世界各地的网站上爬取内容,当你搜索关键词时就把相关的内容展示给你,只不过他们那都是非常大的爬虫,爬的内容量也超乎想象,所以也就无法再用单机爬虫去实现了,而是考虑使用分布式爬虫。要想更加清楚的理解上图并使用分布式爬虫,我们首先了解下之前一直使用的单机Scrapy。
在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及Session和Cookies的相关知识,先来揭开Cookies的面纱。
大家可以看到上图最左侧的就是Item Pipline。Item管道的主要任务就是负责处理有Spider从网页中抽取的Item,因此Item Pipline的主要任务就是清洗、验证和存储数据。 当页面被Spider解析后,将被发送到Item管道,Item Pipline获取了Items中的数据并执行对应的方法,并决定是否需要在Item管道中继续执行下一步或是直接丢弃掉不处理。
中间件这个中文名字和中间人只有一字之差。但是它们做的事情确实也非常相似。中间件可以在中途劫持数据,做一些修改再把数据传递出去,就像是中介一样。不同点在于,中间件是开发者主动加进去的组件,而中间人是被动的,有时可能是恶意地加进去的环节。