当然也可以去官网找最新的版本,官网: https://sites.google.com/a/chromium.org/chromedriver/downloads另外注意:把下载好的chromedriver.exe放到python安装路径的scripts目录中即可(2) firefox浏览器驱动:selenium3默认支持的webdriver是Firefox,而Firefox需要安装geckodriver
selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;由于selenium解析执行了CSS、JavaScript所以相对requests它的性能是低下的;
先来介绍一下xpath。 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。 跟BeautifulSoup4一样都是用来解析页面内容的工具,只不过使用方式有所不同而已。
如果想学会爬虫,熟悉HTML代码是必须的,如果不会HTML代码我们就没有办法分析页面结构,也就没有办法更好的做解析了。html是hypertext markup lanaguage缩写 超文本标记语言,是一种解释性语言,不需要编译,由浏览器解释执行
before_first_request 在处理第一个请求前运行before_request 在每次请求前运行after_request 如果没有未处理的异常抛出,在每次请求后运行teardown_request 即使有未处理的异常抛出,在每次请求后运行.