简单介绍
selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题
selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器
安装
首先是模块的安装
pip3 install selenium
因为使用的驱动浏览器,所以我们还需要下载响应浏览器的驱动浏览器。
以谷歌浏览器为例
这是驱动浏览器的网址
http://chromedriver.storage.googleapis.com/index.html
圈起来的部分是驱动浏览器对应的谷歌浏览器的版本号。我们选择一个和我们谷歌浏览器相符的文件夹下载下来就可以了。
下载的文件夹里会有一个可执行程序(.exe),我们可以每次复制粘贴对应的路径,也可以在写程序时将可执行程序和执行的代码放在同一个文件夹里。
我选择的是后者。
简单测试
from selenium import webdriver
from time import sleep
if __name__ == '__main__':
# 选择使用的浏览器,比如我用的谷歌,所以我选择 Chrome
# 参数传入的是驱动浏览器的路径
bro = webdriver.Chrome(executable_path = "chromedriver.exe")
# 传入网址。以百度翻译为例
bro.get('https://fanyi.baidu.com/')
# 等待5秒后,退出浏览器界面
sleep(5)
bro.quit()