嘘~ 正在从服务器偷取页面 . . .

工欲善其事，必先利其器 —— selenium模块（1）

爬虫

发布日期: 2022-11-22

更新日期: 2022-11-22

文章字数: 372

阅读时长: 1 分

阅读次数:

简单介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器

安装

首先是模块的安装

pip3 install selenium

因为使用的驱动浏览器，所以我们还需要下载响应浏览器的驱动浏览器。

以谷歌浏览器为例

这是驱动浏览器的网址
http://chromedriver.storage.googleapis.com/index.html

圈起来的部分是驱动浏览器对应的谷歌浏览器的版本号。我们选择一个和我们谷歌浏览器相符的文件夹下载下来就可以了。

下载的文件夹里会有一个可执行程序（.exe），我们可以每次复制粘贴对应的路径，也可以在写程序时将可执行程序和执行的代码放在同一个文件夹里。

我选择的是后者。

简单测试

from selenium import webdriver
from time import sleep

if __name__ == '__main__':
    # 选择使用的浏览器，比如我用的谷歌，所以我选择 Chrome
    # 参数传入的是驱动浏览器的路径
    bro = webdriver.Chrome(executable_path = "chromedriver.exe")

    # 传入网址。以百度翻译为例
    bro.get('https://fanyi.baidu.com/')

    # 等待5秒后，退出浏览器界面
    sleep(5)
    bro.quit()