嘘~ 正在从服务器偷取页面 . . .

工欲善其事,必先利其器 —— selenium模块(1)


简单介绍

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题

selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器

安装

首先是模块的安装

pip3 install selenium

因为使用的驱动浏览器,所以我们还需要下载响应浏览器的驱动浏览器。

以谷歌浏览器为例

这是驱动浏览器的网址
http://chromedriver.storage.googleapis.com/index.html


圈起来的部分是驱动浏览器对应的谷歌浏览器的版本号。我们选择一个和我们谷歌浏览器相符的文件夹下载下来就可以了。

下载的文件夹里会有一个可执行程序(.exe),我们可以每次复制粘贴对应的路径,也可以在写程序时将可执行程序和执行的代码放在同一个文件夹里。

我选择的是后者。

简单测试

from selenium import webdriver
from time import sleep

if __name__ == '__main__':
    # 选择使用的浏览器,比如我用的谷歌,所以我选择 Chrome
    # 参数传入的是驱动浏览器的路径
    bro = webdriver.Chrome(executable_path = "chromedriver.exe")

    # 传入网址。以百度翻译为例
    bro.get('https://fanyi.baidu.com/')

    # 等待5秒后,退出浏览器界面
    sleep(5)
    bro.quit()

文章作者: New Ass
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 New Ass !
  目录