嘘~ 正在从服务器偷取页面 . . .

New Ass's world
工欲善其事,必先利其器 —— selenium模块(6) 工欲善其事,必先利其器 —— selenium模块(6)
selenium 综合应用 (2)需求模拟登录 12306 注意:目的在于验证码的识别。因为除了点击,12306在登录后还存在滑块验证码。本篇文章并不涉及滑块验证码。 代码分析 首先需要定位并点击 “账号登陆” 然后问题就是账号密码和验证
2022-11-22
工欲善其事,必先利其器 —— selenium模块(5) 工欲善其事,必先利其器 —— selenium模块(5)
selenium 综合应用(1)需求模拟浏览器,从京东首页开始输入关键词,爬取两页商品的名称、价格和一页评价(只包括文字,不包括视频)。评价包括用户的名称和星数。 网页分析 首先定位搜索框的位置 前面说过商品页的商品是动态加载。不然我们只
2022-11-22
工欲善其事,必先利其器 —— selenium模块(4) 工欲善其事,必先利其器 —— selenium模块(4)
selenium 模块(4)几句题外话因为准备期末考试的缘故,有一段时间没有写博文了,今天认真一看竟然已经有一个月没有写了。虽然我的博文只有零零总总几人看过,但期间有位大佬 “催更” ,真是叫我汗颜。 如果关注过我写的东西的时间,或许各位就
2022-11-22
工欲善其事,必先利其器 —— selenium模块(3) 工欲善其事,必先利其器 —— selenium模块(3)
selenium 模块自动化操作(2)(以京东为例)页面滚动我们首先打开京东的页面,随便输入一个商品名称会看到如下的页面。 我们可以先数一数页面有多少商品。 如果我们使用滚轮滚动,我们就会发现在也页面滚动的时候页面同时也在不停地加载。 如果
2022-11-22
工欲善其事,必先利其器 —— selenium模块(2) 工欲善其事,必先利其器 —— selenium模块(2)
selenium 自动化操作(1)(以百度翻译为例)from selenium import webdriver if __name__ == '__main__': bro = webdriver.Chrome(executab
2022-11-22
工欲善其事,必先利其器 —— selenium模块(1) 工欲善其事,必先利其器 —— selenium模块(1)
简单介绍selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲
2022-11-22
工欲善其事,必先利其器——协程(3) 工欲善其事,必先利其器——协程(3)
用 aiohttp 完成异步爬取图片代码演示import asyncio import requests from lxml import etree import aiohttp import time import os async
2022-11-22
工欲善其事,必先利其器——协程(2) 工欲善其事,必先利其器——协程(2)
resquests 协程的尝试前面我们学习了协程的简单的语法,以及写了一段代码实现了简单的协程。而我们的目的是为了实现异步爬虫。所以我们就用 requests 模块尝试一下协程 flask服务首先我们用 flask 设置一个简单的框架,因为
2022-11-22
工欲善其事,必先利其器——协程(1) 工欲善其事,必先利其器——协程(1)
什么是协程简单来说,协程就是同时开启多个任务,但一次只顺序执行一个。等到所执行的任务遭遇阻塞,就切换到下一个任务继续执行,以期节省下阻塞所占用的时间。 简单说明 简单的代码示例import asyncio import time asyn
2022-11-22
工欲善其事,必先利其器——线程池的使用(2) 工欲善其事,必先利其器——线程池的使用(2)
好吧,我们前面爬取图片发现使用了线程池后,其实我们的效率提高不是这么明显。那我们就来试一试爬取视频吧。因为不同的网站对视频的反爬的策略都不尽相同,所以我们这里讲的示例并没有普世的意义。唯一普世的做法是好好分析视频网址的存放地址。 需求首先来
2022-11-21
2 / 4