嘘~ 正在从服务器偷取页面 . . .

New Ass's world
工欲善其事,必先利其器 —— selenium模块(2) 工欲善其事,必先利其器 —— selenium模块(2)
selenium 自动化操作(1)(以百度翻译为例)from selenium import webdriver if __name__ == '__main__': bro = webdriver.Chrome(executab
2022-11-22
工欲善其事,必先利其器 —— selenium模块(1) 工欲善其事,必先利其器 —— selenium模块(1)
简单介绍selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲
2022-11-22
工欲善其事,必先利其器——协程(3) 工欲善其事,必先利其器——协程(3)
用 aiohttp 完成异步爬取图片代码演示import asyncio import requests from lxml import etree import aiohttp import time import os async
2022-11-22
工欲善其事,必先利其器——协程(2) 工欲善其事,必先利其器——协程(2)
resquests 协程的尝试前面我们学习了协程的简单的语法,以及写了一段代码实现了简单的协程。而我们的目的是为了实现异步爬虫。所以我们就用 requests 模块尝试一下协程 flask服务首先我们用 flask 设置一个简单的框架,因为
2022-11-22
工欲善其事,必先利其器——协程(1) 工欲善其事,必先利其器——协程(1)
什么是协程简单来说,协程就是同时开启多个任务,但一次只顺序执行一个。等到所执行的任务遭遇阻塞,就切换到下一个任务继续执行,以期节省下阻塞所占用的时间。 简单说明 简单的代码示例import asyncio import time asyn
2022-11-22
工欲善其事,必先利其器——线程池的使用(2) 工欲善其事,必先利其器——线程池的使用(2)
好吧,我们前面爬取图片发现使用了线程池后,其实我们的效率提高不是这么明显。那我们就来试一试爬取视频吧。因为不同的网站对视频的反爬的策略都不尽相同,所以我们这里讲的示例并没有普世的意义。唯一普世的做法是好好分析视频网址的存放地址。 需求首先来
2022-11-21
工欲善其事,必先利其器——线程池的使用(1) 工欲善其事,必先利其器——线程池的使用(1)
学到现在,我们可以说已经学习了爬虫的基础知识,如果没有那些奇奇怪怪的反爬虫机制,基本上只要有时间分析,一般的数据都是可以爬取的,那么到了这个时候我们需要考虑的就是爬取的效率了,关于提高爬虫效率,也就是实现异步爬虫,我们可以考虑以下两种方式:
2022-11-21
工欲善其事,必先利其器——识别验证码(2) 工欲善其事,必先利其器——识别验证码(2)
模拟登录人人网前面我们学习了使用第三方平台实现验证码的识别,那现在就让我们来用验证码的识别实现人人网的登录。 首先我们先到人人网的登录页面去踩点。 人人网登录在三次失败后需要输入验证码,那我们现在需要做的就是通过数据解析将验证码保存到本地(
2022-11-21
工欲善其事,必先利其器——识别验证码(1) 工欲善其事,必先利其器——识别验证码(1)
验证码识别我们使用爬虫时很有可能需要登录,而现在的平台登陆时都需要验证码才能完成登录,所以我们使用爬虫模拟登录时验证码是必须要跨过的坎。一般情况下,我们使用第三方平台实现验证码的识别。 所以我在这里介绍一个识别验证码的平台——图鉴(比较常见
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(4) 冰冻三尺,非一日之寒。数据解析——xpath(4)
爬取全国的城市名称以及“或”的简单介绍首先是爬取全国城市名称 网址如下:https://www.aqistudy.cn/historydata/ 我们打开网页进行简单的数据分析 我们发现我们需要爬取的名称都在 li 标签里。根据这个我们可以
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(3) 冰冻三尺,非一日之寒。数据解析——xpath(3)
什么?我怎么又讲爬取图片?拜托,这可是 4k 图片,清晰度杠杠的。再说,爬取糗图算什么本事,做人要爬取的肯定是妹子图片,而且是 4k 的妹子图片,是不是很激动?放心,这次不晃你。 源码分析首先让我们打开网页,好好欣赏一下美丽的妹子……哦不,
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(2) 冰冻三尺,非一日之寒。数据解析——xpath(2)
爬取二手房信息说到二手房信息,不知道你们心里最先跳出来的公司(网站)是什么,反正我心里第一个跳出来的是网站是 58 同城。哎呦,我这暴脾气,想到就赶紧去干。 但很显然,我失败了。说显然,而不是不幸,这是因为 58 同城是大公司,我这点本事爬
2022-11-21
8 / 9