嘘~ 正在从服务器偷取页面 . . .

New Ass's world
工欲善其事,必先利其器——线程池的使用(1) 工欲善其事,必先利其器——线程池的使用(1)
学到现在,我们可以说已经学习了爬虫的基础知识,如果没有那些奇奇怪怪的反爬虫机制,基本上只要有时间分析,一般的数据都是可以爬取的,那么到了这个时候我们需要考虑的就是爬取的效率了,关于提高爬虫效率,也就是实现异步爬虫,我们可以考虑以下两种方式:
2022-11-21
工欲善其事,必先利其器——识别验证码(2) 工欲善其事,必先利其器——识别验证码(2)
模拟登录人人网前面我们学习了使用第三方平台实现验证码的识别,那现在就让我们来用验证码的识别实现人人网的登录。 首先我们先到人人网的登录页面去踩点。 人人网登录在三次失败后需要输入验证码,那我们现在需要做的就是通过数据解析将验证码保存到本地(
2022-11-21
工欲善其事,必先利其器——识别验证码(1) 工欲善其事,必先利其器——识别验证码(1)
验证码识别我们使用爬虫时很有可能需要登录,而现在的平台登陆时都需要验证码才能完成登录,所以我们使用爬虫模拟登录时验证码是必须要跨过的坎。一般情况下,我们使用第三方平台实现验证码的识别。 所以我在这里介绍一个识别验证码的平台——图鉴(比较常见
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(4) 冰冻三尺,非一日之寒。数据解析——xpath(4)
爬取全国的城市名称以及“或”的简单介绍首先是爬取全国城市名称 网址如下:https://www.aqistudy.cn/historydata/ 我们打开网页进行简单的数据分析 我们发现我们需要爬取的名称都在 li 标签里。根据这个我们可以
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(3) 冰冻三尺,非一日之寒。数据解析——xpath(3)
什么?我怎么又讲爬取图片?拜托,这可是 4k 图片,清晰度杠杠的。再说,爬取糗图算什么本事,做人要爬取的肯定是妹子图片,而且是 4k 的妹子图片,是不是很激动?放心,这次不晃你。 源码分析首先让我们打开网页,好好欣赏一下美丽的妹子……哦不,
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(2) 冰冻三尺,非一日之寒。数据解析——xpath(2)
爬取二手房信息说到二手房信息,不知道你们心里最先跳出来的公司(网站)是什么,反正我心里第一个跳出来的是网站是 58 同城。哎呦,我这暴脾气,想到就赶紧去干。 但很显然,我失败了。说显然,而不是不幸,这是因为 58 同城是大公司,我这点本事爬
2022-11-21
冰冻三尺,非一日之寒。数据解析——xpath(1) 冰冻三尺,非一日之寒。数据解析——xpath(1)
xpah 的语法认识闲话少说,直接上图 xpath 爬取图片代码如下 import requests from lxml import etree import os if __name__ == "__main__": # 创建
2022-11-21
冰冻三尺,非一日之寒。数据解析——bs4 冰冻三尺,非一日之寒。数据解析——bs4
简单地使用bs4实现数据解析因为正则表达式本身有难度,所以在这里为大家介绍一下 bs4 实现数据解析。除此之外还有 xpath 解析。因为 xpath 不仅可以在 python 中使用,所以 bs4 和 正则解析一样,仅仅是简单地写两个案例
2022-11-20
冰冻三尺,非一日之寒。数据解析——正则解析(2) 冰冻三尺,非一日之寒。数据解析——正则解析(2)
上一篇的翻页爬取图片代码话不多说,直接上代码 import requests import re import os if __name__ == "__main__": # 创建文件夹 if not os.path.ex
2022-11-20
冰冻三尺,非一日之寒。数据解析——正则解析(1) 冰冻三尺,非一日之寒。数据解析——正则解析(1)
正则解析爬取图片因为讲的是正则解析,而不是正则表达式,所以我就默认大家会正则表达式了。最多在这里给大家看一下正则的语法。 这也是我从B站上截图截下来的。因为我自己都是学的半懂不懂的,实在没那脸说在这里讲正则表达式怎么写。 如果感觉学不会怎么
2022-11-20
3 / 4