归档: 2022 | New Ass's world

2022

11

22

行百里者半九十——scrapy 框架（5）

scrapy爬取图片需求爬取站长素材中的图片图片数据爬取之ImagesPipelinescrapy爬取图片xpath 解析出图片 src 的属性值。单独对图片地址发起请求获取图片二进制类型的数据。 ImagesPipeline只需要将 i

2022-11-22 爬虫

22

行百里者半九十——scrapy 框架（4）

深度爬取——请求传参目的爬取校花网中港台明星的名字和简介信息分别在两个页面里思路分析我们发现要实现这个目的，我们既要对原页面进行数据爬取，也要对详情页进行明星简介的爬取。这时候我们似乎可以使用前面学的回调函数的方法，调用一个新的

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（3）

全站数据爬取：以校花网为例目的爬取校花网中全部照片的名称，以生活照为例。思路分析如果不用 scrapy 框架实现全站数据爬取其实是简单的，只要找到网址的规律一直遍历就行。那么如果要用scrapy框架实现全站数据爬取应该怎么办呢？其实

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（2）

scrapy 持久化存储（以糗事百科为例）前言不知道大家还记得爬虫万能的三步骤吗？没错，那就是指定URL，发送请求，持久化保存数据。我们前面在 scrapy框架（1）中简单了解了使用 scrapy 指定URL和发送请求，那么我们又要怎么使

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（1）

scrapy 框架初识安装如果没记错，python 3.6 及以上版本可以直接用 pip install scrapy.但具体是从哪个版本开始可以这样我也不是很清楚，因为我使用的 python 3.95，所以我是直接用pip安装的。也正因为

2022-11-22 爬虫

python 爬虫 scrapy

22

工欲善其事，必先利其器 —— selenium模块（6）

selenium 综合应用（2）需求模拟登录 12306 注意：目的在于验证码的识别。因为除了点击，12306在登录后还存在滑块验证码。本篇文章并不涉及滑块验证码。代码分析首先需要定位并点击 “账号登陆” 然后问题就是账号密码和验证

2022-11-22 爬虫

python 爬虫 selenium

22

工欲善其事，必先利其器 —— selenium模块（5）

selenium 综合应用（1）需求模拟浏览器，从京东首页开始输入关键词，爬取两页商品的名称、价格和一页评价（只包括文字，不包括视频）。评价包括用户的名称和星数。网页分析首先定位搜索框的位置前面说过商品页的商品是动态加载。不然我们只

2022-11-22 爬虫

python 爬虫 selenium

22

工欲善其事，必先利其器 —— selenium模块（4）

selenium 模块（4）几句题外话因为准备期末考试的缘故，有一段时间没有写博文了，今天认真一看竟然已经有一个月没有写了。虽然我的博文只有零零总总几人看过，但期间有位大佬 “催更” ，真是叫我汗颜。如果关注过我写的东西的时间，或许各位就

2022-11-22 爬虫

python 爬虫 selenium

22

工欲善其事，必先利其器 —— selenium模块（3）

selenium 模块自动化操作（2）（以京东为例）页面滚动我们首先打开京东的页面，随便输入一个商品名称会看到如下的页面。我们可以先数一数页面有多少商品。如果我们使用滚轮滚动，我们就会发现在也页面滚动的时候页面同时也在不停地加载。如果

2022-11-22 爬虫

python 爬虫 selenium

22

工欲善其事，必先利其器 —— selenium模块（2）

selenium 自动化操作（1）（以百度翻译为例）from selenium import webdriver if __name__ == '__main__': bro = webdriver.Chrome(executab

2022-11-22 爬虫

python 爬虫 selenium