归档 | New Ass's world

2022

11

22

简易界面爬虫小项目

项目目录注意事项本来是要再做一个界面在运行时显示正在爬取哪个内容 log 文件本来是要做一个日志文件，不过其实是单机版本其实好像没什么必要（实际上是嫌太麻烦了）代码演示lib 文件夹下 main.py 文件 import os,sy

2022-11-22 爬虫

22

爬虫小项目 —— 京东商品评价内容爬取

爬虫小项目 —— 京东商品评价内容爬取前言会写这么一个类似“小项目”的程序是因为在前年（去年？）的时候，一位老师需要用爬虫爬取京东某类商品的用户评论数据——不知道为什么会找学生写这种程序，淘宝找一个或许都比我靠谱吧？虽然我最后写出了一个勉强

2022-11-22 爬虫

python 爬虫

22

行百里者半九十 —— scrapy 框架关于下载中间件的补充

下载中间件拦截请求需求在《行百里者半九十 —— scrapy 框架（6）》一文中我们介绍了下载中间件的作用，并演示了其中拦截响应的代码实现。现在我们来试着实现拦截请求的代码实现，也就是UA池和代理池的实现。因为免费 IP 总是失效，所以在

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（7）

CrawlSpider 实现全站数据爬取CrawlSpider 介绍全站数据爬取的方式 -- 基于 Spider：手动请求（递归实现） -- 基于 CrawlSpider CrawlSpider（Spider

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（6）

中间件的使用——爬取网易新闻scrapy 五大核心组件引擎（Scrapy）用来处理整个系统的数据流量，触发事务（框架核心）调度器（Scheduler）用来接受引擎发送的请求，压入队列中，并在引擎再次请求的时候返回，可以想象成一个 URL

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（5）

scrapy爬取图片需求爬取站长素材中的图片图片数据爬取之ImagesPipelinescrapy爬取图片xpath 解析出图片 src 的属性值。单独对图片地址发起请求获取图片二进制类型的数据。 ImagesPipeline只需要将 i

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（4）

深度爬取——请求传参目的爬取校花网中港台明星的名字和简介信息分别在两个页面里思路分析我们发现要实现这个目的，我们既要对原页面进行数据爬取，也要对详情页进行明星简介的爬取。这时候我们似乎可以使用前面学的回调函数的方法，调用一个新的

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（3）

全站数据爬取：以校花网为例目的爬取校花网中全部照片的名称，以生活照为例。思路分析如果不用 scrapy 框架实现全站数据爬取其实是简单的，只要找到网址的规律一直遍历就行。那么如果要用scrapy框架实现全站数据爬取应该怎么办呢？其实

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（2）

scrapy 持久化存储（以糗事百科为例）前言不知道大家还记得爬虫万能的三步骤吗？没错，那就是指定URL，发送请求，持久化保存数据。我们前面在 scrapy框架（1）中简单了解了使用 scrapy 指定URL和发送请求，那么我们又要怎么使

2022-11-22 爬虫

python 爬虫 scrapy

22

行百里者半九十——scrapy 框架（1）

scrapy 框架初识安装如果没记错，python 3.6 及以上版本可以直接用 pip install scrapy.但具体是从哪个版本开始可以这样我也不是很清楚，因为我使用的 python 3.95，所以我是直接用pip安装的。也正因为

2022-11-22 爬虫

python 爬虫 scrapy