scrapy 持久化存储（以糗事百科为例）

前言

不知道大家还记得爬虫万能的三步骤吗？没错，那就是指定URL，发送请求，持久化保存数据。

我们前面在 scrapy框架（1）中简单了解了使用 scrapy 指定URL和发送请求，那么我们又要怎么使用 scrapy 实现数据的持久化存储呢？

scrapy 框架实现数据持久化存储的方法有两种，一种是基于终端命令的持久化存储；一种是基于管道的持久化存储。

基于终端指令的持久化存储

首先我们先创建相应的 scrapy 文件，用我们学过的方法完成指定URL和请求发送的步骤。

相关步骤如下

scrapy 指定URL，发送指令的文件和代码如下：

配置文件 setting.py

主代码 saveData.py

import scrapy


class SavedataSpider(scrapy.Spider):
    name = 'saveData'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract() # 返回一个列表
        # print(author_list)

        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i+1)
            content = response.xpath(path).extract()
            content = "".join(content)
            # print(content)

        pass

接下就是基于终端指令的持久化存储了

基于终端指令的持久化存储：
    —— 要求：只可以将 parse 方法中的返回值存储到本地的文本文件中
    —— 注意：持久化存储的文本文件的类型只能是“json”，“jsonlines”，“jl”，“csv”，“xml”
    —— 指令：scrapy crawl xxx -o filePath
    —— 好处：简洁高效便捷
    —— 缺点：局限性比较强（数据只可以存储到指定后缀的文本文件中）

相关文件代码如下：

相关文件items.py（其实自己加的代码并不多）

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class QiushiItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()
    pass

主代码saveData.py

import scrapy


class SavedataSpider(scrapy.Spider):
    name = 'saveData'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract() # 返回一个列表
        # print(author_list)
        all_data = []
        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i+1)
            content = response.xpath(path).extract()
            content = "".join(content)
            author = author_list[i]
            # print(content)
            data = {
                "author": author,
                "content": content
            }

            all_data.append(data)

        return all_data

终端指令

运行结果

基于管道的持久化存储

我们可以发现基于终端指令的局限性其实很大，所以我们通常不使用基于终端命令的方法进行数据的持久化存储。那么就是基于管道的持久化存储了。

前期工作和基于终端的持久化存储一样。只是在配置文件要做出一点改变。

其中items.py不需要改变。配置文件settings.py基本不变，只需要打开管道就行

先是管道文件 pipelines.py 的代码

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class QiushiPipeline:
    fp = None

    def open_spider(self, spider): # 打开爬虫，函数名一定要是这个。只被调用一次
        print("开始爬虫……")
        self.fp = open("数据.txt", "a", encoding = "utf-8")

    def process_item(self, item, spider): # 每传入一个参数，就调用一次
        author = item["author"]
        content = item["content"]

        self.fp.write("作者：" + author + "\n")
        self.fp.write("内容：" + content + "\n" + "\n")

        return item

    def close_spider(self, spider):
        print("爬虫结束！！！")
        self.fp.close()

然后是主代码 saveDate.py

import scrapy
from qiushi.items import QiushiItem # 导入 items.py 文件中函数

class SavedateSpider(scrapy.Spider):
    name = 'saveDate'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract()  # 返回一个列表
        # print(author_list)
        item = QiushiItem()
        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i + 1)
            content = response.xpath(path).extract()
            content = "".join(content)
            author = author_list[i]

            item["author"] = author
            item["content"] = content

            yield item