嘘~ 正在从服务器偷取页面 . . .

行百里者半九十——scrapy 框架(2)


scrapy 持久化存储(以糗事百科为例)

前言

不知道大家还记得爬虫万能的三步骤吗?没错,那就是指定URL,发送请求,持久化保存数据。

我们前面在 scrapy框架(1)中简单了解了使用 scrapy 指定URL和发送请求,那么我们又要怎么使用 scrapy 实现数据的持久化存储呢?

scrapy 框架实现数据持久化存储的方法有两种,一种是基于终端命令的持久化存储;一种是基于管道的持久化存储。

基于终端指令的持久化存储

首先我们先创建相应的 scrapy 文件,用我们学过的方法完成指定URL和请求发送的步骤。

相关步骤如下

scrapy 指定URL,发送指令的文件和代码如下:

配置文件 setting.py


主代码 saveData.py

import scrapy


class SavedataSpider(scrapy.Spider):
    name = 'saveData'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract() # 返回一个列表
        # print(author_list)

        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i+1)
            content = response.xpath(path).extract()
            content = "".join(content)
            # print(content)

        pass

接下就是基于终端指令的持久化存储了

基于终端指令的持久化存储:
    —— 要求:只可以将 parse 方法中的返回值存储到本地的文本文件中
    —— 注意:持久化存储的文本文件的类型只能是“json”,“jsonlines”,“jl”,“csv”,“xml”
    —— 指令:scrapy crawl xxx -o filePath
    —— 好处:简洁高效便捷
    —— 缺点:局限性比较强(数据只可以存储到指定后缀的文本文件中)

相关文件代码如下:

相关文件items.py(其实自己加的代码并不多)

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class QiushiItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()
    pass

主代码saveData.py

import scrapy


class SavedataSpider(scrapy.Spider):
    name = 'saveData'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract() # 返回一个列表
        # print(author_list)
        all_data = []
        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i+1)
            content = response.xpath(path).extract()
            content = "".join(content)
            author = author_list[i]
            # print(content)
            data = {
                "author": author,
                "content": content
            }

            all_data.append(data)

        return all_data

终端指令

运行结果

基于管道的持久化存储

我们可以发现基于终端指令的局限性其实很大,所以我们通常不使用基于终端命令的方法进行数据的持久化存储。那么就是基于管道的持久化存储了。

前期工作和基于终端的持久化存储一样。只是在配置文件要做出一点改变。

其中items.py不需要改变。配置文件settings.py基本不变,只需要打开管道就行

先是管道文件 pipelines.py 的代码

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class QiushiPipeline:
    fp = None

    def open_spider(self, spider): # 打开爬虫,函数名一定要是这个。只被调用一次
        print("开始爬虫……")
        self.fp = open("数据.txt", "a", encoding = "utf-8")

    def process_item(self, item, spider): # 每传入一个参数,就调用一次
        author = item["author"]
        content = item["content"]

        self.fp.write("作者:" + author + "\n")
        self.fp.write("内容:" + content + "\n" + "\n")

        return item

    def close_spider(self, spider):
        print("爬虫结束!!!")
        self.fp.close()

然后是主代码 saveDate.py

import scrapy
from qiushi.items import QiushiItem # 导入 items.py 文件中函数

class SavedateSpider(scrapy.Spider):
    name = 'saveDate'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        # xpath 解析。作者的列表
        author_list = response.xpath('//div[@class="col1 old-style-col1"]/div/div[1]/a[1]/img/@alt').extract()  # 返回一个列表
        # print(author_list)
        item = QiushiItem()
        for i in range(len(author_list)):
            path = '//div[@class="col1 old-style-col1"]/div[%s]/a[1]/div/span//text()' % str(i + 1)
            content = response.xpath(path).extract()
            content = "".join(content)
            author = author_list[i]

            item["author"] = author
            item["content"] = content

            yield item

我们试着运行一下代码,结果如下:



文章作者: New Ass
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 New Ass !
  目录