scrapy 框架初识

安装

如果没记错，python 3.6 及以上版本可以直接用 pip install scrapy.但具体是从哪个版本开始可以这样我也不是很清楚，因为我使用的 python 3.95，所以我是直接用pip安装的。也正因为如此，对于下载whl格式的包安装我是不太清楚的，所以不提。

认识

scrapy 安装成功后，我们来创建项目框架。

打开终端。cmd 或者从 pycharm 中打开终端。我以 pycharm 为例。

首先，进入到相应的目录

创建项目框架文件夹

scrapy startproject projectName

在进入刚创建的文件夹，创建新的执行文件

scrapy genspider fileName www.xxxx.com

然后我们打开我们创建的项目框架

其中 Blood.py是主代码文件，items.py 是跟保存有关的文件，middlewares.py是中间件，pipelines.py是管道文件，settings.py是配置文件。这些以后会讲到的，暂且不提。

如果要执行代码，终端的命令是scrapy crawl fileName
在这个案例里，就是scrapy crawl Blood

简单的代码实现

先打开 Blood.py文件
其中代码如下：

我圈起来的部分是允许爬虫爬取的网站的域名，而下面的列表是待爬取的网址。这就是说，如果待爬取的网址不属于我圈起来的域名，这些网址就不会被爬取。所以一般来说，我们直接是将这一行代码注释掉。

然后我们试着爬取百度首页。

首先代码如下:

import scrapy


class BloodSpider(scrapy.Spider):
    name = 'Blood'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        print(response.url) # 打印爬取的网址
        pass