scrapy开始使用scrapy


备注

本节概述了scrapy是什么,以及开发人员为什么要使用它。

它还应该提到scrapy中的任何大型主题,并链接到相关主题。由于scrapy的文档是新的,您可能需要创建这些相关主题的初始版本。

版本

发布日期
1.1.2 2016年8月18日

创建一个项目

在开始使用scrapy之前,您必须启动一个要存储代码的项目。输入目录并运行此代码

scrapy startproject helloProject
 

该代码的第三部分是项目名称。此代码将创建一个“helloProject”目录,其中包含以下内容:

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py
 

安装Scrapy

scrapy安装的先决条件:

  • Python 2.7或以上3.3
  • pip和setuptools Python包。
  • LXML
  • OpenSSL的。

您可以使用pip安装Scrapy。要使用pip run安装:

pip install Scrapy
 

平台特定安装


蟒蛇

这是安装Scrapy的推荐方法。

如果您已经安装了Anaconda或Miniconda,Scrapinghub公司将维护适用于Linux,Windows和OS X的官方conda软件包。

要使用conda安装Scrapy,请运行:

conda install -c scrapinghub scrapy
 

Ubuntu 9.10或以上

使用官方Ubuntu软件包 ,它已经为您解决了所有依赖项,并不断更新最新的错误修复程序。

如果您更喜欢在本地构建python依赖项而不是依赖于系统包,则首先需要安装所需的非python依赖项:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
 

你可以用pip 安装Scrapy:

pip install Scrapy
 

的Archlinux

您可以按照通用说明或从AUR Scrapy包安装Scrapy:

yaourt -S scrapy
 

视窗

Windows上尚不支持使用Python 3进行Scrapy。

按照以下步骤在Windows上安装scrapy:

  • 安装Python 2.7

  • 调整PATH环境变量以包括Python可执行文件和其他脚本的路径。需要将以下路径添加到PATH:

    C:\ Python27; C:\ Python27 \脚本;

  • 这里安装pywin32

  • 让我们安装Scrapy:

     pip install Scrapy
     

Mac OS X.

构建Scrapy的依赖项需要存在C编译器和开发头。在OS X上,这通常由Apple的Xcode开发工具提供。要安装Xcode命令行工具,请打开终端窗口并运行:

xcode-select --install
 

有一个已知的问题阻止了pip 更新系统包。必须解决这个问题才能成功安装Scrapy及其依赖项。以下是一些建议的解决方案

  • (推荐)不要使用系统python,安装一个不与系统其他部分冲突的新版本。以下是使用自制软件包管理器的方法:

    • 按照http://brew.sh/中的说明安装自制软件

    • 更新您的PATH 变量以声明应该在系统包之前使用自制软件包(如果您使用zsh作为默认shell,则将.bashrc 更改为.zshrc ):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
       
    • 重新加载.bashrc 以确保发生了更改:

      source ~/.bashrc
       
    • 安装python:

      brew install python
       
    • 蟒蛇的最新版本的pip 与他们捆绑在一起,所以你不需要单独安装。如果不是这样,请升级python:

      brew update; brew upgrade python
       
  • (可选)在隔离的python环境中安装Scrapy。

    此方法是上述OS X问题的解决方法,但它是管理依赖关系的总体良好实践,可以补充第一种方法。

    virtualenv是一个可以用来在python中创建虚拟环境的工具。我们建议您阅读http://docs.python-guide.org/en/latest/dev/virtualenvs/等教程,以便开始使用。

在完成任何这些变通办法之后,您应该能够安装Scrapy:

pip install Scrapy