Looking for scrapy Answers? Try Ask4KnowledgeBase
Looking for scrapy Keywords? Try Ask4Keywords

scrapyEmpezando con scrapy


Observaciones

Esta sección proporciona una descripción general de qué es scrapy y por qué un desarrollador puede querer usarlo.

También debe mencionar cualquier tema grande dentro de scrapy, y vincular a los temas relacionados. Dado que la Documentación para scrapy es nueva, es posible que deba crear versiones iniciales de los temas relacionados.

Versiones

Versión Fecha de lanzamiento
1.1.2 2016-08-18

Creando un proyecto

Antes de comenzar a trabajar con scrapy, debe iniciar un proyecto en el que desea almacenar su código. Ingrese al directorio y ejecute este código

scrapy startproject helloProject
 

La tercera parte de este código es el nombre del proyecto. Este código creará un directorio "helloProject" con el siguiente contenido:

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py
 

Instalación de Scrapy

Requisito previo de la instalación de desguace:

  • Python 2.7 o superior 3.3
  • pip y setuptools paquetes de Python.
  • lxml
  • OpenSSL.

Puedes instalar Scrapy usando pip. Para instalar usando pip run:

pip install Scrapy
 

Instalación específica de la plataforma


Anaconda

Esta es la forma recomendada para instalar Scrapy.

Si ya tiene instalado Anaconda o Miniconda, la compañía Scrapinghub mantiene paquetes oficiales de conda para Linux, Windows y OS X.

Para instalar Scrapy usando conda, ejecute:

conda install -c scrapinghub scrapy
 

Ubuntu 9.10 o superior

Utilice los paquetes oficiales de Ubuntu , que ya resuelven todas las dependencias y se actualizan continuamente con las últimas correcciones de errores.

Si prefiere crear las dependencias de python localmente en lugar de confiar en los paquetes del sistema, primero deberá instalar las dependencias que no sean de python que se requieren:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
 

Puedes instalar Scrapy con pip después de eso:

pip install Scrapy
 

Archlinux

Puede seguir las instrucciones genéricas o instalar Scrapy desde el paquete AUR Scrapy:

yaourt -S scrapy
 

Windows

Scrapy with Python 3 aún no es compatible con Windows.

Siga estos pasos para instalar scrapy en windows:

  • Instala Python 2.7

  • ajuste la variable de entorno PATH para incluir rutas al ejecutable de Python y scripts adicionales. Las siguientes rutas deben agregarse a PATH:

    C: \ Python27; C: \ Python27 \ Scripts;

  • Instala pywin32 desde aquí

  • Instalemos Scrapy:

     pip install Scrapy
     

Mac OS X

La construcción de las dependencias de Scrapy requiere la presencia de un compilador de C y encabezados de desarrollo. En OS X, esto suele ser proporcionado por las herramientas de desarrollo Xcode de Apple. Para instalar las herramientas de línea de comandos de Xcode, abra una ventana de terminal y ejecute:

xcode-select --install
 

Hay un problema conocido que evita que pip actualice los paquetes del sistema. Esto debe abordarse para instalar con éxito Scrapy y sus dependencias. Aquí hay algunas soluciones propuestas:

  • (Recomendado) No use python del sistema, instale una versión nueva y actualizada que no entre en conflicto con el resto de su sistema. Aquí se explica cómo hacerlo utilizando el gestor de paquetes homebrew:

    • Instale homebrew siguiendo las instrucciones en http://brew.sh/

    • Actualice su variable PATH para indicar que los paquetes homebrew deben usarse antes que los paquetes del sistema (cambie .bashrc a .zshrc acorde si está usando zsh como shell predeterminado):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
       
    • .bashrc a cargar .bashrc para asegurarse de que los cambios hayan tenido lugar:

      source ~/.bashrc
       
    • Instala python:

      brew install python
       
    • Las últimas versiones de Python han pip liado con ellos por lo que no tendrá que instalarlo por separado. Si este no es el caso, actualiza python:

      brew update; brew upgrade python
       
  • (Opcional) Instale Scrapy dentro de un entorno Python aislado.

    Este método es una solución para el problema OS X anterior, pero es una buena práctica general para administrar dependencias y puede complementar el primer método.

    virtualenv es una herramienta que puede utilizar para crear entornos virtuales en Python. Recomendamos leer un tutorial como http://docs.python-guide.org/en/latest/dev/virtualenvs/ para comenzar.

Después de cualquiera de estas soluciones, deberías poder instalar Scrapy:

pip install Scrapy