Esta sección proporciona una descripción general de qué es scrapy y por qué un desarrollador puede querer usarlo.
También debe mencionar cualquier tema grande dentro de scrapy, y vincular a los temas relacionados. Dado que la Documentación para scrapy es nueva, es posible que deba crear versiones iniciales de los temas relacionados.
Versión | Fecha de lanzamiento |
---|---|
1.1.2 | 2016-08-18 |
Antes de comenzar a trabajar con scrapy, debe iniciar un proyecto en el que desea almacenar su código. Ingrese al directorio y ejecute este código
scrapy startproject helloProject
La tercera parte de este código es el nombre del proyecto. Este código creará un directorio "helloProject" con el siguiente contenido:
helloProject/
scrapy.cfg # deploy configuration file
helloProject/ # project's Python module, you'll import your code from here
__init__.py
items.py # project items file
pipelines.py # project pipelines file
settings.py # project settings file
spiders/ # a directory where you'll later put your spiders
__init__.py
Requisito previo de la instalación de desguace:
Puedes instalar Scrapy usando pip. Para instalar usando pip
run:
pip install Scrapy
Instalación específica de la plataforma
Anaconda
Esta es la forma recomendada para instalar Scrapy.
Si ya tiene instalado Anaconda o Miniconda, la compañía Scrapinghub mantiene paquetes oficiales de conda para Linux, Windows y OS X.
Para instalar Scrapy usando conda, ejecute:
conda install -c scrapinghub scrapy
Ubuntu 9.10 o superior
Utilice los paquetes oficiales de Ubuntu , que ya resuelven todas las dependencias y se actualizan continuamente con las últimas correcciones de errores.
Si prefiere crear las dependencias de python localmente en lugar de confiar en los paquetes del sistema, primero deberá instalar las dependencias que no sean de python que se requieren:
sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
Puedes instalar Scrapy con pip
después de eso:
pip install Scrapy
Archlinux
Puede seguir las instrucciones genéricas o instalar Scrapy desde el paquete AUR Scrapy:
yaourt -S scrapy
Windows
Scrapy with Python 3 aún no es compatible con Windows.
Siga estos pasos para instalar scrapy en windows:
Instala Python 2.7
ajuste la variable de entorno PATH para incluir rutas al ejecutable de Python y scripts adicionales. Las siguientes rutas deben agregarse a PATH:
C: \ Python27; C: \ Python27 \ Scripts;
Instala pywin32 desde aquí
Instalemos Scrapy:
pip install Scrapy
Mac OS X
La construcción de las dependencias de Scrapy requiere la presencia de un compilador de C y encabezados de desarrollo. En OS X, esto suele ser proporcionado por las herramientas de desarrollo Xcode de Apple. Para instalar las herramientas de línea de comandos de Xcode, abra una ventana de terminal y ejecute:
xcode-select --install
Hay un problema conocido que evita que pip
actualice los paquetes del sistema. Esto debe abordarse para instalar con éxito Scrapy y sus dependencias. Aquí hay algunas soluciones propuestas:
(Recomendado) No use python del sistema, instale una versión nueva y actualizada que no entre en conflicto con el resto de su sistema. Aquí se explica cómo hacerlo utilizando el gestor de paquetes homebrew:
Instale homebrew siguiendo las instrucciones en http://brew.sh/
Actualice su variable PATH
para indicar que los paquetes homebrew deben usarse antes que los paquetes del sistema (cambie .bashrc
a .zshrc
acorde si está usando zsh como shell predeterminado):
echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
.bashrc
a cargar .bashrc
para asegurarse de que los cambios hayan tenido lugar:
source ~/.bashrc
Instala python:
brew install python
Las últimas versiones de Python han pip
liado con ellos por lo que no tendrá que instalarlo por separado. Si este no es el caso, actualiza python:
brew update; brew upgrade python
(Opcional) Instale Scrapy dentro de un entorno Python aislado.
Este método es una solución para el problema OS X anterior, pero es una buena práctica general para administrar dependencias y puede complementar el primer método.
virtualenv es una herramienta que puede utilizar para crear entornos virtuales en Python. Recomendamos leer un tutorial como http://docs.python-guide.org/en/latest/dev/virtualenvs/ para comenzar.
Después de cualquiera de estas soluciones, deberías poder instalar Scrapy:
pip install Scrapy