scrapyAan de slag met scrapy


Opmerkingen

Deze sectie geeft een overzicht van wat scrapy is en waarom een ontwikkelaar het misschien wil gebruiken.

Het moet ook alle grote onderwerpen binnen scrapy vermelden en een link naar de gerelateerde onderwerpen bevatten. Omdat de documentatie voor scrapy nieuw is, moet u mogelijk eerste versies van die gerelateerde onderwerpen maken.

versies

Versie Publicatiedatum
1.1.2 2016/08/18

Een project maken

Voordat u met scrapy begint te werken, moet u een project starten waarin u uw code wilt opslaan. Voer de map in en voer deze code uit

scrapy startproject helloProject
 

Het derde deel van deze code is de projectnaam. Deze code maakt een "helloProject" -map met de volgende inhoud:

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py
 

Installatie van Scrapy

voorwaarde voor scrapy installatie:

  • Python 2.7 of hoger 3.3
  • pip en setuptools Python-pakketten.
  • lxml
  • OpenSSL.

U kunt Scrapy installeren met pip. Installeren met behulp van pip run:

pip install Scrapy
 

Platformspecifieke installatie


Anaconda

Dit is de aanbevolen manier om Scrapy te installeren.

Als je Anaconda of Miniconda al hebt geïnstalleerd, onderhoudt het bedrijf Scrapinghub officiële conda-pakketten voor Linux, Windows en OS X.

Voer de volgende stappen uit om Scrapy te installeren met behulp van conda:

conda install -c scrapinghub scrapy
 

Ubuntu 9.10 of hoger

Gebruik de officiële Ubuntu-pakketten , die alle afhankelijkheden voor u al oplossen en continu worden bijgewerkt met de nieuwste bugfixes.

Als u liever de python-afhankelijkheden lokaal bouwt in plaats van te vertrouwen op systeempakketten, moet u eerst de vereiste niet-python-afhankelijkheden installeren:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
 

Daarna kunt u Scrapy met pip installeren:

pip install Scrapy
 

archlinux

Volg de generieke instructies of installeer Scrapy uit het AUR Scrapy-pakket:

yaourt -S scrapy
 

ramen

Scrapy with Python 3 wordt nog niet ondersteund op Windows.

Volg deze stappen om scrapy op Windows te installeren:

  • Installeer Python 2.7

  • pas de omgevingsvariabele PATH aan om paden naar het uitvoerbare Python en extra scripts op te nemen. De volgende paden moeten worden toegevoegd aan PATH:

    C: \ Python27; C: \ Python27 \ Scripts;

  • Installeer pywin32 vanaf hier

  • laten we Scrapy installeren:

     pip install Scrapy
     

Mac OS X

Het opbouwen van de afhankelijkheden van Scrapy vereist de aanwezigheid van een C-compiler en ontwikkelkoppen. Op OS X wordt dit meestal geleverd door Apple's Xcode-ontwikkelingstools. Om de Xcode-opdrachtregelprogramma's te installeren, opent u een terminalvenster en voert u het volgende uit:

xcode-select --install
 

Er is een bekend probleem dat voorkomt dat pip systeempakketten bijwerkt. Dit moet worden aangepakt om Scrapy en zijn afhankelijkheden met succes te installeren. Hier zijn enkele voorgestelde oplossingen:

  • (Aanbevolen) Gebruik geen systeempython, installeer een nieuwe, bijgewerkte versie die niet conflicteert met de rest van uw systeem. Hier is hoe het te doen met behulp van de homebrew-pakketbeheerder:

    • Installeer homebrew volgens de instructies in http://brew.sh/

    • Werk uw PATH variabele bij om aan te geven dat homebrew-pakketten vóór systeempakketten moeten worden gebruikt (verander .bashrc in .zshrc als u zsh als standaardshell gebruikt):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
       
    • Laad .bashrc om ervoor te zorgen dat de wijzigingen hebben plaatsgevonden:

      source ~/.bashrc
       
    • Python installeren:

      brew install python
       
    • Bij de nieuwste versies van python zijn pip meegeleverd, zodat u deze niet afzonderlijk hoeft te installeren. Als dit niet het geval is, upgrade je python:

      brew update; brew upgrade python
       
  • (Optioneel) Installeer Scrapy in een geïsoleerde python-omgeving.

    Deze methode is een oplossing voor het bovenstaande OS X-probleem, maar het is een algemene goede praktijk voor het beheren van afhankelijkheden en kan een aanvulling zijn op de eerste methode.

    virtualenv is een hulpmiddel dat u kunt gebruiken om virtuele omgevingen in python te maken. We raden aan om een tutorial te lezen zoals http://docs.python-guide.org/en/latest/dev/virtualenvs/ om aan de slag te gaan.

Na een van deze oplossingen moet u Scrapy kunnen installeren:

pip install Scrapy