Looking for scrapy Keywords? Try Ask4Keywords

scrapyErste Schritte mit Scrapie


Bemerkungen

In diesem Abschnitt erhalten Sie einen Überblick über das, was Scrapy ist und warum ein Entwickler es verwenden möchte.

Es sollte auch alle großen Themen innerhalb von Scrapy erwähnen und auf die verwandten Themen verweisen. Da die Dokumentation für Scrapy neu ist, müssen Sie möglicherweise erste Versionen dieser verwandten Themen erstellen.

Versionen

Ausführung Veröffentlichungsdatum
1.1.2 2016-08-18

Projekt erstellen

Bevor Sie mit scrapy arbeiten, müssen Sie ein Projekt starten, in dem Sie Ihren Code speichern möchten. Geben Sie das Verzeichnis ein und führen Sie diesen Code aus

scrapy startproject helloProject
 

Der dritte Teil dieses Codes ist der Projektname. Dieser Code erstellt ein Verzeichnis "helloProject" mit den folgenden Inhalten:

helloProject/
    scrapy.cfg            # deploy configuration file

    helloProject/         # project's Python module, you'll import your code from here
        __init__.py

        items.py          # project items file

        pipelines.py      # project pipelines file

        settings.py       # project settings file

        spiders/          # a directory where you'll later put your spiders
            __init__.py
 

Installation von Scrapy

Voraussetzung für die Schrottinstallation:

  • Python 2.7 oder höher 3.3
  • pip und setuptools Python-Pakete.
  • lxml
  • OpenSSL.

Sie können Scrapy mit pip installieren. Installation mit pip Run:

pip install Scrapy
 

Plattformspezifische Installation


Anakonda

Dies ist die empfohlene Methode zur Installation von Scrapy.

Wenn Sie Anaconda oder Miniconda bereits installiert haben, unterhält die Firma Scrapinghub offizielle Conda-Pakete für Linux, Windows und OS X.

Um Scrapy mit Conda zu installieren, führen Sie Folgendes aus:

conda install -c scrapinghub scrapy
 

Ubuntu 9.10 oder höher

Verwenden Sie die offiziellen Ubuntu-Pakete , die bereits alle Abhängigkeiten für Sie lösen und laufend mit den neuesten Bugfixes aktualisiert werden.

Wenn Sie es vorziehen, die Python-Abhängigkeiten lokal zu erstellen, anstatt sich auf Systempakete zu verlassen, müssen Sie zuerst die erforderlichen Nicht-Python-Abhängigkeiten installieren:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
 

Danach können Sie Scrapy mit pip installieren:

pip install Scrapy
 

Archlinux

Sie können den allgemeinen Anweisungen folgen oder Scrapy von AUR Scrapy-Paket installieren:

yaourt -S scrapy
 

Windows

Scrapy with Python 3 wird unter Windows noch nicht unterstützt.

Folgen Sie diesen Schritten, um Scrapy unter Windows zu installieren:

  • Installieren Sie Python 2.7

  • Passen Sie die Umgebungsvariable PATH an, um Pfade zur ausführbaren Python-Datei und weitere Skripts einzuschließen. Die folgenden Pfade müssen zu PATH hinzugefügt werden:

    C: \ Python27; C: \ Python27 \ Scripts;

  • Installieren Sie pywin32 von hier aus

  • lass uns Scrapy installieren:

     pip install Scrapy
     

Mac OS X

Das Erstellen von Abhängigkeiten für Scrapys erfordert das Vorhandensein eines C-Compilers und von Entwicklungsköpfen. Unter OS X wird dies normalerweise von Apples Xcode-Entwicklungstools bereitgestellt. Um die Xcode-Befehlszeilentools zu installieren, öffnen Sie ein Terminalfenster und führen Folgendes aus:

xcode-select --install
 

Es gibt ein bekanntes Problem , das verhindert, dass pip Systempakete aktualisiert. Dies muss angegangen werden, um Scrapy und seine Abhängigkeiten erfolgreich installieren zu können. Hier sind einige Lösungsvorschläge:

  • (Empfohlen) Verwenden Sie kein Systempython, installieren Sie eine neue, aktualisierte Version, die keinen Konflikt mit dem Rest Ihres Systems darstellt. So verwenden Sie den homebrew-Paketmanager:

    • Installieren Sie Homebrew gemäß den Anweisungen in http://brew.sh/.

    • Aktualisieren Sie Ihre PATH Variable, um .bashrc , dass Homebrew-Pakete vor Systempaketen verwendet werden sollen (Ändern Sie .bashrc in .zshrc entsprechend, wenn Sie zsh als Standardshell verwenden):

      echo "export PATH=/usr/local/bin:/usr/local/sbin:$PATH" >> ~/.bashrc
       
    • .bashrc , um .bashrc , dass die Änderungen stattgefunden haben:

      source ~/.bashrc
       
    • Python installieren:

      brew install python
       
    • In den neuesten Versionen von Python ist pip , sodass Sie es nicht separat installieren müssen. Wenn dies nicht der Fall ist, aktualisieren Sie Python:

      brew update; brew upgrade python
       
  • (Optional) Installieren Sie Scrapy in einer isolierten Python-Umgebung.

    Diese Methode ist eine Problemumgehung für das oben genannte OS X-Problem, ist jedoch eine allgemein bewährte Methode zum Verwalten von Abhängigkeiten und kann die erste Methode ergänzen.

    Mit virtualenv können Sie virtuelle Umgebungen in Python erstellen. Wir empfehlen, ein Tutorial wie http://docs.python-guide.org/de/latest/dev/virtualenvs/ zu lesen, um zu beginnen.

Nach einer dieser Problemumgehungen sollten Sie Scrapy installieren können:

pip install Scrapy