Looking for python Keywords? Try Ask4Keywords

Python LanguageWeb grattant avec Python


Introduction

Le Web scraping est un processus automatisé et programmé grâce auquel les données peuvent être constamment «grattées» sur les pages Web. Également connu sous le nom de récupération d'écran ou de collecte Web, le balayage Web peut fournir des données instantanées à partir de n'importe quelle page Web accessible au public. Sur certains sites Web, le raclage Web peut être illégal.

Remarques

Paquets Python utiles pour le web scraping (ordre alphabétique)

Faire des demandes et collecter des données

requests

Un package simple mais puissant pour faire des requêtes HTTP.

requests-cache

Mise en cache pour les requests ; la mise en cache des données est très utile. En développement, cela signifie que vous pouvez éviter de frapper un site inutilement. Lorsque vous exécutez une collection réelle, cela signifie que si votre racloir plante pour une raison quelconque (vous n'avez peut-être pas manipulé de contenu inhabituel sur le site ...? Peut-être que le site est tombé ...?) D'où tu t'es arrêté.

scrapy

Utile pour créer des robots d'indexation sur le Web, où vous avez besoin de quelque chose de plus puissant que l'utilisation de requests et l'itération de pages.

selenium

Liaisons Python pour Selenium WebDriver, pour l'automatisation des navigateurs. L'utilisation de requests pour effectuer directement des requêtes HTTP est souvent plus simple pour récupérer des pages Web. Cependant, cela reste un outil utile lorsqu'il n'est pas possible de reproduire le comportement souhaité d'un site à l'aide de requests uniquement, en particulier lorsque JavaScript est requis pour rendre des éléments sur une page.

Analyse HTML

BeautifulSoup

Requête de documents HTML et XML à l'aide de plusieurs analyseurs (analyseur HTML intégré à Python, html5lib , lxml ou lxml.html )

lxml

Traite HTML et XML. Peut être utilisé pour interroger et sélectionner du contenu à partir de documents HTML via des sélecteurs CSS et XPath.

Web grattant avec Python Exemples Liés