Python LanguageWeb raspado con Python


Introducción

El raspado web es un proceso automatizado y programático a través del cual los datos se pueden " raspar " constantemente de las páginas web. También conocido como raspado de pantalla o recolección web, el raspado web puede proporcionar datos instantáneos desde cualquier página web de acceso público. En algunos sitios web, el raspado web puede ser ilegal.

Observaciones

Paquetes de Python útiles para raspado web (orden alfabético)

Realización de solicitudes y recogida de datos.

requests

Un paquete simple, pero poderoso para hacer peticiones HTTP.

requests-cache

Caché para requests ; almacenar datos en caché es muy útil. En desarrollo, significa que puede evitar golpear un sitio innecesariamente. Mientras ejecuta una colección real, significa que si su raspador se bloquea por algún motivo (tal vez no haya manejado algún contenido inusual en el sitio ... ¿Tal vez el sitio se haya caído ...?) Puede repetir la colección muy rápidamente de donde lo dejaste.

scrapy

Útil para crear rastreadores web, donde necesita algo más potente que usar requests e iterar a través de páginas.

selenium

Enlaces Python para Selenium WebDriver, para la automatización del navegador. El uso de requests para realizar solicitudes HTTP directamente es a menudo más sencillo para recuperar páginas web. Sin embargo, esto sigue siendo una herramienta útil cuando no es posible replicar el comportamiento deseado de un sitio usando solo las requests , particularmente cuando se requiere JavaScript para representar elementos en una página.

Análisis de HTML

BeautifulSoup

Consulte documentos HTML y XML, utilizando varios analizadores diferentes (el analizador HTML incorporado de Python, html5lib , lxml o lxml.html )

lxml

Procesos HTML y XML. Puede usarse para consultar y seleccionar contenido de documentos HTML a través de selectores de CSS y XPath.

Web raspado con Python Ejemplos relacionados