Python LanguageRaspare Web con Python


introduzione

Lo scraping Web è un processo programmatico automatizzato attraverso il quale i dati possono essere costantemente "raschiati" fuori dalle pagine Web. Conosciuto anche come screen scraping o web harvesting, il web scraping può fornire dati istantanei da qualsiasi pagina web accessibile al pubblico. Su alcuni siti Web, il web scraping potrebbe essere illegale.

Osservazioni

Utili pacchetti Python per lo scraping web (in ordine alfabetico)

Fare richieste e raccogliere dati

requests

Un semplice ma potente pacchetto per fare richieste HTTP.

requests-cache

Memorizzazione nella cache delle requests ; i dati di memorizzazione nella cache sono molto utili. In fase di sviluppo, significa che puoi evitare di colpire un sito inutilmente. Quando si esegue una vera raccolta, significa che se il tuo raschietto si blocca per qualche motivo (forse non hai gestito alcuni contenuti insoliti sul sito ...? Forse il sito è andato giù ...?) Puoi ripetere la raccolta molto velocemente da dove eri rimasto.

scrapy

Utile per creare web crawler, dove è necessario qualcosa di più potente dell'uso di requests e iterazione attraverso le pagine.

selenium

Collegamenti Python per Selenium WebDriver, per l'automazione del browser. L'utilizzo delle requests per effettuare direttamente richieste HTTP è spesso più semplice per il recupero di pagine Web. Tuttavia, questo rimane uno strumento utile quando non è possibile replicare il comportamento desiderato di un sito utilizzando solo le requests , in particolare quando è richiesto JavaScript per il rendering di elementi in una pagina.

Analisi HTML

BeautifulSoup

Interrogare i documenti HTML e XML, utilizzando un numero di parser diversi (Parser HTML incorporato di Python, html5lib , lxml o lxml.html )

lxml

Elabora HTML e XML. Può essere usato per interrogare e selezionare il contenuto da documenti HTML tramite selettori CSS e XPath.

Raspare Web con Python Esempi correlati