Python LanguagePythonによるWebスクレイピング


前書き

Webスクレイピングは自動化されたプログラム的なプロセスで、データをウェブページから絶えず「掻き取る」ことができます。スクリーンスクレイピングまたはウェブ収穫とも呼ばれるウェブスクレイピングは、一般にアクセス可能なウェブページからインスタントデータを提供することができます。一部のウェブサイトでは、ウェブのスクレイピングが違法かもしれません。

備考

Webスクレイピング(アルファベット順)に役立つPythonパッケージ

リクエストの作成とデータの収集

requests

HTTPリクエストを作成するための単純で強力なパッケージです。

requests-cache

requestsキャッシュ。キャッシュデータは非常に便利です。開発中は、不必要にサイトにヒットすることを避けることができます。本当のコレクションを実行している間に、あなたのスクレーパーが何らかの理由でクラッシュした場合(おそらく、サイト上の珍しいコンテンツを処理していないかもしれません...おそらくサイトがダウンしたのでしょうか?)、コレクションをすばやく繰り返すことができますあなたが中断したところから。

scrapy

Webクローラーを構築するのに便利です。 requestsを使用してページを反復するよりも強力なものが必要です。

selenium

ブラウザ自動化のためのSelenium WebDriver用のPythonバインディング。 requestsを使用してHTTPリクエストを直接作成することは、ウェブページを取得するためにしばしば簡単です。しかし、 requests単独で使用してサイトの望ましい振る舞いを再現することができない場合、特にJavaScriptがページ上の要素をレンダリングする必要がある場合は、これは便利なツールです。

HTML解析

BeautifulSoup

さまざまなパーサー(Pythonの組み込みHTMLパーサ、 html5liblxmlまたはlxml.html )を使用して、HTMLおよびXMLドキュメントをクエリします。

lxml

HTMLとXMLを処理します。 CSSセレクタとXPathを使用して、HTMLドキュメントからコンテンツをクエリして選択するために使用できます。

PythonによるWebスクレイピング 関連する例