Looking for google-bigquery Keywords? Try Ask4Keywords

google-bigqueryErste Schritte mit Google-Bigquery


Bemerkungen

In diesem Abschnitt erhalten Sie einen Überblick darüber, was google-bigquery ist und warum ein Entwickler es verwenden möchte.

Es sollte auch alle großen Themen in Google-Bigquery erwähnen und auf die verwandten Themen verweisen. Da die Dokumentation für google-bigquery neu ist, müssen Sie möglicherweise erste Versionen dieser verwandten Themen erstellen.

Analysieren von 50 Milliarden Wikipedia-Seitenaufrufen in 5 Sekunden (BigQuery-Anfänger-Tutorial)

Hallo allerseits! Dies ist eine Demo, die ich gerne für Leute laufe, die mit BigQuery anfangen. Lassen Sie uns einige einfache Abfragen ausführen, um Ihnen den Einstieg zu erleichtern .

Konfiguration

Sie benötigen ein Google Cloud-Projekt:

  1. Rufen Sie http://bigquery.cloud.google.com/ auf .
  2. Wenn Sie aufgefordert werden, ein Projekt zu erstellen, folgen Sie dem Link, um ein Projekt zu erstellen, und erstellen Sie ein Projekt.
  3. Besuchen Sie http://bigquery.cloud.google.com/ .

Anmerkungen:

  • Sie benötigen keine Kreditkarte. Jeder bekommt ein kostenloses 1 TB für die Analyse jeden Monat.
  • BigQuery-Gebühren pro Abfrage. Bevor Sie eine Abfrage ausführen, können Sie sehen, wie viel jede Abfrage kostet.

Fragen wir ab

  1. Die Seitenzugriffe für Mai 2015 finden Sie unter https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Hinweis : Google schützt Ihre Daten mit den höchsten Sicherheitsstandards (PCI, ISO, HIPAA, SOC usw.), es ist jedoch auch einfach, Daten auszutauschen, wenn Sie dies wünschen - wie hier. https://cloud.google.com/security/

  1. Diese Tabelle enthält 5 Spalten: datehour language title fordert content_size an . Sie sagen im Grunde "diese Wikipedia-Seite in dieser Sprache hatte zu dieser Stunde so viele Anfragen".

  2. Diese Tabelle hat fast 6 Milliarden Zeilen (379 GB Daten).

  3. Um herauszufinden, wie viele Seitenzugriffe Wikipedia im Mai hatte, können Sie alle 6 Milliarden Zeilen von Anfragen zusammenfassen:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
     
  4. Hast du bemerkt, wie schnell das war? (1,8s vergangen, 43,1 GB für mich verarbeitet)

  5. Lass uns etwas komplexeres machen. Lassen Sie uns einen regulären Ausdruck über diese 6 Milliarden Zeilen ausführen. Wie schnell könnte das sein?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
     
  6. Wie schnell war es für dich? Haben Sie Reddit in den Ergebnissen gefunden?

Kostenanalyse

  1. Bei dieser letzten Abfrage wurden 269 GB verarbeitet: Mehr als ein Viertel des kostenlosen monatlichen Terabytes. Warum?

  2. BigQuery untersucht die Spalten, die Sie in Ihrer Abfrage verarbeiten. 'title' ist eine große Spalte - sie enthält Text. Die Spalte "Anforderungen" umfasst nur 43,1 GB.

  3. Extrahieren Sie die Daten in kleinere Tabellen, um Ihr kostenloses Terabyte zuletzt zu machen. Zum Beispiel habe ich eine Tabelle mit nur den ersten 65.000 Seitenaufrufen auf englischen Wikipedia-Seiten . Die gleiche Abfrage verarbeitet nur 1,18 GB - Sie können pro Monat fast 1000 davon kostenlos ausführen.

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
     
  4. Sie können keine Tabellen mit dem kostenlosen monatlichen Terabyte erstellen - es dient nur zur Analyse. Aktivieren Sie Ihre kostenlosen $ 300 für neue Google Cloud-Plattform-Konten oder fragen Sie mich, ob Sie einen Auszug für Sie machen möchten. Ich werde das gerne tun.

Daten in BigQuery laden

Um Daten in BigQuery zu laden, müssen Sie die Abrechnung für Ihr Projekt aktivieren - testen Sie es mit Ihren kostenlosen 300 € für neue Konten.

  1. Erstellen Sie in Ihrem Projekt ein Dataset, um die Daten zu laden: https://i.imgur.com/FRClJ3K.jpg .

  2. Die von Wikipedia freigegebenen Protokolle finden Sie unter https://dumps.wikimedia.org/other/pagecounts-raw/.

  3. wget eine dieser Dateien in Ihren Computer, z. B. https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. Installieren Sie das 'bq' Tool. https://cloud.google.com/bigquery/bq-command-line-tool

  5. Laden Sie es in BigQuery:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
     
  6. Warten Sie ein paar Minuten. Während Sie warten, lassen Sie mich die folgende Zeile erklären: Dies ist keine CSV-Datei, sondern eine durch Leerzeichen getrennte Datei (-F ""), die keine Anführungszeichen (--quote "") verwendet. Wir wählen eine Zieltabelle in einem Dataset aus In Ihrem Projekt (denken Sie daran, zuerst das Dataset zu erstellen), wählen Sie die zu ladende Datei aus und definieren die 4 Spalten, die diese Datei enthält.

  7. Beachten Sie, dass BigQuery bis zu einer bestimmten Größe glücklich GZ-Dateien aufnehmen kann. Bei sehr großen Dateien sollten Sie diese zuerst dekomprimieren und in Google Cloud Storage ablegen. Das habe ich mit den reddit-Kommentaren gemacht , die / u / Stuck_In_The_Matrix kompiliert hat. Diese Dateien waren groß, aber BigQuery nahm sie in etwa zwei Minuten auf.

Mehr erfahren

Bereit für fortgeschrittenere Beispiele? Erfahren Sie, wie Sie Reddit abfragen und wie Sie alle NYC-Taxifahrten abfragen .

Folge noch mehr!

Installation oder Setup

Detaillierte Anweisungen zum Einrichten oder Installieren von Google BigQuery.