google-bigqueryInizia con google-bigquery


Osservazioni

Questa sezione fornisce una panoramica di cosa sia google-bigquery e perché uno sviluppatore potrebbe volerlo utilizzare.

Dovrebbe anche menzionare qualsiasi argomento di grandi dimensioni all'interno di google-bigquery e collegarsi agli argomenti correlati. Poiché la documentazione di google-bigquery è nuova, potrebbe essere necessario creare versioni iniziali di tali argomenti correlati.

Analizzando 50 miliardi di visualizzazioni di pagina in Wikipedia in 5 secondi (tutorial per principianti su BigQuery)

Ciao a tutti! Questa è una demo che amo correre per le persone che iniziano con BigQuery. Così corriamo alcune semplici domande per iniziare.

Impostare

Avrai bisogno di un progetto Google Cloud:

  1. Vai a http://bigquery.cloud.google.com/ .
  2. Se ti dice di creare un progetto, segui il link per creare un progetto e crea un progetto.
  3. Torna su http://bigquery.cloud.google.com/ .

Gli appunti:

  • Non hai bisogno di una carta di credito. Ognuno riceve 1 TB gratuito per l'analisi ogni mese.
  • Tariffe BigQuery per query. Prima di eseguire una query sarai in grado di vedere quanto costa ogni query.

Cerchiamo

  1. Trova le visualizzazioni di pagina per maggio 2015 all'indirizzo https://bigquery.cloud.google.com/table/fh-bigquery:wikipedia.pagecounts_201505

Nota : Google protegge i tuoi dati con i più elevati standard di sicurezza (PCI, ISO, HIPAA, SOC, ecc.), Ma è anche facile condividere i dati se lo desideri, come ho fatto qui. https://cloud.google.com/security/

  1. Questa tabella ha 5 colonne: datehour richieste di titoli linguistici content_size . Fondamentalmente dicono "questa pagina di wikipedia in questa lingua ha avuto molte richieste a quest'ora".

  2. Questa tabella ha quasi 6 miliardi di righe (379 GB di dati).

  3. Per scoprire quante visualizzazioni di pagina hanno avuto Wikipedia nel mese di maggio, puoi sommare tutte le 6 miliardi di righe di richieste:

     SELECT SUM(requests) 
     FROM [fh-bigquery:wikipedia.pagecounts_201505]
     
  4. Hai notato quanto è stato veloce? (Passati 1,8 secondi, 43,1 GB elaborati per me)

  5. Facciamo qualcosa di più complesso. Eseguiamo un'espressione regolare su questi 6 miliardi di righe. Quanto potrebbe essere veloce?

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201505] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100     
     
  6. Quanto è stato veloce per te? Hai trovato Reddit nei risultati?

Analisi dei costi

  1. Quest'ultima query ha elaborato 269 GB: più di un quarto del terabyte mensile gratuito. Perché?

  2. BigQuery esamina le colonne che elaborate sulla vostra query. 'title' è una grande colonna - contiene testo. La colonna "richieste" è solo 43,1 GB.

  3. Per far durare il terabyte gratuito, estrai i dati in tabelle più piccole. Ad esempio, ho una tabella con solo le prime 65.000 pagine di pagine di Wikipedia in inglese . La stessa query elabora solo 1,18 GB: è possibile eseguire quasi un migliaio di questi gratuitamente per un mese.

     SELECT SUM(requests) req, title
     FROM [fh-bigquery:wikipedia.pagecounts_201408_en_top65k] 
     WHERE REGEXP_MATCH(title, 'Red.*t')
     GROUP BY title
     ORDER BY req DESC
     LIMIT 100 
     
  4. Non è possibile creare tabelle con il terabyte mensile gratuito: è solo per analisi. Attiva i $ 300 gratuiti per i nuovi account Google Cloud Platform o chiedi a me di fare un estratto per te. Sarò felice di farlo.

Caricamento dei dati in BigQuery

Per caricare i dati in BigQuery, dovrai attivare la fatturazione per il tuo progetto: provalo con $ 300 gratuiti per i nuovi account.

  1. Creare un set di dati nel progetto per caricare i dati su: https://i.imgur.com/FRClJ3K.jpg .

  2. Trova i log non elaborati condivisi da Wikipedia su https://dumps.wikimedia.org/other/pagecounts-raw/

  3. wget uno di questi file nel tuo computer, come https://dumps.wikimedia.org/other/pagecounts-raw/2015/2015-06/pagecounts-20150616-160000.gz

  4. Installa lo strumento 'bq'. https://cloud.google.com/bigquery/bq-command-line-tool

  5. Caricalo in BigQuery:

     bq load -F" " --quote "" YourProjectName:DatasetName.pagecounts_20150616_16 pagecounts-20150616-160000.gz language,title,requests:integer,content_size:integer
     
  6. Aspetta un paio di minuti. Mentre aspetti, lascia che ti spieghi questa riga: Questo non è un file CSV, è un file separato da spazi (-F "") che non usa virgolette (--quote ""), scegliamo una tabella di destinazione in un set di dati nel tuo progetto (ricordati di creare prima il set di dati), abbiamo scelto il file da caricare e definiamo le 4 colonne di questo file.

  7. Nota che BigQuery ingerisce felicemente file .gz, fino a una certa dimensione. Per i file di grandi dimensioni è meglio decomprimerli e inserirli prima in Google Cloud Storage. Questo è quello che ho fatto con i commenti di reddit che / u / Stuck_In_The_Matrix hanno compilato. Quei file erano grandi, ma BigQuery li ha ingeriti in 2 minuti circa.

Per saperne di più

Pronto per esempi più avanzati? Vedi come interrogare Reddit e come interrogare tutti i viaggi in taxi di New York .

Segui ancora di più!

Installazione o configurazione

Istruzioni dettagliate su come installare o installare google-bigquery.