BigQuery, la piattaforma di dati completamente gestita di Google Cloud, è una soluzione scalabile e conveniente per l'integrazione e l'analisi dei dati.
Panoramica
ELT (Extract, Load, Transform) è il modello consigliato da Google Cloud per l'integrazione dei dati. L'ELT prevede l'estrazione dei dati dagli ambienti di origine, il loro caricamento in BigQuery e la successiva trasformazione nel formato desiderato per l'analisi. A differenza dell'approccio ETL (Extract, Transform, Load), che prevede la trasformazione dei dati prima del loro caricamento in un data warehouse, l'approccio ELT consente di sfruttare tutta la potenza di BigQuery per eseguire le trasformazioni dei dati e consente a qualsiasi utente SQL di sviluppare in modo efficace pipeline di integrazione dei dati.
L'approccio ELT accelera il time to market offrendo un framework familiare e incentrato sui dati che riduce al minimo la curva di apprendimento. ELT elimina anche la necessità di un'infrastruttura ETL separata, riducendo i costi associati alla trasformazione dei dati prima del caricamento.
L'architettura di BigQuery consente una scalabilità e un'elaborazione parallela massicce, consentendo una gestione efficiente di set di dati di grandi dimensioni e trasformazioni complesse. ELT semplifica la governance dei dati centralizzandoli in BigQuery, consentendo una qualità dei dati coerente e policy di sicurezza integrate nella piattaforma.
BigQuery supporta vari formati e origini dati, tra cui Apache Iceberg, che offre flessibilità nell'integrazione di diversi dati. Oltre alla scelta dei dati, c'è anche flessibilità nella scelta della lingua. Un vantaggio principale di ELT è che SQL si adatta a un certo numero di pipeline SDLC.
Porta i dati in BigQuery
Porta i dati in BigQuery | Il percorso di integrazione dei dati di BigQuery con ELT. |
---|---|
Fase | Soluzione |
Estrai e carica | Caricamento collettivo: BigQuery Data Transfer Service (DTS) automatizza il caricamento collettivo dei dati dalle origini dati supportate in BigQuery. Carico in modalità flusso: le sottoscrizioni Pub/Sub a BigQuery scrivono i messaggi Pub/Sub in una tabella BigQuery esistente non appena vengono ricevuti. Change Data Capture (CDC): Datastream consente Change Data Capture (CDC) non intrusivo dai database a BigQuery. Federazione a origini dati esterne: BigQuery supporta la federazione a un certo numero di origini dati esterne che non richiedono il trasferimento dei dati. |
Trasforma | Le funzionalità di trasformazione di BigQuery sono create con Dataform, uno strumento per creare, testare e documentare in modo collaborativo la trasformazione dei dati SQL con il DML (Data Manipulation Language) di BigQuery. Per semplificare la trasformazione dei dati, abbiamo creato due esperienze efficaci che sfruttano Dataform: Trasformazione dei dati basata sull'AI: la preparazione dei dati in BigQuery (in anteprima) fornisce suggerimenti intelligenti per la pulizia, la trasformazione e l'arricchimento dei dati, il che può ridurre il tempo e lo sforzo necessari per le attività di preparazione dei dati. Trasformazione visiva dei dati basata su SQL: i workflow BigQuery (in anteprima) offrono un'esperienza utente visiva per creare in modo interattivo workflow semplici. |
Migrazione dei dati su larga scala | Oltre ai modelli descritti sopra, le migrazioni a Google Cloud possono comportare migrazioni di dati di massa da data warehouse esistenti a BigQuery. BigQuery Migration Service è un servizio completamente gestito che consente ai clienti di caricare data warehouse esistenti in BigQuery per un'ulteriore analisi dei dati. |
Porta i dati in BigQuery
Il percorso di integrazione dei dati di BigQuery con ELT.
Estrai e carica
Caricamento collettivo: BigQuery Data Transfer Service (DTS) automatizza il caricamento collettivo dei dati dalle origini dati supportate in BigQuery.
Carico in modalità flusso: le sottoscrizioni Pub/Sub a BigQuery scrivono i messaggi Pub/Sub in una tabella BigQuery esistente non appena vengono ricevuti.
Change Data Capture (CDC): Datastream consente Change Data Capture (CDC) non intrusivo dai database a BigQuery.
Federazione a origini dati esterne: BigQuery supporta la federazione a un certo numero di origini dati esterne che non richiedono il trasferimento dei dati.
Trasforma
Le funzionalità di trasformazione di BigQuery sono create con Dataform, uno strumento per creare, testare e documentare in modo collaborativo la trasformazione dei dati SQL con il DML (Data Manipulation Language) di BigQuery. Per semplificare la trasformazione dei dati, abbiamo creato due esperienze efficaci che sfruttano Dataform:
Trasformazione dei dati basata sull'AI: la preparazione dei dati in BigQuery (in anteprima) fornisce suggerimenti intelligenti per la pulizia, la trasformazione e l'arricchimento dei dati, il che può ridurre il tempo e lo sforzo necessari per le attività di preparazione dei dati.
Trasformazione visiva dei dati basata su SQL: i workflow BigQuery (in anteprima) offrono un'esperienza utente visiva per creare in modo interattivo workflow semplici.
Migrazione dei dati su larga scala
Oltre ai modelli descritti sopra, le migrazioni a Google Cloud possono comportare migrazioni di dati di massa da data warehouse esistenti a BigQuery. BigQuery Migration Service è un servizio completamente gestito che consente ai clienti di caricare data warehouse esistenti in BigQuery per un'ulteriore analisi dei dati.
Come funziona
BigQuery offre a data engineer e sviluppatori di applicazioni un ricco portafoglio di prodotti e funzionalità per creare, pianificare e gestire le pipeline. L'ampio set di offerte ti offre la flessibilità di scegliere tra i paradigmi ETL ed ELT.
Utilizzi comuni
BigQuery è una piattaforma di dati unificata pronta per l'AI che ti consente di collegare tutti i dati aziendali all'AI. BigQuery importa dati da varie origini (messaggistica, database e altro) tramite batch, flussi di dati o CDC (Change Data Capture). BigQuery archivia, calcola e gestisce i dati con un livello di trasformazione basato sull'AI e un'esperienza utente unificata per l'analisi.
BigQuery è una piattaforma di dati unificata pronta per l'AI che ti consente di collegare tutti i dati aziendali all'AI. BigQuery importa dati da varie origini (messaggistica, database e altro) tramite batch, flussi di dati o CDC (Change Data Capture). BigQuery archivia, calcola e gestisce i dati con un livello di trasformazione basato sull'AI e un'esperienza utente unificata per l'analisi.
Crea una potente pipeline ELT su Google Cloud:
Questa configurazione offre scalabilità, funzionalità in tempo reale e trasformazione efficiente dei dati per un'analisi completa.
Crea una potente pipeline ELT su Google Cloud:
Questa configurazione offre scalabilità, funzionalità in tempo reale e trasformazione efficiente dei dati per un'analisi completa.