这是indexloc提供的服务,不要输入任何密码

Che cos'è l'ETL?

ETL sta per estrazione, trasformazione e caricamento ed è un modo tradizionalmente accettato dalle organizzazioni per combinare i dati di più sistemi in un unico database, datastore, data warehouse o data lake. L'ETL può essere utilizzato per archiviare i dati legacy, oppure, come accade generalmente oggi, aggregare i dati per analizzare e guidare le decisioni aziendali.  

Le organizzazioni utilizzano l'ETL da decenni. La novità è che sia le origini dati sia i database di destinazione si stanno ora spostando verso il cloud.

Inoltre, stiamo assistendo alla nascita di pipeline ETL in modalità flusso, ora unificate con pipeline in modalità batch, ovvero pipeline che gestiscono flussi continui di dati in tempo reale rispetto ai dati gestiti in batch aggregati. Alcune aziende eseguono processi di elaborazione dei flussi di dati continua con pipeline di rielaborazione o backfill in modalità batch coinvolte nel processo.

Scopri di più sul portafoglio di servizi Google Cloud che supportano ETL, tra cui BigQuery Data Transfer Service, Dataflow e Dataform.

Iniziamo? I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.

Video Dataflow per integrazione ed ETL in tempo reale
Dataflow per integrazione ed ETL in tempo reale

Definizione di ETL

L'ETL descrive il processo end-to-end con cui un'azienda prende la sua intera gamma di dati, strutturati, non strutturati e gestiti da un numero qualsiasi di team da qualsiasi parte del mondo, e li porta ad uno stato in cui sono effettivamente utili per scopi commerciali.

Le moderne soluzioni ETL di oggi devono far fronte all'accelerazione del volume e della velocità dei dati. Inoltre, la capacità di importare, arricchire e gestire le transazioni e di supportare dati strutturati e non strutturati in tempo reale da qualsiasi origine, sia on-premise che nel cloud, è ora un requisito fondamentale per le soluzioni ETL aziendali di oggi.

Perché ETL è importante?

ETL (Extract, Transform, Load) è stato un caposaldo dell'integrazione dei dati per decenni e rimane rilevante nelle moderne architetture di dati. ETL offre diversi potenziali vantaggi:

  • Qualità dei dati: la qualità e la coerenza dei dati spesso migliorano nei processi ETL attraverso le fasi di pulizia e trasformazione
  • Governance dei dati: ETL può contribuire a far rispettare le policy di governance dei dati assicurando che questi vengano trasformati e caricati nel sistema di destinazione in modo coerente e conforme
  • Sistemi legacy: ETL viene spesso utilizzato per integrare i dati provenienti da sistemi legacy che potrebbero non essere compatibili con le moderne architetture di dati
  • Trasformazioni complesse: gli strumenti ETL spesso forniscono un'ampia gamma di funzionalità di trasformazione, che li rende adatti a attività di manipolazione dei dati complesse

Come funziona l'ETL basato su cloud

Estrazione

L'estrazione è il processo di recupero dei dati da una o più origini online, on-premise, legacy, SaaS o di altro tipo. Una volta completato il recupero, o l'estrazione, i dati vengono caricati in un'area temporanea.

Trasformazione

La trasformazione consiste nel prendere quei dati, pulirli e inserirli in un formato comune, in modo che possano essere archiviati in un database, in un datastore, in un data warehouse o in un data lake target. La pulizia solitamente comporta l'eliminazione di record duplicati, incompleti o ovviamente errati.

Caricamento

Il caricamento è il processo di inserimento dei dati formattati nel database, nel datastore, nel data warehouse o nel data lake target.

ETL rispetto a ELT

Sebbene ETL ed ELT siano metodi di integrazione dei dati, la differenza tra i due sta nei tempi di trasformazione dei dati. ETL elabora i dati trasformandoli prima di caricarli nel sistema di destinazione. In ELT, i dati vengono caricati nel sistema di destinazione nel formato non elaborato e poi trasformati.

La scelta tra ETL ed ELT dipende da diversi fattori, tra cui:

  • Volume di dati: ELT è generalmente più adatto per grandi volumi di dati perché sfrutta la potenza di elaborazione dei data warehouse su cloud
  • Complessità dei dati: ETL viene spesso utilizzato per trasformazioni complesse che richiedono competenze e strumenti specializzati
  • Sistema di destinazione: ELT è più adatto per data warehouse e data lake basati su cloud che hanno la potenza di elaborazione necessaria per gestire le trasformazioni
  • Competenze e risorse: ETL richiede competenze e risorse specializzate per la creazione e la gestione delle pipeline di trasformazione. ELT può essere più facile da implementare perché sfrutta le risorse dei data warehouse su cloud

Risolvi le tue sfide aziendali con Google Cloud

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere su Google Cloud.
Parla con un esperto del team di vendita di Google Cloud per discutere della tua sfida unica in modo più dettagliato.

Casi d'uso ETL

L'ETL rappresenta un metodo fondamentale per riunire tutti i dati pertinenti in un'unica posizione in modo da renderli utilizzabili, consentirne l'analisi e permettere a dirigenti, manager e altri stakeholder di prendere decisioni aziendali consapevoli. L'ETL viene comunemente impiegato per:

Data warehousing

Un data warehouse è un database in cui vengono combinati dati provenienti da varie origini in modo da poter essere analizzati collettivamente per scopi aziendali. L'ETL è spesso utilizzato per trasferire i dati in un data warehouse.

Machine learning e intelligenza artificiale

Il machine learning (ML) è un modo per attribuire un senso ai dati senza programmare esplicitamente i modelli analitici. Il sistema, infatti, apprende dai dati utilizzando tecniche di intelligenza artificiale. L'ETL può essere utilizzato per trasferire i dati in un'unica posizione per scopi di ML.

Integrazione dei dati di marketing

L'integrazione dei dati di marketing comporta il trasferimento di tutti i dati di marketing, come i dati dei clienti, dei social network e dell'analisi dei dati web, in un unico luogo, in modo da poterli analizzare e usarli per sviluppare piani futuri. L'ETL viene utilizzato per raccogliere e preparare i dati di marketing.

Integrazione dei dati IoT

L'IoT è la raccolta di dispositivi collegati in grado di raccogliere e trasmettere dati attraverso sensori integrati nell'hardware. I dispositivi IoT possono includere attrezzature di fabbrica, server di rete, smartphone o una vasta gamma di altre macchine, anche indossabili e dispositivi impiantati. L'ETL aiuta a trasferire i dati da più origini IoT in un unico luogo dove possono essere analizzati.

Replica dei database

La replica dei database acquisisce i dati dai tuoi database di origine, come Oracle, Cloud SQL per MySQL, Microsoft SQL Server, Cloud SQL per PostgreSQL, MongoDB o altri, e li copia nel tuo data warehouse su cloud. Può trattarsi di un'operazione una tantum o di un processo continuo che avviene man mano che i dati vengono aggiornati, e l'ETL può essere utilizzato per replicare i dati.

Migrazione nel cloud

Le aziende stanno trasferendo i loro dati e le loro applicazioni da on-premise al cloud per risparmiare denaro, rendere le loro applicazioni più scalabili, proteggere i dati e sfruttare le innovazioni dell'AI, dove ETL viene comunemente impiegato per eseguire queste migrazioni.

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.

Google Cloud