Questo documento descrive le funzionalità di gestione del catalogo di dati del catalogo universale. Il catalogo universale fornisce una piattaforma per archiviare, gestire e accedere ai metadati.
Il Catalogo universale fornisce un inventario unificato di risorse on-premise eGoogle Cloud . Il catalogo universale recupera automaticamente i metadati per le risorse Google Cloud e tu importi i metadati per le risorse di terze parti nel catalogo universale.
Il catalogo universale ti consente di arricchire il tuo inventario con metadati tecnici e aziendali aggiuntivi per acquisire il contesto e le conoscenze sulle tue risorse. Con il catalogo universale, puoi cercare e trovare i tuoi dati in tutta l'organizzazione e attivare la governance dei dati per le tue risorse di dati.
Puoi impostare l'esperienza di catalogo predefinita sul catalogo universale. Se utilizzi Data Catalog, esegui la transizione dei contenuti e dell'utilizzo di Data Catalog al catalogo universale. Per ulteriori informazioni, consulta Transizione da Data Catalog al catalogo universale di BigQuery.
Casi d'uso
Puoi utilizzare il catalogo universale per:
Scopri e comprendi i tuoi dati. Il catalogo universale offre visibilità sulle risorse di dati dell'intera organizzazione. Ti consente di trovare risorse pertinenti per le esigenze di consumo dei dati. Fornisce il contesto per le risorse di dati, il che ti aiuta a comprendere l'idoneità delle risorse di dati per le esigenze dei tuoi utenti di dati.
Attiva la governance e la gestione dei dati. Il catalogo universale fornisce metadati che possono fornire informazioni e migliorare le tue funzionalità di governance e gestione dei dati.
Gestisci un repository estensibile e completo per i metadati. Il Catalogo universale archivia e fornisce l'accesso ai metadati che vengono raccolti automaticamente dalle tue Google Cloud risorse. Puoi integrare i tuoi metadati da sistemi nonGoogle Cloud . Puoi arricchire tutti i metadati con annotazioni aggiuntive di metadati aziendali e tecnici.
Come funziona la gestione del catalogo di dati nel catalogo universale
Le funzionalità di gestione del catalogo di dati nel catalogo universale si basano sui seguenti concetti:
Voce: una voce rappresenta una risorsa di dati. La maggior parte dei metadati è descritta dagli aspetti all'interno di una voce. È simile alle voci in Data Catalog. Per ulteriori informazioni, consulta la sezione Voce.
Aspetto: un aspetto è un insieme di campi di metadati correlati all'interno di una voce. Un aspetto può essere interpretato come un elemento costitutivo di una voce o come metadati aggiuntivi. È simile ai tag in Data Catalog, tuttavia gli aspetti vengono archiviati all'interno delle voci e non come risorse autonome. Per ulteriori informazioni, consulta Aspetti.
Tipo di aspetto: un tipo di aspetto è un modello riutilizzabile per gli aspetti. Ogni aspetto è un'istanza di un tipo di aspetto. È simile ai modelli di tag in Data Catalog. Per ulteriori informazioni, consulta Tipi di aspetti.
Gruppo di voci: un gruppo di voci è un contenitore di voci che funge da unità di gestione per queste voci. Ad esempio, utilizza un gruppo di voci per configurare il controllo degli accessi, l'attribuzione del progetto o la posizione di Identity and Access Management per le voci del gruppo. È simile ai gruppi di voci in Data Catalog. Per ulteriori informazioni, consulta Gruppi di voci.
Tipo di voce: un tipo di voce è un modello per la creazione di voci. Stabilisce gli elementi essenziali dei metadati, descritti come un elenco di aspetti obbligatori per le voci di questo tipo. Per ulteriori informazioni, consulta Tipi di voci.
Figura 1. Voci e gruppi di voci Figura 2. Tipi di aspetti e tipi di voci
Di seguito sono riportati alcuni casi d'uso del catalogo universale:
- In qualità di analista di dati o analista aziendale, puoi cercare le voci nell'organizzazione ed esplorare i metadati associati. Per maggiori informazioni, consulta Cercare asset di dati.
- In qualità di proprietario o gestore dei dati, puoi acquisire metadati tecnici e aziendali aggiuntivi annotando le voci con gli aspetti. Per ulteriori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
- In qualità di proprietario o gestore dei dati, puoi garantire la coerenza dei metadati definendo gli standard per le annotazioni (utilizzando i tipi di aspetti) e le voci personalizzate (utilizzando i tipi di voci). Per ulteriori informazioni, consulta Gestire gli aspetti e arricchire i metadati.
- In qualità di data engineer, puoi avere un inventario unificato per le tue risorse, incluse le risorse Google Cloud e quelle di sistemi di terze parti. Le risorseGoogle Cloud vengono raccolte automaticamente dal catalogo universale, mentre quelle nonGoogle Cloud vengono raccolte da te. Per saperne di più, consulta Gestire le voci e importare le origini personalizzate.
Per gli utenti esistenti di Data Catalog
Se utilizzi già Data Catalog, tieni presente quanto segue:
- Le voci personalizzate, il contesto di panoramica e i gruppi di voci che hai creato in Data Catalog vengono resi disponibili nel catalogo universale.
- In qualità di amministratore, puoi scegliere di rendere disponibili contemporaneamente nel catalogo universale i contenuti dei modelli di tag e dei tag di Data Catalog. Per ulteriori informazioni, consulta Transizione da Data Catalog al catalogo universale di BigQuery.
- Quando cerchi asset di dati nel catalogo universale, vengono inclusi sia i metadati creati direttamente nel catalogo universale sia quelli importati da Data Catalog nel catalogo universale.
- Quando cerchi asset di dati in Data Catalog, vengono inclusi solo i metadati creati in Data Catalog.
- Le descrizioni dei gruppi di voci in Data Catalog che superano i 1024 caratteri vengono troncate a 1024 caratteri nel catalogo universale.
Per saperne di più su come eseguire la transizione dei contenuti e dell'utilizzo di Data Catalog al catalogo universale, consulta Transizione da Data Catalog al catalogo universale BigQuery.
Catalogo universale e Data Catalog
Il catalogo universale fornisce una funzionalità per gestire i metadati in Dataplex. È dotato di un'area di archiviazione dei metadati separata e di un nuovo insieme di metodi API integrati nell'API Dataplex.
Le funzionalità principali del catalogo di dati nel catalogo universale includono quanto segue:
Metamodello più solido
- Voci digitate. Puoi applicare standard minimi per i metadati definendo i contenuti obbligatori per le voci personalizzate
- Metamodello configurabile dall'utente per le voci personalizzate, che contribuisce a rendere più solida l'importazione personalizzata e migliora la coerenza e la completezza dei metadati personalizzati.
- Supporto di una maggiore varietà e complessità di metadati, incluso il supporto per strutture nidificate come elenchi, mappe e array.
Scalabilità migliorata, inclusa la possibilità di interagire con tutti i metadati associati a una voce tramite singole operazioni CRUD atomiche e la possibilità di recuperare più annotazioni dei metadati associati nelle risposte di ricerca o elenco.
La seguente tabella mette a confronto le funzionalità del Catalogo universale e di Data Catalog:
Funzionalità | Catalogo universale | Data Catalog |
---|---|---|
Origini Google Cloud supportate | Tutte le fonti descritte nella sezione Fonti Google Cloud supportate di questo documento. | Tutte le origini descritte in Voci e gruppi di voci. |
Importazione di origini personalizzate | Importazione in voci personalizzate con struttura regolamentata, definita dai tipi di voce. Le voci e i gruppi di voci personalizzate di Data Catalog vengono resi disponibili nel catalogo universale nel tipo di voce | Importazione in voci personalizzate generiche. |
Arricchimento dei metadati | Il contesto dei metadati per le voci viene acquisito utilizzando aspetti e tipi di aspetti. | Il contesto dei metadati per le voci viene acquisito utilizzando tag e modelli di tag. |
Cerca | La ricerca viene eseguita sui seguenti elementi:
I risultati di ricerca includono solo le risorse che appartengono alla stessa organizzazione e allo stesso perimetro VPC-SC del progetto in cui viene eseguita la ricerca. Quando utilizzi la console Google Cloud, si tratta del progetto selezionato nella console. Tieni presente che, per cercare le voci, devi disporre di almeno uno dei ruoli IAM per il catalogo universale (Dataplex Catalog) per il progetto utilizzato per la ricerca. Le autorizzazioni per i risultati di ricerca vengono controllate indipendentemente dal progetto selezionato. |
La ricerca viene eseguita sui seguenti elementi:
|
Derivazione dei dati |
La derivazione dei dati recupera i dettagli delle voci per i nodi degli asset utilizzando l'API Dataplex. La console Google Cloud mostra gli aspetti collegati. |
La derivazione dei dati recupera i dettagli delle voci per i nodi delle risorse utilizzando l'API Data Catalog. La console Google Cloud mostra i tag e i termini del glossario allegati. |
La tabella seguente descrive in che modo le risorse del catalogo universale corrispondono alle risorse di Data Catalog:
Risorsa del catalogo universale | Risorsa Data Catalog | Descrizione |
---|---|---|
Tipo di aspetto (global ) |
Modello di tag pubblico | I modelli di tag sono risorse a livello di regione. Tuttavia, puoi utilizzarli per creare
tag in più regioni. I modelli di tag corrispondono ai tipi di aspetti global nel catalogo universale. |
Aspetto facoltativo | Tag pubblico | I tag pubblici in Data Catalog corrispondono agli aspetti facoltativi nel catalogo universale. |
Gruppo di voci | Gruppo di voci | Per le Google Cloud origini, i gruppi di voci di sistema come @bigquery
vengono stabiliti per progetto nel catalogo universale. |
Aspetti obbligatori delle voci personalizzate | Voce personalizzata | Data Catalog e il catalogo universale condividono concetti simili per le voci personalizzate. Le proprietà di voce standard sono modellate come aspetti obbligatori nel catalogo universale. |
Aspetti obbligatori per l'accesso al sistema | Voce Sistema (Google Cloud) | I metadati che descrivono le entità predefinite, ad esempio Schema per le tabelle BigQuery, vengono acquisiti negli aspetti obbligatori dei tipi di aspetti definiti dal sistema. |
Per ulteriori informazioni sulle funzionalità disponibili in Data Catalog, ma non supportate nel catalogo universale, consulta la sezione Funzionalità non supportate nel catalogo universale di questo documento.
Origini supportate
I metadati delle seguenti Google Cloud origini vengono importati automaticamente nel catalogo universale:
- Scambi e schede della condivisione BigQuery (in precedenza Analytics Hub)
- Set di dati, tabelle, modelli, routine, connessioni e set di dati collegati BigQuery
- Istanze, cluster e tabelle Bigtable (inclusi i dettagli delle famiglie di colonne)
- Repository Dataform e asset di codice
- Istanze, database, schemi, tabelle e visualizzazioni Cloud SQL: consulta Abilitazione dell'integrazione di Cloud SQL
- Servizi, database e tabelle di Dataproc Metastore
- Argomenti Pub/Sub
- Istanze, database, tabelle e visualizzazioni Spanner
- Modelli, set di dati, gruppi di funzionalità, visualizzazioni di funzionalità e istanze di store online di Vertex AI
Per importare i metadati da un'origine di terze parti nel catalogo universale, puoi utilizzare una pipeline di connettività gestita.
Vincoli relativi a progetti e località
Le risorse del catalogo universale si trovano in vari progetti e località. Si applicano le seguenti limitazioni:
Località:
- La posizione di una voce deve corrispondere a quella del tipo di voce o il tipo di voce deve essere
global
. - Un aspetto aggiunto a una voce deve essere basato su un tipo di aspetto archiviato nella stessa posizione della voce o il tipo di aspetto deve essere
global
. - Un tipo di voce deve essere composto da tipi di aspetti archiviati nella stessa posizione del tipo di voce.
- La posizione di una voce deve corrispondere a quella del tipo di voce o il tipo di voce deve essere
Progetto:
- Se un tipo di voce fa riferimento a tipi di aspetto personalizzato, questi tipi devono trovarsi nella stessa posizione e nello stesso progetto del tipo di voce.
Funzionalità non supportate nel catalogo universale
Le seguenti funzionalità disponibili in Data Catalog non sono supportate nel catalogo universale:
- Il concetto di aspetti privati e tipi di aspetti privati (corrispondenti ai tag privati e ai modelli di tag privati in Data Catalog) non esiste nel catalogo universale.
- La ricerca dei tag delle norme non è supportata nella ricerca nel catalogo universale. Di conseguenza, i predicati
policytag
epolicytagid
non funzionano nella ricerca nel catalogo universale. - Quando importi gruppi di voci personalizzate, voci personalizzate, modelli di tag e tag di Data Catalog nel catalogo universale, le relative autorizzazioni originali non vengono trasferite. Devi configurare esplicitamente le autorizzazioni IAM per i metadati copiati prima di utilizzarli.
- Il supporto di Terraform per la gestione di aspetti ed elementi personalizzati non è disponibile. In alternativa, puoi gestire i metadati personalizzati su larga scala in modo programmatico utilizzando una pipeline di connettività gestita o i metodi dell'API di importazione dei metadati. È disponibile il supporto di Terraform per gruppi di voci, tipi di voci e tipi di aspetti; consulta Provisioning delle risorse Dataplex con Terraform.
- L'invio dei risultati dell'ispezione della protezione dei dati sensibili direttamente al catalogo universale non è supportato. In alternativa, puoi inviare i risultati dell'ispezione di Sensitive Data Protection a Data Catalog, quindi eseguire la transizione dei risultati al catalogo universale.
- Non puoi elencare i tipi di voci e di aspetti nei progetti utilizzando l'API. Puoi limitare l'ambito della richiesta dell'elenco a un solo progetto.
- Non puoi associare i termini del glossario aziendale (anteprima) alle colonne delle voci del catalogo universale.
- La registrazione di lake, zone, asset ed entità Dataplex come voci nel catalogo universale non è supportata. Ciò significa che i metadati associati a lake, zone, asset ed entità non vengono trasferiti al catalogo universale. Inoltre, quando utilizzi la ricerca nel catalogo universale, la ricerca di zone ed entità non è supportata e non è supportato il filtro per laghi e zone. Puoi utilizzare laghi e zone indipendentemente dal catalogo universale.
- La ricerca dell'amministratore, che garantisce il recupero completo, non è supportata.
Per un confronto delle funzionalità e delle risorse supportate sia nel catalogo universale che in Data Catalog, consulta la sezione Catalogo universale e Data Catalog di questo documento.
Prezzi
Dataplex utilizza lo SKU di archiviazione dei metadati per addebitare l'archiviazione dei metadati. Per ulteriori informazioni, consulta Prezzi di Dataplex.
Non sono previsti costi per l'utilizzo di quanto segue:
- Creazione e gestione delle risorse del catalogo universale
- Chiamate API di ricerca per il catalogo universale
- Query di ricerca eseguite nella pagina del catalogo universale nella console Google Cloud
Passaggi successivi
- Scopri come cercare risorse nel catalogo universale.
- Scopri come gestire le risorse e arricchire i metadati.
- Scopri come gestire le voci e importare le origini personalizzate.
- Scopri di più sulla transizione da Data Catalog al catalogo universale di BigQuery.