Prezzi di Dataflow

In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.

Per scoprire come puoi risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno, consulta la nostra pagina sugli sconti per impegno di utilizzo (CUD).

Panoramica

L'utilizzo di Dataflow viene fatturato per le risorse utilizzate dai job. A seconda del modello di prezzo utilizzato, le risorse vengono misurate e fatturate in modo diverso.

Risorse di computing di Dataflow	Risorse di computing di Dataflow Prime
CPU e memoria dei worker (batch, flussi di dati e FlexRS) Dati di Dataflow Shuffle elaborati (batch e FlexRS) Unità di calcolo Streaming Engine o dati elaborati di Streaming Engine legacy (solo flussi)	Data Compute Units (DCU) (batch e flussi di dati)

Risorse di computing di Dataflow

Risorse di computing di Dataflow Prime

CPU e memoria dei worker (batch, flussi di dati e FlexRS)
Dati di Dataflow Shuffle elaborati (batch e FlexRS)
Unità di calcolo Streaming Engine o dati elaborati di Streaming Engine legacy (solo flussi)

Data Compute Units (DCU)

(batch e flussi di dati)

Le altre risorse Dataflow fatturate per tutti i job includono Persistent Disk, GPU e snapshot.

Per il job Dataflow potrebbero essere utilizzate risorse di altri servizi. I servizi utilizzati con Dataflow possono includere BigQuery, Pub/Sub, Cloud Storage e Cloud Logging, tra gli altri.

Anche se la tariffa per i prezzi è calcolata su base oraria, l'utilizzo di Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti sono 0,5 ore. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.

Le versioni future di Cloud Dataflow potrebbero avere tariffe di servizio diverse o un bundle di servizi correlati.

Risorse delle computing di Dataflow

La fatturazione di Dataflow per le risorse di computing include i seguenti componenti:

Per ulteriori informazioni sulle regioni disponibili e sulle relative zone, consulta la pagina Regioni e zone di Compute Engine.

CPU e memoria del worker

Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e per quelli in modalità flusso sono diversi.

I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo:

CPU
Memoria

I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Compute Engine per le risorse Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprendono l'utilizzo di queste risorse Compute Engine.

Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, vengono aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.

Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come il tipo di macchina, il tipo di disco e la dimensione del disco, che vengono allocate a ciascun worker e che utilizzano le GPU.

FlexRS

Dataflow offre un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.

Sebbene Dataflow utilizzi una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa scontata uniforme di circa il 40% sul costo di CPU e memoria rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.

Dati di Dataflow Shuffle elaborati

Per le pipeline batch, Dataflow fornisce una funzionalità altamente scalabile, Dataflow Shuffle, che esegue lo shuffling dei dati al di fuori dei worker. Per ulteriori informazioni, consulta Dataflow Shuffle.

Dataflow Shuffle addebita in base al volume dei dati elaborati durante lo shuffle.

Prezzi di Streaming Engine

Per le pipeline di flussi di dati, Dataflow Streaming Engine sposta l'ordinamento sistematico dei flussi di dati e l'elaborazione degli stati all'esterno delle VM worker e nel backend del servizio Dataflow. Per ulteriori informazioni, vedi Streaming Engine.

Unità di calcolo Streaming Engine

Con la fatturazione basata sulle risorse, le risorse di Streaming Engine vengono misurate in unità di calcolo Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ogni job e poi fattura in base alle risorse totali utilizzate da quel job. Per abilitare la fatturazione basata sulle risorse per il tuo job, vedi Utilizza la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.

Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, ti viene addebitato l'importo in base alle risorse totali utilizzate da ciascun job, ma viene utilizzato lo SKU Data Compute Unit (DCU) invece dello SKU Streaming Engine Compute Unit.

Dati elaborati da Streaming Engine (legacy)

Dataflow continua a supportare la fatturazione legacy dei dati elaborati. A meno che tu non abiliti la fatturazione basata sulle risorse, i job vengono fatturati utilizzando la fatturazione basata sui dati elaborati.

La fatturazione dei dati elaborati di Streaming Engine misura l'utilizzo in base al volume dei dati in modalità flusso elaborati, che dipende dai seguenti fattori:

Il volume di dati importati nella pipeline in modalità flusso
La complessità della pipeline
Il numero di fasi della pipeline con operazione di rimescolamento o con DoFn con stato

Ecco alcuni esempi di ciò che viene considerato un byte elaborato:

Flussi di input dalle origini dati
Flussi di dati da una fase della pipeline fusa a un'altra fase fusa
Flussi di dati rimasti in una fase definita dall'utente o utilizzati per operazioni di windowing
Invia i messaggi a sink di dati, ad esempio Pub/Sub o BigQuery

Risorse delle computing di Dataflow

Prezzi delle risorse di computing di Dataflow - Batch

La tabella seguente contiene i dettagli dei prezzi per le risorse worker e i dati Shuffle elaborati per Batch.

Tipo di job	Predefinito (USD)
CPU	0,056 USD / 1 hour
Memoria	0,003557 USD / 1 gibibyte hour
Dati elaborati durante lo shuffle	0,011 USD / 1 gibibyte

Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non si utilizza Dataflow Shuffle, 25 GB su disco permanente se si utilizza Dataflow Shuffle

Prezzi delle risorse di computing di Dataflow - FlexRS

La tabella seguente contiene i dettagli dei prezzi per le risorse dei worker e i dati Shuffle elaborati per i job FlexRS.

Risorsa	Predefinito (USD)
CPU	0,0336 USD / 1 hour
Memoria	0,0021342 USD / 1 gibibyte hour
Dati elaborati durante lo shuffle	0,011 USD / 1 gibibyte

Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker

Prezzi delle risorse di computing di Dataflow - flussi di dati

La tabella seguente contiene i dettagli dei prezzi per le risorse dei worker, i dati elaborati di Streaming Engine (legacy) e le unità di calcolo di Streaming Engine per i job di flussi.

Mostra opzioni di sconto

Risorsa	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
CPU	0,069 USD / 1 hour	0,0552 USD / 1 hour	0,0414 USD / 1 hour
Memoria	0,003557 USD / 1 gibibyte hour	0,0028456 USD / 1 gibibyte hour	0,0021342 USD / 1 gibibyte hour
Dati elaborati durante lo shuffle	0,018 USD / 1 gibibyte	0,0144 USD / 1 gibibyte	0,0108 USD / 1 gibibyte
Streaming Engine	0,089 USD / 1 count	0,0712 USD / 1 count	0,0534 USD / 1 count

^* Ogni modello di consumo ha un ID univoco. Potresti dover attivare l'opzione per avere diritto agli sconti del modello di consumo. Fai clic qui per scoprire di più.

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

³ Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non si utilizza Streaming Engine, 30 GB su disco permanente se si utilizza Streaming Engine. Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando esegue un job di flussi di dati. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

⁴I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle. I prezzi di Dataflow Shuffle non sono applicabili ai job di Streaming Engine che utilizzano la fatturazione basata sulle risorse.

⁵ Unità di calcolo Streaming Engine: per i job di flussi di dati che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Questi job non vengono fatturati per i dati elaborati durante lo shuffle.

Aggiustamenti del volume per i dati di Dataflow Shuffle elaborati

Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dati shuffle fatturabili elaborati sia inferiore alla metrica dati shuffle totali elaborati.

La seguente tabella spiega come vengono applicati questi aggiustamenti:

Dati di Dataflow Shuffle elaborati	Aggiustamento di fatturazione
Primi 250 GiB	Riduzione del 75%
Successivi 4870 GiB	Riduzione del 50%
Dati rimanenti oltre 5120 GiB (5 TiB)	nessuna

Ad esempio, se la tua pipeline presenta 1024 GiB (1 TiB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue:

250 GiB * 25% + 774 GiB * 50% = 449,5 GiB * velocità di elaborazione dati tramite Dataflow Shuffle a livello di area geografica

Se la tua pipeline presenta 10.240 GiB (10 TiB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è:

250 GiB * 25% + 4870 GiB * 50% + 5120 GiB = 7617,5 GiB

Prezzi delle risorse di computing di Dataflow Prime

Dataflow Prime è una piattaforma di elaborazione dati che si basa su Dataflow per apportare miglioramenti nell'utilizzo delle risorse e nella diagnostica distribuita.

Le risorse di computing utilizzate da un job Dataflow Prime vengono prezzate in base al numero di unità di calcolo dei dati (DCU). Le DCU rappresentano le risorse di computing allocate per eseguire la pipeline. Le altre risorse Dataflow utilizzate dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono fatturate separatamente.

Per ulteriori informazioni sulle regioni disponibili e sulle relative zone, consulta la pagina Regioni e zone di Compute Engine.

Data Compute Unit

Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora il numero di risorse di computing utilizzate dai tuoi job. Le risorse monitorate dalle DCU includono vCPU, memoria, dati elaborati da Dataflow Shuffle (per i job batch) e dati elaborati da Streaming Engine (per i job di flussi di dati). I job che consumano più risorse hanno un maggiore utilizzo di DCU rispetto ai job che ne consumano meno. Una DCU è paragonabile alle risorse utilizzate da un job Dataflow in esecuzione per un'ora su un worker con 1 vCPU e 4 GB di memoria.

Fatturazione Data Compute Unit

Ti viene addebitato il numero totale di DCU consumate dal tuo job. Il prezzo di una singola DCU varia a seconda che tu abbia un job batch o un job di flusso. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, ti viene addebitato il costo in base alle risorse totali utilizzate anziché ai byte elaborati.

Mostra opzioni di sconto

Tipo di job	Default^* (USD)	Dataflow CUD - 1 Year^* (USD)	Dataflow CUD - 3 Year^* (USD)
Batch	0,06 USD / 1 count	-	-
Streaming	0,089 USD / 1 count	0,0712 USD / 1 count	0,0534 USD / 1 count

^* Ogni modello di consumo ha un ID univoco. Potresti dover attivare l'opzione per avere diritto agli sconti del modello di consumo. Fai clic qui per scoprire di più.

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

Ottimizza l'utilizzo delle unità di elaborazione dei dati

Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU consumate gestendo i seguenti aspetti del tuo job:

Riduzione del consumo di memoria
Riduzione della quantità di dati elaborati nel processo di data shuffling mediante filtri, combinazioni e codificatori efficienti

Per identificare queste ottimizzazioni, utilizza l'interfaccia di monitoraggio di Dataflow e la scheda Dettagli esecuzione.

Qual è la differenza tra i prezzi di Dataflow Prime e i prezzi di Dataflow?

In Dataflow, ti vengono addebitati i costi relativi alle diverse risorse utilizzate dai job, come vCPU, memoria, disco permanente e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.

Le unità di elaborazione dati consolidano tutte le risorse, ad eccezione dello spazio di archiviazione, in un'unica unità di misurazione. Ti vengono fatturate le risorse del disco permanente e il numero di DCU consumate in base al tipo di job, batch o flusso. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.

Che cosa succede ai job esistenti che utilizzano il modello di prezzi di Dataflow?

I job batch e flusso esistenti continueranno a essere fatturati in base al modello di Dataflow. Quando aggiorni i tuoi job per utilizzare Dataflow Prime, i job utilizzeranno il modello di prezzi di Dataflow Prime, in cui vengono fatturati per le risorse del disco permanente e per le DCU consumate.

Altre risorse Dataflow

L'archiviazione, le GPU, gli snapshot e altre risorse vengono fatturati allo stesso modo per Dataflow e Dataflow Prime.

Prezzi delle risorse di archiviazione

Le risorse di archiviazione vengono fatturate con la stessa tariffa per i job di flussi, batch e FlexRS. Puoi utilizzare le opzioni pipeline per modificare la dimensione o il tipo di disco predefiniti. Dataflow Prime fattura il disco permanente separatamente in base ai prezzi riportati nella tabella seguente.

Elemento	Predefinito (USD)
Archiviazione - Disco permanente standard	0,000054 USD / 1 gibibyte hour
Archiviazione - Disco permanente SSD	0,000298 USD / 1 gibibyte hour

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando esegue un job di flussi di dati. Ogni disco permanente è locale a una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.

I job che utilizzano Streaming Engine usano dischi di avvio da 30 GB. I job che utilizzano Dataflow Shuffle utilizzano dischi di avvio da 25 GB. Per i job che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è di 250 GB in modalità batch e 400 GB in modalità flusso.

L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk si basa sul valore esatto di --maxNumWorkers. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.

Prezzi delle risorse GPU

Le risorse GPU vengono fatturate alla stessa tariffa per i job di flussi e batch. FlexRS al momento non supporta le GPU. Per informazioni sulle regioni e sulle zone disponibili per le GPU, consulta Disponibilità di regioni e zone per le GPU nella documentazione di Compute Engine.

Elemento	Predefinito (USD)
GPU NVIDIA® Tesla® P100	1,752 USD / 1 hour
GPU NVIDIA® Tesla® V100	2,976 USD / 1 hour
GPU NVIDIA® Tesla® T4	0,42 USD / 1 hour
GPU NVIDIA® Tesla® P4	0,72 USD / 1 hour
GPU NVIDIA® Tesla® L4	0,672048 USD / 1 hour
GPU NVIDIA® Tesla® A100 (40 GB)	3,72 USD / 1 hour
GPU NVIDIA® Tesla® A100 (80 GB)	4,713696 USD / 1 hour

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

Snapshot

Per aiutarti a gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare gli snapshot per salvare e ripristinare lo stato delle pipeline. L'utilizzo di snapshot viene fatturato in base al volume dei dati archiviati, che dipende dai seguenti fattori:

Il volume di dati importati nella pipeline in modalità flusso
La logica di finestratura
Il numero di fasi della pipeline

Puoi acquisire uno snapshot del job di flusso utilizzando la console Dataflow o la Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta Utilizzo degli snapshot di Dataflow.

Prezzi degli snapshot

Elemento	Predefinito (USD)
Archiviazione	0,000205479 USD / 1 gibibyte hour

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

Confidential VM

Confidential VM per Dataflow cripta i dati in uso sulle VM Compute Engine worker. Per maggiori dettagli, vedi Panoramica di Confidential VM.

L'utilizzo di Confidential VM per Dataflow comporta costi fissi aggiuntivi per vCPU e per GB.

Prezzi di Confidential VM

I prezzi sono globali e non cambiano in base alla regione Google Cloud.

Elemento	Predefinito (USD)
CPU	0,005479 USD / 1 hour
Memoria	0,0007342 USD / 1 gibibyte hour

Risorse non Dataflow

Oltre all'utilizzo di Dataflow, un job potrebbe consumare le seguenti risorse, ciascuna fatturata in base ai relativi prezzi, inclusi a titolo esemplificativo:

Cloud Storage: i job Dataflow utilizzano Cloud Storage per archiviare i file temporanei durante l'esecuzione della pipeline. Per evitare l'addebito per costi di archiviazione non necessari, disattiva la funzionalità di eliminazione temporanea sui bucket utilizzati dai job di Dataflow per l'archiviazione temporanea. Per ulteriori informazioni, vedi Rimuovere un criterio di eliminazione temporanea da un bucket.
Pub/Sub
Datastore
Bigtable
BigQuery
VPC
Cloud Logging: puoi instradare i log verso altre destinazioni o escludere i log dall'importazione. Per informazioni su come ottimizzare il volume dei log per i job Dataflow, consulta la sezione relativa al controllo del volume dei log di Dataflow.

Visualizza l'utilizzo delle risorse

Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job nel riquadro Informazioni sul job in Metriche delle risorse. Puoi monitorare le seguenti metriche nell'interfaccia di monitoraggio di Dataflow:

Totale tempo vCPU
Tempo totale di utilizzo della memoria
Tempo totale di utilizzo del disco permanente
Totale dati di streaming elaborati
Totale dati shuffle elaborati
Dati shuffle fatturabili elaborati

Puoi utilizzare la metrica Dati di shuffle totali elaborati per valutare le prestazioni della pipeline e la metrica Dati di shuffle fatturabili elaborati per determinare i costi del job Dataflow.

Per Dataflow Prime, puoi visualizzare il numero totale di DCU utilizzate da un job nel riquadro Informazioni sul job in Metriche delle risorse.

Calcolatore prezzi

Utilizza il Calcolatore prezzi di Google Cloud per capire meglio in che modo vengono calcolate le fatture.

Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.

Passaggi successivi

Leggi la documentazione di Dataflow.
Inizia a utilizzare Dataflow.
Prova il Calcolatore prezzi
Scopri di più su soluzioni e casi d'uso di Dataflow.

Richiedi un preventivo personalizzato

Grazie ai prezzi con pagamento a consumo di Google Cloud, paghi solo per i servizi che utilizzi. Per ricevere un preventivo personalizzato per la tua organizzazione, contatta il nostro team di vendita.