In questa pagina vengono descritti i prezzi di Dataflow. Per conoscere i prezzi degli altri prodotti, leggi la documentazione sui prezzi.
Per scoprire come puoi risparmiare il 40% con un impegno di tre anni o il 20% con un impegno di un anno, consulta la nostra pagina sugli sconti per impegno di utilizzo (CUD).
L'utilizzo di Dataflow viene fatturato per le risorse utilizzate dai job. A seconda del modello di prezzo utilizzato, le risorse vengono misurate e fatturate in modo diverso.
| Data Compute Units (DCU) (batch e flussi di dati) |
Data Compute Units (DCU)
(batch e flussi di dati)
Le altre risorse Dataflow fatturate per tutti i job includono Persistent Disk, GPU e snapshot.
Per il job Dataflow potrebbero essere utilizzate risorse di altri servizi. I servizi utilizzati con Dataflow possono includere BigQuery, Pub/Sub, Cloud Storage e Cloud Logging, tra gli altri.
Anche se la tariffa per i prezzi è calcolata su base oraria, l'utilizzo di Dataflow viene fatturato in incrementi di 1 secondo per singolo job. L'utilizzo è espresso in ore al fine di applicare una tariffa oraria a un utilizzo al secondo. Ad esempio, 30 minuti sono 0,5 ore. I worker e i job potrebbero consumare le risorse descritte nelle sezioni seguenti.
Le versioni future di Cloud Dataflow potrebbero avere tariffe di servizio diverse o un bundle di servizi correlati.
La fatturazione di Dataflow per le risorse di computing include i seguenti componenti:
Per ulteriori informazioni sulle regioni disponibili e sulle relative zone, consulta la pagina Regioni e zone di Compute Engine.
Ogni job Dataflow utilizza almeno un worker Dataflow. Il servizio Dataflow offre due tipi di worker: batch e flusso. I costi di servizio per i worker in modalità batch e per quelli in modalità flusso sono diversi.
I worker Dataflow utilizzano le seguenti risorse, ognuna delle quali è fatturata al secondo:
I worker batch e flusso sono risorse specializzate che utilizzano Compute Engine. Tuttavia, un job Dataflow non emette fatture di Compute Engine per le risorse Compute Engine gestite dal servizio Dataflow. I costi del servizio Dataflow comprendono l'utilizzo di queste risorse Compute Engine.
Puoi eseguire l'override del conteggio predefinito dei worker per un job. Se utilizzi la scalabilità automatica, puoi specificare il numero massimo di worker da allocare a un job. I worker, insieme alle rispettive risorse, vengono aggiunti e rimossi automaticamente in base all'attuazione della scalabilità automatica.
Inoltre, puoi utilizzare le opzioni pipeline per eseguire l'override delle impostazioni predefinite delle risorse, come il tipo di macchina, il tipo di disco e la dimensione del disco, che vengono allocate a ciascun worker e che utilizzano le GPU.
Dataflow offre un'opzione con prezzi scontati per CPU e memoria relativamente all'elaborazione batch. Flexible Resource Scheduling (FlexRS) unisce le VM normali e prerilasciabili in un singolo pool di worker Dataflow, permettendo agli utenti di accedere a risorse di elaborazione più economiche. FlexRS ritarda inoltre l'esecuzione di un job Dataflow in batch in una finestra di 6 ore, per identificare il momento migliore in cui avviare il job sulla base delle risorse disponibili.
Sebbene Dataflow utilizzi una combinazione di worker per eseguire un job FlexRS, ti viene addebitata una tariffa scontata uniforme di circa il 40% sul costo di CPU e memoria rispetto ai normali prezzi di Dataflow, a prescindere dal tipo di worker. Puoi indicare a Dataflow di usare FlexRS per le tue pipeline batch a scalabilità automatica specificando il parametro FlexRS.
Per le pipeline batch, Dataflow fornisce una funzionalità altamente scalabile, Dataflow Shuffle, che esegue lo shuffling dei dati al di fuori dei worker. Per ulteriori informazioni, consulta Dataflow Shuffle.
Dataflow Shuffle addebita in base al volume dei dati elaborati durante lo shuffle.
Per le pipeline di flussi di dati, Dataflow Streaming Engine sposta l'ordinamento sistematico dei flussi di dati e l'elaborazione degli stati all'esterno delle VM worker e nel backend del servizio Dataflow. Per ulteriori informazioni, vedi Streaming Engine.
Con la fatturazione basata sulle risorse, le risorse di Streaming Engine vengono misurate in unità di calcolo Streaming Engine. Dataflow misura le risorse di Streaming Engine utilizzate da ogni job e poi fattura in base alle risorse totali utilizzate da quel job. Per abilitare la fatturazione basata sulle risorse per il tuo job, vedi Utilizza la fatturazione basata sulle risorse. Quando utilizzi la fatturazione basata sulle risorse, gli sconti esistenti vengono applicati automaticamente.
Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, ti viene addebitato l'importo in base alle risorse totali utilizzate da ciascun job, ma viene utilizzato lo SKU Data Compute Unit (DCU) invece dello SKU Streaming Engine Compute Unit.
Dataflow continua a supportare la fatturazione legacy dei dati elaborati. A meno che tu non abiliti la fatturazione basata sulle risorse, i job vengono fatturati utilizzando la fatturazione basata sui dati elaborati.
La fatturazione dei dati elaborati di Streaming Engine misura l'utilizzo in base al volume dei dati in modalità flusso elaborati, che dipende dai seguenti fattori:
Ecco alcuni esempi di ciò che viene considerato un byte elaborato:
Prezzi delle risorse di computing di Dataflow - Batch
La tabella seguente contiene i dettagli dei prezzi per le risorse worker e i dati Shuffle elaborati per Batch.
Tipo di job | Predefinito (USD) |
---|---|
CPU | 0,056 USD / 1 hour |
Memoria | 0,003557 USD / 1 gibibyte hour |
Dati elaborati durante lo shuffle | 0,011 USD / 1 gibibyte |
Valori predefiniti per nodi worker in modalità batch: 1 vCPU, 3,75 GB di memoria, 250 GB su disco permanente se non si utilizza Dataflow Shuffle, 25 GB su disco permanente se si utilizza Dataflow Shuffle
Prezzi delle risorse di computing di Dataflow - FlexRS
La tabella seguente contiene i dettagli dei prezzi per le risorse dei worker e i dati Shuffle elaborati per i job FlexRS.
Risorsa | Predefinito (USD) |
---|---|
CPU | 0,0336 USD / 1 hour |
Memoria | 0,0021342 USD / 1 gibibyte hour |
Dati elaborati durante lo shuffle | 0,011 USD / 1 gibibyte |
Valori predefiniti per nodi worker in modalità FlexRS: 2 vCPU, 7,50 GB di memoria, 25 GB su disco permanente, con un minimo di due worker
La tabella seguente contiene i dettagli dei prezzi per le risorse dei worker, i dati elaborati di Streaming Engine (legacy) e le unità di calcolo di Streaming Engine per i job di flussi.
Risorsa | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
CPU | 0,069 USD / 1 hour | 0,0552 USD / 1 hour | 0,0414 USD / 1 hour |
Memoria | 0,003557 USD / 1 gibibyte hour | 0,0028456 USD / 1 gibibyte hour | 0,0021342 USD / 1 gibibyte hour |
Dati elaborati durante lo shuffle | 0,018 USD / 1 gibibyte | 0,0144 USD / 1 gibibyte | 0,0108 USD / 1 gibibyte |
Streaming Engine | 0,089 USD / 1 count | 0,0712 USD / 1 count | 0,0534 USD / 1 count |
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.
3 Valori predefiniti per nodi worker in modalità flusso: 4 vCPU, 15 GB di memoria, 400 GB su disco permanente se non si utilizza Streaming Engine, 30 GB su disco permanente se si utilizza Streaming Engine. Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando esegue un job di flussi di dati. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
4I prezzi di Dataflow Shuffle si basano sugli aggiustamenti di volume applicati alla quantità di dati elaborati durante le operazioni di lettura e scrittura nel corso del processo di shuffling del tuo set di dati. Per ulteriori informazioni, consulta Dettagli dei prezzi di Dataflow Shuffle. I prezzi di Dataflow Shuffle non sono applicabili ai job di Streaming Engine che utilizzano la fatturazione basata sulle risorse.
5 Unità di calcolo Streaming Engine: per i job di flussi di dati che utilizzano Streaming Engine e il modello di fatturazione basato sulle risorse. Questi job non vengono fatturati per i dati elaborati durante lo shuffle.
Gli addebiti vengono calcolati per job Dataflow attraverso gli aggiustamenti di volume applicati alla quantità totale di dati elaborati durante le operazioni di Dataflow Shuffle. La tua fattura effettiva per i dati elaborati da Dataflow Shuffle equivale all'addebito del prezzo pieno per una quantità minore di dati rispetto alla quantità elaborata da un job Dataflow. Questa differenza fa sì che la metrica dati shuffle fatturabili elaborati sia inferiore alla metrica dati shuffle totali elaborati.
La seguente tabella spiega come vengono applicati questi aggiustamenti:
Dati di Dataflow Shuffle elaborati | Aggiustamento di fatturazione |
---|---|
Primi 250 GiB | Riduzione del 75% |
Successivi 4870 GiB | Riduzione del 50% |
Dati rimanenti oltre 5120 GiB (5 TiB) | nessuna |
Ad esempio, se la tua pipeline presenta 1024 GiB (1 TiB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile viene calcolato come segue:
250 GiB * 25% + 774 GiB * 50% = 449,5 GiB * velocità di elaborazione dati tramite Dataflow Shuffle a livello di area geografica
Se la tua pipeline presenta 10.240 GiB (10 TiB) di dati elaborati tramite Dataflow Shuffle totali, l'importo fatturabile di dati è:
250 GiB * 25% + 4870 GiB * 50% + 5120 GiB = 7617,5 GiB
Dataflow Prime è una piattaforma di elaborazione dati che si basa su Dataflow per apportare miglioramenti nell'utilizzo delle risorse e nella diagnostica distribuita.
Le risorse di computing utilizzate da un job Dataflow Prime vengono prezzate in base al numero di unità di calcolo dei dati (DCU). Le DCU rappresentano le risorse di computing allocate per eseguire la pipeline. Le altre risorse Dataflow utilizzate dai job Dataflow Prime, come Persistent Disk, GPU e snapshot, vengono fatturate separatamente.
Per ulteriori informazioni sulle regioni disponibili e sulle relative zone, consulta la pagina Regioni e zone di Compute Engine.
Un'unità di calcolo dei dati (DCU) è un'unità di misurazione dell'utilizzo di Dataflow che monitora il numero di risorse di computing utilizzate dai tuoi job. Le risorse monitorate dalle DCU includono vCPU, memoria, dati elaborati da Dataflow Shuffle (per i job batch) e dati elaborati da Streaming Engine (per i job di flussi di dati). I job che consumano più risorse hanno un maggiore utilizzo di DCU rispetto ai job che ne consumano meno. Una DCU è paragonabile alle risorse utilizzate da un job Dataflow in esecuzione per un'ora su un worker con 1 vCPU e 4 GB di memoria.
Ti viene addebitato il numero totale di DCU consumate dal tuo job. Il prezzo di una singola DCU varia a seconda che tu abbia un job batch o un job di flusso. Quando utilizzi Dataflow Prime con la fatturazione basata sulle risorse, ti viene addebitato il costo in base alle risorse totali utilizzate anziché ai byte elaborati.
Tipo di job | Default* (USD) | Dataflow CUD - 1 Year* (USD) | Dataflow CUD - 3 Year* (USD) |
---|---|---|---|
Batch | 0,06 USD / 1 count | - | - |
Streaming | 0,089 USD / 1 count | 0,0712 USD / 1 count | 0,0534 USD / 1 count |
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.
Non puoi impostare il numero di DCU per i tuoi job. Le DCU vengono conteggiate da Dataflow Prime. Tuttavia, puoi ridurre il numero di DCU consumate gestendo i seguenti aspetti del tuo job:
Per identificare queste ottimizzazioni, utilizza l'interfaccia di monitoraggio di Dataflow e la scheda Dettagli esecuzione.
In Dataflow, ti vengono addebitati i costi relativi alle diverse risorse utilizzate dai job, come vCPU, memoria, disco permanente e la quantità di dati elaborati da Dataflow Shuffle o Streaming Engine.
Le unità di elaborazione dati consolidano tutte le risorse, ad eccezione dello spazio di archiviazione, in un'unica unità di misurazione. Ti vengono fatturate le risorse del disco permanente e il numero di DCU consumate in base al tipo di job, batch o flusso. Per ulteriori informazioni, consulta Utilizzo di Dataflow Prime.
I job batch e flusso esistenti continueranno a essere fatturati in base al modello di Dataflow. Quando aggiorni i tuoi job per utilizzare Dataflow Prime, i job utilizzeranno il modello di prezzi di Dataflow Prime, in cui vengono fatturati per le risorse del disco permanente e per le DCU consumate.
L'archiviazione, le GPU, gli snapshot e altre risorse vengono fatturati allo stesso modo per Dataflow e Dataflow Prime.
Le risorse di archiviazione vengono fatturate con la stessa tariffa per i job di flussi, batch e FlexRS. Puoi utilizzare le opzioni pipeline per modificare la dimensione o il tipo di disco predefiniti. Dataflow Prime fattura il disco permanente separatamente in base ai prezzi riportati nella tabella seguente.
Elemento | Predefinito (USD) |
---|---|
Archiviazione - Disco permanente standard | 0,000054 USD / 1 gibibyte hour |
Archiviazione - Disco permanente SSD | 0,000298 USD / 1 gibibyte hour |
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.
Il servizio Dataflow è attualmente limitato a 15 dischi permanenti per istanza worker quando esegue un job di flussi di dati. Ogni disco permanente è locale a una singola macchina virtuale Compute Engine. Un rapporto 1:1 tra worker e dischi è l'allocazione minima delle risorse.
I job che utilizzano Streaming Engine usano dischi di avvio da 30 GB. I job che utilizzano Dataflow Shuffle utilizzano dischi di avvio da 25 GB. Per i job che non utilizzano queste offerte, la dimensione predefinita di ogni disco permanente è di 250 GB in modalità batch e 400 GB in modalità flusso.
L'utilizzo di Compute Engine si basa sul numero medio di worker, mentre l'utilizzo di Persistent Disk si basa sul valore esatto di --maxNumWorkers. I dischi permanenti vengono ridistribuiti in modo che ogni worker abbia lo stesso numero di dischi collegati.
Le risorse GPU vengono fatturate alla stessa tariffa per i job di flussi e batch. FlexRS al momento non supporta le GPU. Per informazioni sulle regioni e sulle zone disponibili per le GPU, consulta Disponibilità di regioni e zone per le GPU nella documentazione di Compute Engine.
Elemento | Predefinito (USD) |
---|---|
GPU NVIDIA® Tesla® P100 | 1,752 USD / 1 hour |
GPU NVIDIA® Tesla® V100 | 2,976 USD / 1 hour |
GPU NVIDIA® Tesla® T4 | 0,42 USD / 1 hour |
GPU NVIDIA® Tesla® P4 | 0,72 USD / 1 hour |
GPU NVIDIA® Tesla® L4 | 0,672048 USD / 1 hour |
GPU NVIDIA® Tesla® A100 (40 GB) | 3,72 USD / 1 hour |
GPU NVIDIA® Tesla® A100 (80 GB) | 4,713696 USD / 1 hour |
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.
Per aiutarti a gestire l'affidabilità delle pipeline in modalità flusso, puoi utilizzare gli snapshot per salvare e ripristinare lo stato delle pipeline. L'utilizzo di snapshot viene fatturato in base al volume dei dati archiviati, che dipende dai seguenti fattori:
Puoi acquisire uno snapshot del job di flusso utilizzando la console Dataflow o la Google Cloud CLI. Non è previsto alcun costo aggiuntivo per la creazione di un job dallo snapshot per il ripristino dello stato della pipeline. Per ulteriori informazioni, consulta Utilizzo degli snapshot di Dataflow.
Elemento | Predefinito (USD) |
---|---|
Archiviazione | 0,000205479 USD / 1 gibibyte hour |
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.
Confidential VM per Dataflow cripta i dati in uso sulle VM Compute Engine worker. Per maggiori dettagli, vedi Panoramica di Confidential VM.
L'utilizzo di Confidential VM per Dataflow comporta costi fissi aggiuntivi per vCPU e per GB.
I prezzi sono globali e non cambiano in base alla regione Google Cloud.
Elemento | Predefinito (USD) |
---|---|
CPU | 0,005479 USD / 1 hour |
Memoria | 0,0007342 USD / 1 gibibyte hour |
Oltre all'utilizzo di Dataflow, un job potrebbe consumare le seguenti risorse, ciascuna fatturata in base ai relativi prezzi, inclusi a titolo esemplificativo:
Puoi visualizzare le risorse totali per vCPU, memoria e disco permanente associate a un job nel riquadro Informazioni sul job in Metriche delle risorse. Puoi monitorare le seguenti metriche nell'interfaccia di monitoraggio di Dataflow:
Puoi utilizzare la metrica Dati di shuffle totali elaborati per valutare le prestazioni della pipeline e la metrica Dati di shuffle fatturabili elaborati per determinare i costi del job Dataflow.
Per Dataflow Prime, puoi visualizzare il numero totale di DCU utilizzate da un job nel riquadro Informazioni sul job in Metriche delle risorse.
Utilizza il Calcolatore prezzi di Google Cloud per capire meglio in che modo vengono calcolate le fatture.
Se la valuta utilizzata per il pagamento è diversa dai dollari statunitensi, si applicano i prezzi nella tua valuta elencati negli SKU Cloud Platform.