Google Cloud Dataproc può offrire un risparmio sui costi compreso tra il 18% e il 60% rispetto ad altre alternative Hadoop e Spark basate su cloud. Scarica il report ESG.
Esegui cluster di Apache Spark, Hadoop e oltre 30 framework open source completamente gestiti con facilità e controllo. Accelera Spark su Compute Engine con Lightning Engine e integralo con la lakehouse aperta di Google Cloud.
Apache Spark è un marchio di Apache Software Foundation.
Funzionalità
Oltre a Spark, Dataproc fornisce servizi completamente gestiti per l'intero stack Apache Hadoop (MapReduce, HDFS, YARN), oltre a Flink, Trino, Hive e oltre 30 altri strumenti open source. Per supportare queste esigenze, Dataproc si integra con Dataproc Metastore, un servizio Hive Metastore completamente gestito, semplificando la gestione dei metadati per i componenti del data lake tradizionali. Modernizza i workload dei data lake tradizionali o crea nuove applicazioni con i motori che preferisci.
Esegui i workload Spark più impegnativi con il controllo di un cluster Dataproc gestito, ora potenziato con una velocità di query 3,6 volte* maggiore grazie a Lightning Engine,** in anteprima. Ottieni miglioramenti significativi delle prestazioni per le operazioni Spark SQL e DataFrame. Configura gli ambienti Spark in base alle tue esigenze, scegliendo versioni e librerie.
*Le query derivano dallo standard TPC-DS e dallo standard TPC-H e, in quanto tali, non sono comparabili ai risultati pubblicati dello standard TPC-DS e dello standard TPC-H, poiché queste esecuzioni non sono conformi a tutti i requisiti delle specifiche dello standard TPC-DS e dello standard TPC-H.
**Disponibile per Dataproc su Compute Engine a livello Premium.
Personalizza i cluster Dataproc con un'ampia gamma di tipi di macchina (incluse le GPU), VM preemptible, opzioni di disco, policy di scalabilità automatica, azioni di inizializzazione, container/immagini e componenti facoltativi. Utilizza funzionalità come i modelli di workflow per orchestrare job complessi e gestire i cluster tramite la console, gcloud, l'API o le librerie client. Ottieni una visibilità approfondita sulle prestazioni e sullo stato del cluster grazie all'integrazione con Cloud Monitoring, che fornisce metriche, dashboard e funzionalità di avviso complete.
I cluster Dataproc si integrano in modo nativo con BigLake Metastore, consentendoti di elaborare dati archiviati in formati aperti come Apache Iceberg su Cloud Storage. Per le esigenze tradizionali di metadati basati su Hive, è disponibile un'integrazione perfetta con il servizio gestito Dataproc Metastore. Sfrutta il catalogo universale Dataplex per l'individuazione, la derivazione e la governance unificate in tutti gli asset della tua lakehouse. Estendi le tue applicazioni di dati collegando Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, creando soluzioni potenti ed end-to-end.
Sfrutta la solida sicurezza di Google Cloud. Configura Kerberos, gestisci l'accesso con IAM, applica le policy di rete con i Controlli di servizio VPC e utilizza CMEK. Esegui l'integrazione con il catalogo universale Dataplex per la gestione centralizzata delle policy e abilita il controllo dell'accesso granulare con BigLake.
Utilizza strumenti e IDE familiari, come gli IDE Jupyter e VS Code in esecuzione sui tuoi laptop per connetterti ai cluster Dataproc. Integra Dataproc con Vertex AI Workbench per lo sviluppo interattivo di Spark sui cluster e crea pipeline AI/ML end-to-end con Vertex AI.
Utilizzi comuni
Modernizza il tuo data lake
Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.
Modernizza il tuo data lake
Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.
elaborazione batch aziendale
Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.
elaborazione batch aziendale
Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.
Data science personalizzata su larga scala
Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.
Data science personalizzata su larga scala
Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.
OSS flessibile
Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.
OSS flessibile
Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.
Prezzi
Prezzi di Dataproc per i cluster gestiti | Dataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine. |
---|---|
Componenti chiave: |
|
Esempio: | Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $ |
Prezzi di Dataproc per i cluster gestiti
Dataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine.
Componenti chiave:
Esempio:
Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $