这是indexloc提供的服务,不要输入任何密码

Dataproc

Una piattaforma gestita per Spark, Hadoop e analisi open source

Esegui cluster di Apache Spark, Hadoop e oltre 30 framework open source completamente gestiti con facilità e controllo. Accelera Spark su Compute Engine con Lightning Engine e integralo con la lakehouse aperta di Google Cloud.

Apache Spark è un marchio di Apache Software Foundation.

Funzionalità

Supporto robusto per l'ecosistema Hadoop

Oltre a Spark, Dataproc fornisce servizi completamente gestiti per l'intero stack Apache Hadoop (MapReduce, HDFS, YARN), oltre a Flink, Trino, Hive e oltre 30 altri strumenti open source. Per supportare queste esigenze, Dataproc si integra con Dataproc Metastore, un servizio Hive Metastore completamente gestito, semplificando la gestione dei metadati per i componenti del data lake tradizionali. Modernizza i workload dei data lake tradizionali o crea nuove applicazioni con i motori che preferisci.

Spark gestito con Lightning Engine

Esegui i workload Spark più impegnativi con il controllo di un cluster Dataproc gestito, ora potenziato con una velocità di query 3,6 volte* maggiore grazie a Lightning Engine,** in anteprima. Ottieni miglioramenti significativi delle prestazioni per le operazioni Spark SQL e DataFrame. Configura gli ambienti Spark in base alle tue esigenze, scegliendo versioni e librerie.

*Le query derivano dallo standard TPC-DS e dallo standard TPC-H e, in quanto tali, non sono comparabili ai risultati pubblicati dello standard TPC-DS e dello standard TPC-H, poiché queste esecuzioni non sono conformi a tutti i requisiti delle specifiche dello standard TPC-DS e dello standard TPC-H.

**Disponibile per Dataproc su Compute Engine a livello Premium.

Configurazione e gestione flessibili dei cluster

Personalizza i cluster Dataproc con un'ampia gamma di tipi di macchina (incluse le GPU), VM preemptible, opzioni di disco, policy di scalabilità automatica, azioni di inizializzazione, container/immagini e componenti facoltativi. Utilizza funzionalità come i modelli di workflow per orchestrare job complessi e gestire i cluster tramite la console, gcloud, l'API o le librerie client. Ottieni una visibilità approfondita sulle prestazioni e sullo stato del cluster grazie all'integrazione con Cloud Monitoring, che fornisce metriche, dashboard e funzionalità di avviso complete.

Connettività lakehouse open

I cluster Dataproc si integrano in modo nativo con BigLake Metastore, consentendoti di elaborare dati archiviati in formati aperti come Apache Iceberg su Cloud Storage. Per le esigenze tradizionali di metadati basati su Hive, è disponibile un'integrazione perfetta con il servizio gestito Dataproc Metastore. Sfrutta il catalogo universale Dataplex per l'individuazione, la derivazione e la governance unificate in tutti gli asset della tua lakehouse. Estendi le tue applicazioni di dati collegando Dataproc a BigQuery, Vertex AI, Spanner, Pub/Sub e Data Fusion, creando soluzioni potenti ed end-to-end.

Proteggi l'elaborazione dei dati open source

Sfrutta la solida sicurezza di Google Cloud. Configura Kerberos, gestisci l'accesso con IAM, applica le policy di rete con i Controlli di servizio VPC e utilizza CMEK. Esegui l'integrazione con il catalogo universale Dataplex per la gestione centralizzata delle policy e abilita il controllo dell'accesso granulare con BigLake.

Supporta data engineer e data scientist

Utilizza strumenti e IDE familiari, come gli IDE Jupyter e VS Code in esecuzione sui tuoi laptop per connetterti ai cluster Dataproc. Integra Dataproc con Vertex AI Workbench per lo sviluppo interattivo di Spark sui cluster e crea pipeline AI/ML end-to-end con Vertex AI.

Come funziona

Operazioni cluster semplificate per analisi efficaci

Utilizzi comuni

Modernizzazione dei data lake e migrazione di Hadoop

Modernizza il tuo data lake

Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.

Modernizza il tuo data lake

Esegui facilmente la migrazione dei workload Hadoop e Spark on-premise al cloud. Utilizza Dataproc per eseguire job MapReduce, Hive, Pig e Spark su dati in Cloud Storage, integrati con Dataproc Metastore e regolato dal catalogo universale Dataplex.

ETL batch su larga scala con Spark e Hadoop

elaborazione batch aziendale

Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.

    elaborazione batch aziendale

    Elabora e trasforma set di dati di grandi dimensioni in modo efficiente utilizzando Spark, accelerato da Lightning Engine con Dataproc su Compute Engine, o MapReduce su cluster Dataproc personalizzabili. Ottimizza pipeline ETL complesse per prestazioni e costi in un ambiente controllato.

      Ambienti di data science e ML configurabili

      Data science personalizzata su larga scala

      Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.


      Data science personalizzata su larga scala

      Avvia cluster Dataproc appositamente creati con versioni specifiche di Spark, Jupyter e delle librerie ML richieste per l'addestramento dei modelli collaborativo su larga scala e l'analisi avanzata. Integrazione con Vertex AI per MLOps.


      Esecuzione di vari motori di analisi open source

      OSS flessibile

      Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.

      OSS flessibile

      Esegui il deployment di cluster dedicati con Trino per SQL interattivo, Flink per l'elaborazione avanzata di flussi o altri motori open source specializzati insieme a Spark e Hadoop, il tutto gestito da Dataproc.

      Genera una soluzione
      Che tipo di problema stai cercando di risolvere?
      What you'll get:
      Guida passo passo
      Architettura di riferimento
      Soluzioni predefinite disponibili
      Questo servizio è stato creato con Vertex AI. Devi avere almeno 18 anni per utilizzarlo. Non inserire informazioni sensibili, riservate o personali.

      Prezzi

      Prezzi di Dataproc per i cluster gestitiDataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine.

      Componenti chiave:

      • Istanze Compute Engine (vCPU, memoria)
      • Commissione per il servizio Dataproc (per vCPU-ora)
      • Dischi permanenti


      Esempio:

      Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

      Prezzi di Dataproc per i cluster gestiti

      Dataproc offre prezzi con pagamento a consumo. Ottimizza i costi con la scalabilità automatica e le VM preemptible. Il livello Premium di Compute Engine consente di accelerare Spark con Lightning Engine.

      Componenti chiave:

      • Istanze Compute Engine (vCPU, memoria)
      • Commissione per il servizio Dataproc (per vCPU-ora)
      • Dischi permanenti


      Esempio:

      Un cluster con 6 nodi (1 principale + 5 worker) di 4 CPU ciascuno in esecuzione per 2 ore costerebbe 0,48 $. Costo di Dataproc = numero di vCPU * ore * prezzo Dataproc = 24 * 2 * 0,01 $ = 0,48 $

      Calcolatore prezzi

      Stima i costi mensili di Dataproc, inclusi i prezzi e le tariffe specifici per regione.

      Preventivo personalizzato

      Contatta il nostro team di vendita per ricevere un preventivo personalizzato per la tua organizzazione.

      Inizia ora

      300 $ di crediti gratuiti per i nuovi clienti

      Hai un progetto di grandi dimensioni?

      Crea un cluster Dataproc utilizzando la console Google Cloud

      Utilizzo del connettore Cloud Storage con Apache Spark

      L'Architecture Center offre risorse di contenuti su un'ampia varietà di argomenti e scenari di migrazione per aiutarti

      Dataproc
      Google Cloud