Google Cloud Dataproc puede ofrecer un ahorro de costos de entre el 18% y el 60% en comparación con otras alternativas de Hadoop y Spark basadas en la nube. Obtén el informe ESG.
Ejecuta clústeres de frameworks de código abierto y Apache Spark, Hadoop y más de 30 frameworks de código abierto con facilidad y control. Acelera Spark en Compute Engine con Lightning Engine y se integra en el lakehouse abierto de Google Cloud.
Spark es una marca comercial de The Apache Software Foundation.
Funciones
Además de Spark, Dataproc proporciona servicios completamente administrados para la pila completa de Apache Hadoop (MapReduce, HDFS, YARN), además de Flink, Trino, Hive y más de 30 herramientas de código abierto. Para admitirlos, Dataproc se integra en Dataproc Metastore, un servicio de Hive Metastore completamente administrado que simplifica la administración de metadatos para los componentes tradicionales de los data lakes. Moderniza las cargas de trabajo de los data lakes tradicionales o crea aplicaciones nuevas con los motores que prefieras.
Ejecuta cargas de trabajo exigentes de Spark con el control de un clúster de Dataproc administrado, ahora potenciado con una velocidad de consultas 3.6 veces mayor* gracias a Lightning Engine,** en versión preliminar. Experimenta mejoras de rendimiento significativas en las operaciones de Spark SQL y DataFrame. Configura entornos de Spark según tus necesidades, eligiendo versiones y bibliotecas.
*Las consultas se derivan del estándar TPC-DS y el estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS y el estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y el estándar TPC-H.
**Disponible para Dataproc en el nivel premium de Compute Engine.
Personaliza los clústeres de Dataproc con una amplia variedad de tipos de máquinas (incluidas las GPU), VMs interrumpibles, opciones de disco, políticas de ajuste de escala automático, acciones de inicialización, contenedores o imágenes y componentes opcionales. Usa funciones como plantillas de flujos de trabajo para organizar trabajos complejos y administrar clústeres a través de la consola, gcloud, la API o las bibliotecas cliente. Obtén una visibilidad profunda del rendimiento y el estado del clúster a través de la integración con Cloud Monitoring, que proporciona métricas, paneles y funciones de alertas integrales.
Los clústeres de Dataproc se integran de forma nativa en el almacenamiento de metadatos de BigLake, lo que te permite procesar datos almacenados en formatos abiertos como Apache Iceberg en Cloud Storage. Para las necesidades de metadatos tradicionales basadas en Hive, existe una integración continua con el servicio administrado Dataproc Metastore. Aprovecha Dataplex Universal Catalog para un descubrimiento, un linaje y una administración unificados en todos tus recursos de lakehouse. Conecta Dataproc con BigQuery, Vertex AI, Spanner, Pub/Sub y Data Fusion para ampliar tus aplicaciones de datos y crear soluciones potentes de extremo a extremo.
Aprovecha la seguridad sólida de Google Cloud. Configura Kerberos, administra el acceso con IAM, aplica políticas de red con los Controles del servicio de VPC y usa CMEK. Integrarse en el catálogo universal de Dataplex para la administración centralizada de políticas y habilitar el control de acceso detallado con BigLake
Usa herramientas e IDEs conocidas, como los IDE de Jupyter y VS Code que se ejecutan en las laptops para conectar los clústeres de Dataproc. Integra Dataproc en Vertex AI Workbench para el desarrollo interactivo de Spark en clústeres y compilar canalizaciones de IA/AA de extremo a extremo con Vertex AI.
Usos comunes
Moderniza tu data lake
Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.
Moderniza tu data lake
Migra las cargas de trabajo de Hadoop y Spark locales a la nube con facilidad. Usa Dataproc para ejecutar trabajos de MapReduce, Hive, Pig y Spark en datos de Cloud Storage, integrados en Dataproc Metastore y administrados por el catálogo universal de Dataplex.
Procesamiento por lotes empresarial
Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.
Procesamiento por lotes empresarial
Procesa y transforma conjuntos de datos masivos de forma eficiente con Spark, acelerado por Lightning Engine con Dataproc en Compute Engine o MapReduce en clústeres de Dataproc personalizables. Optimiza canalizaciones ETL complejas para el rendimiento y el costo en un entorno controlado.
Ciencia de datos personalizada a gran escala
Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.
Ciencia de datos personalizada a gran escala
Inicia clústeres de Dataproc creados para un propósito específico con versiones específicas de Spark, Jupyter y tus bibliotecas de AA necesarias para el entrenamiento de modelos colaborativos a gran escala y análisis avanzados. Integra Vertex AI para MLOps.
OSS flexible
Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.
OSS flexible
Implementa clústeres dedicados con Trino para SQL interactivo, Flink para el procesamiento de transmisiones avanzado o cualquier otro motor de código abierto especializado junto con Spark y Hadoop, todos administrados por Dataproc.
Precios
Precios de Dataproc para clústeres administrados | Dataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine. |
---|---|
Componentes clave: |
|
Ejemplo: | P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48 |
Precios de Dataproc para clústeres administrados
Dataproc ofrece precios de pago por uso. Optimiza los costos con el ajuste de escala automático y las VMs interrumpibles. El nivel premium de Compute Engine permite un Spark más rápido con Lightning Engine.
Componentes clave:
Ejemplo:
P. ej.: Un clúster con 6 nodos (1 principal + 5 trabajadores) de 4 CPUs que se ejecuten durante 2 horas costaría $0.48. Cargo de Dataproc = Cantidad de CPUs virtuales * horas * precio de Dataproc = 24 * 2 * $0.01 = $0.48