Aprovecha todo el potencial de Spark en Google Cloud. Elige la facilidad sin servidores o el control de clústeres potenciados por el procesamiento de alta velocidad, la asistencia de IA y la conectividad abierta y sin interrupciones de lakehouse.
Beneficios
Spark sin interrupciones para todos los usuarios de datos
Simplicidad operativa con Spark sin servidores
Google Cloud Serverless para Apache Spark ofrece ajuste de escala automático instantáneo y configuración casi nula. Obtén un rendimiento de las consultas 3.6 veces mayor* con Lightning Engine (versión preliminar). Dataplex Universal Catalog unifica los metadatos y simplifica las operaciones.
Ejecuta Spark de la forma que prefieras
Un tamaño no se ajusta a todos. Google Cloud te brinda la flexibilidad de elegir entre clústeres sin servidores, administrados y de procesamiento para tus cargas de trabajo de Spark.
Características clave
Usa Google Cloud sin servidores para Apache Spark y aumenta la productividad y el rendimiento con Lightning Engine* y Gemini. Esta experiencia es un entorno profundamente integrado para ejecutar cargas de trabajo de Apache Spark y SQL directamente desde BigQuery. Proporciona seguridad unificada, metadatos de entorno de ejecución con BigLake Metastore y administración a través del catálogo universal de Dataplex. Maximiza la productividad con CI/CD integrada, Gemini en notebooks y elimina la administración de clústeres de Apache Spark.
* Las consultas se derivan del estándar TPC-DS y del estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.
Dataproc es un servicio completamente administrado y de alta escalabilidad para implementar y operar Spark, Hadoop y un vasto ecosistema de más de 30 herramientas de código abierto dedicadas. Su integración en los productos y servicios más amplios de Google Cloud, incluido Lightning Engine para Dataproc en Google Compute Engine (nivel premium), lo convierte en una opción ideal para la modernización de data lakes, las canalizaciones de ETL eficientes y las iniciativas de ciencia de datos seguras a gran escala en las que el control del clúster es primordial.
Ya sea que prefieras la simplicidad sin operaciones de Google Cloud sin servidores para Apache Spark o el control de los clústeres administrados de Dataproc, puedes acelerar todo el ciclo de vida del aprendizaje automático. Beneficios:
Desarrolla y operacionaliza Spark para la ciencia de datos sin problemas con Vertex AI. Usa Spark desde Vertex AI Workbench para el desarrollo interactivo con seguridad integrada y la asistencia de Gemini. Integra el procesamiento de Spark en Vertex AI Pipelines para obtener MLOps sólidas.
Las ofertas de Spark de Google Cloud proporcionan una compatibilidad sólida con formatos de código abierto como Apache Iceberg, Delta Lake y Hudi. Aprovecha BigLake Metastore o Dataproc Metastore para la administración unificada de metadatos en todos los formatos, lo que permite una arquitectura de lakehouse abierta en la que puedes procesar datos con el motor de Spark que elijas.
Spark es una marca comercial de The Apache Software Foundation.
Dinos en qué estás trabajando. Un experto de Google Cloud te ayudará a encontrar la mejor solución.