这是indexloc提供的服务,不要输入任何密码

Apache Spark en Google Cloud

Aprovecha todo el potencial de Spark en Google Cloud. Elige la facilidad sin servidores o el control de clústeres potenciados por el procesamiento de alta velocidad, la asistencia de IA y la conectividad abierta y sin interrupciones de lakehouse.

Beneficios

Aumenta la productividad de los desarrolladores y obtén estadísticas de datos con mayor rapidez

Spark sin interrupciones para todos los usuarios de datos

Ejecuta Spark fácilmente con BigQuery, Vertex AI e IDEs a través de clústeres administrados o sin servidores. Elimina las integraciones personalizadas, optimiza los flujos de trabajo de ETL a AA y aumenta la productividad con Gemini para el código y las operaciones.


Simplicidad operativa con Spark sin servidores

Google Cloud Serverless para Apache Spark ofrece ajuste de escala automático instantáneo y configuración casi nula. Obtén un rendimiento de las consultas 3.6 veces mayor* con Lightning Engine (versión preliminar). Dataplex Universal Catalog unifica los metadatos y simplifica las operaciones.

Ejecuta Spark de la forma que prefieras

Un tamaño no se ajusta a todos. Google Cloud te brinda la flexibilidad de elegir entre clústeres sin servidores, administrados y de procesamiento para tus cargas de trabajo de Spark.

Características clave

Formas eficaces de ejecutar Spark en Google Cloud

Google Cloud sin servidores para Apache Spark

Usa Google Cloud sin servidores para Apache Spark y aumenta la productividad y el rendimiento con Lightning Engine* y Gemini. Esta experiencia es un entorno profundamente integrado para ejecutar cargas de trabajo de Apache Spark y SQL directamente desde BigQuery. Proporciona seguridad unificada, metadatos de entorno de ejecución con BigLake Metastore y administración a través del catálogo universal de Dataplex. Maximiza la productividad con CI/CD integrada, Gemini en notebooks y elimina la administración de clústeres de Apache Spark.

* Las consultas se derivan del estándar TPC-DS y del estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS y del estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y del estándar TPC-H.

Clústeres administrados de Spark, Hadoop y OSS con Dataproc

Dataproc es un servicio completamente administrado y de alta escalabilidad para implementar y operar Spark, Hadoop y un vasto ecosistema de más de 30 herramientas de código abierto dedicadas. Su integración en los productos y servicios más amplios de Google Cloud, incluido Lightning Engine para Dataproc en Google Compute Engine (nivel premium), lo convierte en una opción ideal para la modernización de data lakes, las canalizaciones de ETL eficientes y las iniciativas de ciencia de datos seguras a gran escala en las que el control del clúster es primordial.

Ciencia de datos con Apache Spark en Google Cloud

Ya sea que prefieras la simplicidad sin operaciones de Google Cloud sin servidores para Apache Spark o el control de los clústeres administrados de Dataproc, puedes acelerar todo el ciclo de vida del aprendizaje automático. Beneficios:

  • Integración continua: Conéctate sin esfuerzo a BigQuery para acceder a los datos y a Vertex AI para MLOps, y crea canalizaciones de ciencia de datos de extremo a extremo.
  • Productividad de los desarrolladores: Aprovecha Gemini para obtener estadísticas de programación y asistencia en entornos de notebook como BigQuery Studio y Vertex AI Workbench.
  • Preparación de la IA y el AA: Utiliza bibliotecas de AA empaquetadas previamente y la aceleración de GPU disponible en clústeres de Spark y Dataproc sin servidores para tareas de inferencia y entrenamiento exigentes.
  • Iteración más rápida: Enfócate en el desarrollo y la experimentación sin importar lo que elijas.

Spark a través de Vertex AI

Desarrolla y operacionaliza Spark para la ciencia de datos sin problemas con Vertex AI. Usa Spark desde Vertex AI Workbench para el desarrollo interactivo con seguridad integrada y la asistencia de Gemini. Integra el procesamiento de Spark en Vertex AI Pipelines para obtener MLOps sólidas.

Compatibilidad con el formato de tabla de código abierto para tu lakehouse

Las ofertas de Spark de Google Cloud proporcionan una compatibilidad sólida con formatos de código abierto como Apache Iceberg, Delta Lake y Hudi. Aprovecha BigLake Metastore o Dataproc Metastore para la administración unificada de metadatos en todos los formatos, lo que permite una arquitectura de lakehouse abierta en la que puedes procesar datos con el motor de Spark que elijas.


Spark es una marca comercial de The Apache Software Foundation.

Da el siguiente paso

Dinos en qué estás trabajando. Un experto de Google Cloud te ayudará a encontrar la mejor solución.

Google Cloud