Anunciado en mayo de 2025: Dataproc Serverless ahora es Google Cloud Serverless for Apache Spark
Spark según demanda: Inicio rápido, cero operaciones, mejora del rendimiento de las consultas y productividad de Gemini. TCO hasta un 60% más bajo para las cargas de trabajo de Spark.
Apache Spark es una marca comercial de The Apache Software Foundation.
Funciones
Elimina las complejidades de la administración de clústeres y evita pagar por recursos inactivos o infrautilizados. Google Cloud Serverless for Apache Spark ofrece un inicio rápido de VMs y escalado automático dinámico para tus cargas de trabajo interactivas, por lotes y de IA. Dedica tu tiempo a crear funciones, no a administrar la infraestructura. No se aplican cargos durante el inicio ni la detención de las VMs.
Experimenta una relación precio-rendimiento líder en el sector. Google Cloud Serverless for Apache Spark se potencia con nuestro motor de consultas nativo de nueva generación, Lightning Engine, en versión preliminar. Ofrece un rendimiento de procesamiento de datos y consultas de Spark significativamente más rápido, más de 3.6 veces más rápido** que Apache Spark de código abierto, a través de su ejecución vectorizada avanzada, almacenamiento en caché inteligente integrado y E/S de almacenamiento optimizada, lo que te ayuda a obtener estadísticas más rápido y reducir los costos.
** Las consultas se derivan del estándar TPC-DS y el estándar TPC-H y, como tal, no son comparables con los resultados publicados del estándar TPC-DS y el estándar TPC-H, ya que estas ejecuciones no cumplen con todos los requisitos de la especificación del estándar TPC-DS y el estándar TPC-H.
Ejecuta tus cargas de trabajo de producción de Spark con confianza. Google Cloud Serverless for Apache Spark optimiza los recursos, proporciona aislamiento de trabajos y admite las funciones de seguridad empresarial de Google Cloud (incluidos VPC-SC, CMEK, la autenticación personal y las políticas de organización personalizadas). Garantiza un entorno de ejecución seguro con funciones como subredes seguras, encriptación predeterminada para datos en reposo y en tránsito, y sin acceso directo a la VM o al usuario raíz, lo que minimiza la carga de seguridad operativa. Si bien se creó para la automatización, los usuarios expertos conservan el acceso completo a las configuraciones de Spark para tener un control detallado.
Incorpora la IA generativa en tu ciclo de vida de desarrollo de Spark. Aprovecha Gemini para la generación de código PySpark contextual en notebooks con contexto inteligente de tus datos para potenciar la productividad. Obtén recomendaciones de solución de problemas asistidas por IA con Gemini Cloud Assist Investigate para resolver problemas rápidamente, obtener estadísticas operativas más detalladas y optimizar el rendimiento.
Ejecuta cargas de trabajo de inferencia por lotes o de entrenamiento distribuido sin problemas. Google Cloud Serverless for Apache Spark ofrece compatibilidad integrada para la aceleración de GPU y viene con bibliotecas populares de AA empaquetadas previamente, como XGBoost, PyTorch y Transformers. Esto genera tiempos de inicio mucho más rápidos para los entornos de IA y AA y mejora la confiabilidad, ya que las imágenes están certificadas por Google.
Mantén la flexibilidad total. Google Cloud Serverless for Apache Spark es totalmente compatible con OSS, por lo que puedes usar tu código y bibliotecas de Spark existentes sin modificaciones. Desarrolla en el lenguaje que prefieras (Python, Java, Scala o R) con tu IDE preferido (BigQuery Studio, Vertex AI Workbench, Jupyter o VS Code) y organiza con herramientas como Apache Airflow, Cloud Composer o canalizaciones de BigQuery. Procesa todos los formatos de datos, como los nativos de Google y de código abierto, como Apache Iceberg.
Experimenta la potencia de Apache Spark directamente en BigQuery. Escribe y ejecuta código de PySpark junto con SQL en notebooks de Colab Enterprise unificados, aprovechando los metadatos comunes a través de BigLake Metastore, la seguridad compartida y la administración coherente a través de Dataplex Universal Catalog.
Usos comunes
Procesos ETL/ELT sin servidores ultrarrápidos
Transfiere, transforma y carga rápidamente conjuntos de datos masivos de diversas fuentes en BigQuery o Google Cloud Storage. Con el rendimiento inigualable de Lightning Engine y sin carga operativa, optimiza tus canalizaciones de datos y garantiza datos actualizados para las estadísticas.
Procesos ETL/ELT sin servidores ultrarrápidos
Transfiere, transforma y carga rápidamente conjuntos de datos masivos de diversas fuentes en BigQuery o Google Cloud Storage. Con el rendimiento inigualable de Lightning Engine y sin carga operativa, optimiza tus canalizaciones de datos y garantiza datos actualizados para las estadísticas.
Análisis interactivo y prototipado rápido
Empodera a tus científicos y analistas de datos con un entorno de Spark sin servidores, flexible y de alto rendimiento. Ya sea que realices una exploración de datos ad hoc, prototipos rápidos o la creación de modelos de aprendizaje automático sofisticados, Google Cloud sin servidores para Apache Spark proporciona la velocidad y las herramientas que necesitas. Desarrolla código de PySpark y SQL en BigQuery Studio para una experiencia unificada o conéctate desde tus herramientas preferidas, como los notebooks de Jupyter y VS Code con extensiones de Google Cloud. Aprovecha Gemini para obtener asistencia con el código y solucionar problemas, Lightning Engine para obtener resultados de consultas rápidos y la integración de Vertex AI para las MLOps. Desde el descubrimiento rápido de datos hasta el entrenamiento de modelos complejos con GPU y bibliotecas empaquetadas previamente, acelera todo tu ciclo de vida de la ciencia de datos.
Análisis interactivo y prototipado rápido
Empodera a tus científicos y analistas de datos con un entorno de Spark sin servidores, flexible y de alto rendimiento. Ya sea que realices una exploración de datos ad hoc, prototipos rápidos o la creación de modelos de aprendizaje automático sofisticados, Google Cloud sin servidores para Apache Spark proporciona la velocidad y las herramientas que necesitas. Desarrolla código de PySpark y SQL en BigQuery Studio para una experiencia unificada o conéctate desde tus herramientas preferidas, como los notebooks de Jupyter y VS Code con extensiones de Google Cloud. Aprovecha Gemini para obtener asistencia con el código y solucionar problemas, Lightning Engine para obtener resultados de consultas rápidos y la integración de Vertex AI para las MLOps. Desde el descubrimiento rápido de datos hasta el entrenamiento de modelos complejos con GPU y bibliotecas empaquetadas previamente, acelera todo tu ciclo de vida de la ciencia de datos.
Precios
Precios transparentes y basados en el valor | Los precios de Google Cloud Serverless for Spark se basan en el uso por segundo de procesamiento (DCU), GPU y almacenamiento aleatorio. | |
---|---|---|
Servicios y uso | Tipo de suscripción | Precio (USD) |
Unidad de procesamiento de datos (DCU) | Estándar | A partir de $0.06 por hora |
Premium | A partir de $0.089 por hora | |
Almacenamiento de Shuffle | Estándar | A partir de $0.04 por GB, por mes |
Premium | A partir de $0.1 por GB, por mes | |
Precios del acelerador | a100 40 GB | A partir de $3.52069 por hora |
a100 80 GB | A partir de $4.713696 por hora | |
L4 | A partir de $0.672048 por hora |
Consulta los detalles de los precios de Google Cloud sion servidores para Apache Spark.
Precios transparentes y basados en el valor
Los precios de Google Cloud Serverless for Spark se basan en el uso por segundo de procesamiento (DCU), GPU y almacenamiento aleatorio.
Unidad de procesamiento de datos (DCU)
Estándar
Starting at
$0.06
por hora
Premium
Starting at
$0.089
por hora
Almacenamiento de Shuffle
Estándar
Starting at
$0.04
por GB, por mes
Premium
Starting at
$0.1
por GB, por mes
Precios del acelerador
a100 40 GB
Starting at
$3.52069
por hora
a100 80 GB
Starting at
$4.713696
por hora
L4
Starting at
$0.672048
por hora
Consulta los detalles de los precios de Google Cloud sion servidores para Apache Spark.