Annoncé en mai 2025 : Dataproc Serverless est désormais Google Cloud Serverless pour Apache Spark

Google Cloud Serverless pour Apache Spark

La nouvelle approche d'Apache Spark du développement à la production

Spark à la demande : démarrage rapide, aucune opération, amélioration des performances des requêtes et de la productivité de Gemini Réduction du coût total de possession de jusqu'à 60 % pour les charges de travail Spark

Apache Spark est une marque de l'Apache Software Foundation.

Fonctionnalités

Spark à la demande : concentrez-vous sur votre code, pas sur les clusters

Éliminez la complexité de la gestion des clusters et évitez de payer pour des ressources inutilisées ou sous-utilisées. Google Cloud Serverless pour Apache Spark offre un démarrage rapide des VM et un scaling automatique dynamique pour vos charges de travail interactives, par lot et d'IA. Concentrez-vous sur le développement de fonctionnalités, et non sur la gestion de l'infrastructure. Le démarrage et l'arrêt d'une VM ne sont pas facturés.

Boostez vos performances avec Lightning Engine

Profitez du meilleur rapport prix/performances du secteur. Google Cloud Serverless pour Apache Spark est basé sur notre moteur de requêtes natif nouvelle génération, Lightning Engine, en version Preview. Il offre des performances de requête et de traitement de données Spark nettement plus rapides, plus de 3,6 fois plus rapides** que celles d'Apache Spark Open Source, grâce à son exécution vectorisée avancée, son cache intelligent intégré et ses E/S de stockage optimisées. Vous pouvez ainsi obtenir des insights plus rapidement et réduire vos coûts.

** Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.

Sécurité et configurations adaptées aux entreprises

Exécutez vos charges de travail Spark de production en toute confiance. Google Cloud Serverless pour Apache Spark optimise les ressources, assure l'isolation des jobs et est compatible avec les fonctionnalités de sécurité d'entreprise de Google Cloud (y compris VPC-SC, CMEK, authentification personnelle et règles d'administration personnalisées). Il assure un environnement d'exécution sécurisé avec des fonctionnalités telles que des sous-réseaux sécurisés, le chiffrement par défaut des données au repos et en transit, et l'absence d'accès direct à la VM ou à la racine, ce qui réduit votre charge de sécurité opérationnelle. Bien que conçu pour l'automatisation, Spark offre aux utilisateurs expérimentés un accès complet aux configurations pour un contrôle précis.

La productivité Gemini à chaque étape

Intégrez l'IA générative dans le cycle de vie de votre développement Spark. Utilisez Gemini pour générer du code PySpark en tenant compte du contexte dans les notebooks avec un contexte intelligent de vos données pour booster votre productivité. Obtenez des recommandations de dépannage assistées par l'IA avec Gemini Cloud Assist Investigate pour résoudre rapidement les problèmes, obtenir des insights opérationnels plus détaillés et optimiser les performances.

IA/ML distribuée facile

Exécutez facilement des charges de travail d'entraînement distribué ou d'inférence par lot. Google Cloud Serverless pour Apache Spark offre une accélération intégrée par GPU et est livré avec des bibliothèques de ML populaires préemballées, comme XGBoost, PyTorch et Transformers. Les temps de démarrage des environnements d'IA/de ML sont ainsi considérablement réduits, et la fiabilité est améliorée, car les images sont certifiées par Google.

Une solution ouverte, flexible et interopérable

Profitez d'une flexibilité totale. Google Cloud Serverless pour Apache Spark est entièrement compatible avec les logiciels Open Source. Vous pouvez donc utiliser votre code et vos bibliothèques Spark existants sans les modifier. Développez dans le langage de votre choix (Python, Java, Scala, R) à l'aide de votre IDE préféré (BigQuery Studio, Vertex AI Workbench, Jupyter, VSCode) et orchestrez vos données avec des outils tels qu'Apache Airflow/Cloud Composer ou les pipelines BigQuery. Traitez tous les formats de données, y compris les formats nés de Google et Open Source comme Apache Iceberg.

Expérience BigQuery unifiée

Découvrez la puissance d'Apache Spark directement dans BigQuery. Écrivez et exécutez du code PySpark en même temps que du code SQL dans des notebooks Colab Enterprise unifiés, en exploitant des métadonnées communes via BigLake Metastore, une sécurité partagée et une gouvernance cohérente via Dataplex Universal Catalog.

Fonctionnement

Spark sans effort, de l'idée à la production

Utilisations courantes

Pipelines sans serveur

ETL/ELT sans serveur ultrarapide

Ingérez, transformez et chargez rapidement des ensembles de données volumineux provenant de différentes sources dans BigQuery ou Google Cloud Storage. Grâce aux performances inégalées de Lightning Engine et à l'absence de contraintes opérationnelles, simplifiez vos pipelines de données et assurez-vous de disposer de données à jour pour vos analyses.

Tutoriels, guides de démarrage rapide et ateliers

ETL/ELT sans serveur ultrarapide

Ingérez, transformez et chargez rapidement des ensembles de données volumineux provenant de différentes sources dans BigQuery ou Google Cloud Storage. Grâce aux performances inégalées de Lightning Engine et à l'absence de contraintes opérationnelles, simplifiez vos pipelines de données et assurez-vous de disposer de données à jour pour vos analyses.

Data science et analyses interactives

Analyses interactives et prototypage rapide

Donnez à vos data scientists et analystes les moyens d'exploiter un environnement Spark sans serveur, flexible et hautes performances. Que vous effectuiez une exploration de données ponctuelle, un prototypage rapide ou la création de modèles de machine learning sophistiqués, l'infrastructure sans serveur de Google Cloud pour Apache Spark vous offre la rapidité et les outils dont vous avez besoin. Développez du code PySpark et SQL dans BigQuery Studio pour une expérience unifiée, ou connectez-vous à partir de vos outils préférés tels que les notebooks Jupyter et VS Code avec des extensions Google Cloud. Utilisez Gemini pour l'assistance au codage et le dépannage, Lightning Engine pour obtenir rapidement des résultats de requête, et l'intégration de Vertex AI pour le MLOps. De la découverte rapide de données à l'entraînement de modèles complexes avec des GPU et des bibliothèques prédéfinies, accélérez l'ensemble du cycle de vie de la data science.

Tutoriels, guides de démarrage rapide et ateliers

Analyses interactives et prototypage rapide

Donnez à vos data scientists et analystes les moyens d'exploiter un environnement Spark sans serveur, flexible et hautes performances. Que vous effectuiez une exploration de données ponctuelle, un prototypage rapide ou la création de modèles de machine learning sophistiqués, l'infrastructure sans serveur de Google Cloud pour Apache Spark vous offre la rapidité et les outils dont vous avez besoin. Développez du code PySpark et SQL dans BigQuery Studio pour une expérience unifiée, ou connectez-vous à partir de vos outils préférés tels que les notebooks Jupyter et VS Code avec des extensions Google Cloud. Utilisez Gemini pour l'assistance au codage et le dépannage, Lightning Engine pour obtenir rapidement des résultats de requête, et l'intégration de Vertex AI pour le MLOps. De la découverte rapide de données à l'entraînement de modèles complexes avec des GPU et des bibliothèques prédéfinies, accélérez l'ensemble du cycle de vie de la data science.

Générer une solution

Quel problème essayez-vous de résoudre ?

What you'll get:

Guide par étapes

Architecture de référence

Solutions pré-intégrées disponibles

Ce service a été créé avec Vertex AI. Vous devez avoir au moins 18 ans pour l'utiliser. Ne saisissez pas d'informations sensibles, confidentielles ni personnelles.

Tarification

Une tarification transparente et axée sur la valeur	Les tarifs de Google Cloud Serverless Spark sont basés sur l'utilisation par seconde de ressources de calcul (DCUs), de GPU et de stockage aléatoire.
Services et utilisation	Type d'abonnement	Prix (USD)
Unité de calcul de données (DCU)	Standard	À partir de 0,06 $ par heure
Unité de calcul de données (DCU)	Premium	À partir de 0,089 $ par heure
Espace de stockage aléatoire	Standard	À partir de 0,04 $ par Go-mois
Espace de stockage aléatoire	Premium	À partir de 0,1 $ par Go-mois
Tarifs des accélérateurs	a100 40 Go	À partir de 3,52069 $ par heure
	a100 80 Go	À partir de 4,713696 $ par heure
	L4	À partir de 0,672048 $ par heure

Consultez le détail des tarifs de l'infrastructure sans serveur de Google Cloud pour Apache Spark.

Une tarification transparente et axée sur la valeur

Les tarifs de Google Cloud Serverless Spark sont basés sur l'utilisation par seconde de ressources de calcul (DCUs), de GPU et de stockage aléatoire.

Unité de calcul de données (DCU)

Type d'abonnement

Standard

Prix (USD)

Starting at

0,06 $

par heure

Premium

Type d'abonnement

Starting at

0,089 $

par heure

Espace de stockage aléatoire

Type d'abonnement

Standard

Prix (USD)

Starting at

0,04 $

par Go-mois

Premium

Type d'abonnement

Starting at

0,1 $

par Go-mois

Tarifs des accélérateurs

Type d'abonnement

a100 40 Go

Prix (USD)

Starting at

3,52069 $

par heure

a100 80 Go

Type d'abonnement

Starting at

4,713696 $

par heure

L4

Type d'abonnement

Starting at

0,672048 $

par heure

Consultez le détail des tarifs de l'infrastructure sans serveur de Google Cloud pour Apache Spark.

Simulateur de coût

Calculez vos coûts mensuels par région.

Devis personnalisé

Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Google Cloud Serverless pour Apache Spark

La nouvelle approche d'Apache Spark du développement à la production

Points forts du produit

Spark à la demande : concentrez-vous sur votre code, pas sur les clusters

Boostez vos performances avec Lightning Engine

Sécurité et configurations adaptées aux entreprises

La productivité Gemini à chaque étape

IA/ML distribuée facile

Une solution ouverte, flexible et interopérable

Expérience BigQuery unifiée

Spark sans effort, de l'idée à la production

Pipelines sans serveur

ETL/ELT sans serveur ultrarapide

Tutoriels, guides de démarrage rapide et ateliers

ETL/ELT sans serveur ultrarapide

Data science et analyses interactives

Analyses interactives et prototypage rapide

Tutoriels, guides de démarrage rapide et ateliers

Analyses interactives et prototypage rapide

Simulateur de coût

Devis personnalisé

Commencer dès maintenant

Tutoriel de démarrage

Vous avez un projet volumineux ?

Présentation du produit

Utiliser le connecteur BigQuery avec Google Cloud Serverless pour Apache Spark

Utiliser des GPU avec Google Cloud Serverless pour Apache Spark