Annoncé en mai 2025 : Dataproc Serverless est désormais Google Cloud Serverless pour Apache Spark
Spark à la demande : démarrage rapide, aucune opération, amélioration des performances des requêtes et de la productivité de Gemini Réduction du coût total de possession de jusqu'à 60 % pour les charges de travail Spark
Apache Spark est une marque de l'Apache Software Foundation.
Aucune gestion de cluster, démarrage rapide et autoscaling
Obtenez des requêtes 3,6 fois plus rapides** avec Lightning Engine
Accélérez la productivité et les opérations avec Gemini
S'intégrer parfaitement à BigQuery et Vertex AI
Entièrement compatible avec les logiciels Open Source
Fonctionnalités
Éliminez la complexité de la gestion des clusters et évitez de payer pour des ressources inutilisées ou sous-utilisées. Google Cloud Serverless pour Apache Spark offre un démarrage rapide des VM et un scaling automatique dynamique pour vos charges de travail interactives, par lot et d'IA. Concentrez-vous sur le développement de fonctionnalités, et non sur la gestion de l'infrastructure. Le démarrage et l'arrêt d'une VM ne sont pas facturés.
Profitez du meilleur rapport prix/performances du secteur. Google Cloud Serverless pour Apache Spark est basé sur notre moteur de requêtes natif nouvelle génération, Lightning Engine, en version Preview. Il offre des performances de requête et de traitement de données Spark nettement plus rapides, plus de 3,6 fois plus rapides** que celles d'Apache Spark Open Source, grâce à son exécution vectorisée avancée, son cache intelligent intégré et ses E/S de stockage optimisées. Vous pouvez ainsi obtenir des insights plus rapidement et réduire vos coûts.
** Les requêtes sont dérivées de la norme TPC-DS et de la norme TPC-H. Elles ne sont donc pas comparables aux résultats publiés pour la norme TPC-DS et la norme TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification de la norme TPC-DS et de la norme TPC-H.
Exécutez vos charges de travail Spark de production en toute confiance. Google Cloud Serverless pour Apache Spark optimise les ressources, assure l'isolation des jobs et est compatible avec les fonctionnalités de sécurité d'entreprise de Google Cloud (y compris VPC-SC, CMEK, authentification personnelle et règles d'administration personnalisées). Il assure un environnement d'exécution sécurisé avec des fonctionnalités telles que des sous-réseaux sécurisés, le chiffrement par défaut des données au repos et en transit, et l'absence d'accès direct à la VM ou à la racine, ce qui réduit votre charge de sécurité opérationnelle. Bien que conçu pour l'automatisation, Spark offre aux utilisateurs expérimentés un accès complet aux configurations pour un contrôle précis.
Intégrez l'IA générative dans le cycle de vie de votre développement Spark. Utilisez Gemini pour générer du code PySpark en tenant compte du contexte dans les notebooks avec un contexte intelligent de vos données pour booster votre productivité. Obtenez des recommandations de dépannage assistées par l'IA avec Gemini Cloud Assist Investigate pour résoudre rapidement les problèmes, obtenir des insights opérationnels plus détaillés et optimiser les performances.
Exécutez facilement des charges de travail d'entraînement distribué ou d'inférence par lot. Google Cloud Serverless pour Apache Spark offre une accélération intégrée par GPU et est livré avec des bibliothèques de ML populaires préemballées, comme XGBoost, PyTorch et Transformers. Les temps de démarrage des environnements d'IA/de ML sont ainsi considérablement réduits, et la fiabilité est améliorée, car les images sont certifiées par Google.
Profitez d'une flexibilité totale. Google Cloud Serverless pour Apache Spark est entièrement compatible avec les logiciels Open Source. Vous pouvez donc utiliser votre code et vos bibliothèques Spark existants sans les modifier. Développez dans le langage de votre choix (Python, Java, Scala, R) à l'aide de votre IDE préféré (BigQuery Studio, Vertex AI Workbench, Jupyter, VSCode) et orchestrez vos données avec des outils tels qu'Apache Airflow/Cloud Composer ou les pipelines BigQuery. Traitez tous les formats de données, y compris les formats nés de Google et Open Source comme Apache Iceberg.
Découvrez la puissance d'Apache Spark directement dans BigQuery. Écrivez et exécutez du code PySpark en même temps que du code SQL dans des notebooks Colab Enterprise unifiés, en exploitant des métadonnées communes via BigLake Metastore, une sécurité partagée et une gouvernance cohérente via Dataplex Universal Catalog.
Utilisations courantes
ETL/ELT sans serveur ultrarapide
Ingérez, transformez et chargez rapidement des ensembles de données volumineux provenant de différentes sources dans BigQuery ou Google Cloud Storage. Grâce aux performances inégalées de Lightning Engine et à l'absence de contraintes opérationnelles, simplifiez vos pipelines de données et assurez-vous de disposer de données à jour pour vos analyses.
ETL/ELT sans serveur ultrarapide
Ingérez, transformez et chargez rapidement des ensembles de données volumineux provenant de différentes sources dans BigQuery ou Google Cloud Storage. Grâce aux performances inégalées de Lightning Engine et à l'absence de contraintes opérationnelles, simplifiez vos pipelines de données et assurez-vous de disposer de données à jour pour vos analyses.
Analyses interactives et prototypage rapide
Donnez à vos data scientists et analystes les moyens d'exploiter un environnement Spark sans serveur, flexible et hautes performances. Que vous effectuiez une exploration de données ponctuelle, un prototypage rapide ou la création de modèles de machine learning sophistiqués, l'infrastructure sans serveur de Google Cloud pour Apache Spark vous offre la rapidité et les outils dont vous avez besoin. Développez du code PySpark et SQL dans BigQuery Studio pour une expérience unifiée, ou connectez-vous à partir de vos outils préférés tels que les notebooks Jupyter et VS Code avec des extensions Google Cloud. Utilisez Gemini pour l'assistance au codage et le dépannage, Lightning Engine pour obtenir rapidement des résultats de requête, et l'intégration de Vertex AI pour le MLOps. De la découverte rapide de données à l'entraînement de modèles complexes avec des GPU et des bibliothèques prédéfinies, accélérez l'ensemble du cycle de vie de la data science.
Analyses interactives et prototypage rapide
Donnez à vos data scientists et analystes les moyens d'exploiter un environnement Spark sans serveur, flexible et hautes performances. Que vous effectuiez une exploration de données ponctuelle, un prototypage rapide ou la création de modèles de machine learning sophistiqués, l'infrastructure sans serveur de Google Cloud pour Apache Spark vous offre la rapidité et les outils dont vous avez besoin. Développez du code PySpark et SQL dans BigQuery Studio pour une expérience unifiée, ou connectez-vous à partir de vos outils préférés tels que les notebooks Jupyter et VS Code avec des extensions Google Cloud. Utilisez Gemini pour l'assistance au codage et le dépannage, Lightning Engine pour obtenir rapidement des résultats de requête, et l'intégration de Vertex AI pour le MLOps. De la découverte rapide de données à l'entraînement de modèles complexes avec des GPU et des bibliothèques prédéfinies, accélérez l'ensemble du cycle de vie de la data science.
Tarification
Une tarification transparente et axée sur la valeur | Les tarifs de Google Cloud Serverless Spark sont basés sur l'utilisation par seconde de ressources de calcul (DCUs), de GPU et de stockage aléatoire. | |
---|---|---|
Services et utilisation | Type d'abonnement | Prix (USD) |
Unité de calcul de données (DCU) | Standard | À partir de 0,06 $ par heure |
Premium | À partir de 0,089 $ par heure | |
Espace de stockage aléatoire | Standard | À partir de 0,04 $ par Go-mois |
Premium | À partir de 0,1 $ par Go-mois | |
Tarifs des accélérateurs | a100 40 Go | À partir de 3,52069 $ par heure |
a100 80 Go | À partir de 4,713696 $ par heure | |
L4 | À partir de 0,672048 $ par heure |
Consultez le détail des tarifs de l'infrastructure sans serveur de Google Cloud pour Apache Spark.
Une tarification transparente et axée sur la valeur
Les tarifs de Google Cloud Serverless Spark sont basés sur l'utilisation par seconde de ressources de calcul (DCUs), de GPU et de stockage aléatoire.
Unité de calcul de données (DCU)
Standard
Starting at
0,06 $
par heure
Premium
Starting at
0,089 $
par heure
Espace de stockage aléatoire
Standard
Starting at
0,04 $
par Go-mois
Premium
Starting at
0,1 $
par Go-mois
Tarifs des accélérateurs
a100 40 Go
Starting at
3,52069 $
par heure
a100 80 Go
Starting at
4,713696 $
par heure
L4
Starting at
0,672048 $
par heure
Consultez le détail des tarifs de l'infrastructure sans serveur de Google Cloud pour Apache Spark.