Découvrez Lightning Engine, la nouvelle génération de performances Apache Spark. Lire le blog

Lightning Engine pour Apache Spark

Multipliez par 3,6* les performances des jobs Apache Spark

Améliorez les performances des requêtes avec Lightning Engine, un nouveau moteur de traitement Spark avec exécution vectorielle, mise en cache intelligente intégrée et E/S de stockage optimisées. Lightning Engine est désormais disponible en version Preview.

*Les requêtes sont dérivées des normes TPC-DS et TPC-H. Elles ne sont donc pas comparables aux résultats publiés des benchmarks TPC-DS et TPC-H, car ces exécutions ne respectent pas toutes les exigences de la spécification TPC-DS et TPC-H.

Apache Spark est une marque de l'Apache Software Foundation.

Fonctionnalités

Amélioration des performances de Spark

Lightning Engine exploite un nouveau moteur de traitement Apache Spark avec exécution vectorisée, mise en cache intelligente intégrée et E/S de stockage optimisées pour offrir des performances de requêtes nettement plus rapides. Lightning Engine est entièrement compatible avec les applications Spark Open Source.

Le meilleur rapport prix/performances du secteur

Offre des performances et une rentabilité supérieures, ce qui permet aux utilisateurs de traiter plus de données pour moins cher. Lightning Engine offre des performances supérieures de 3,6 x* à celles d'Apache Spark Open Source, ainsi que des intégrations approfondies à différents services Google Cloud tels que BigQuery et Vertex AI. L'optimisation gérée réduit le besoin de régler manuellement les performances.

Interopérabilité avec Open Lakehouse

Lightning Engine est profondément intégré à Apache Iceberg et Google Cloud BigLake, ce qui permet de bénéficier d'une plate-forme unifiée d'analyse de données et d'IA. Il intègre des connecteurs de données optimisés pour Cloud Storage et BigQuery, qui améliorent considérablement la latence d'accès aux données et le débit.

Déploiement flexible

Lightning Engine est actuellement en preview et sera disponible dans le niveau premium de Google Cloud Serverless pour Apache Spark, ainsi que dans les clusters gérés de Dataproc. Ces deux services sont déjà compatibles avec les GPU pour accélérer les charges de travail de machine learning, et offrent des outils de surveillance des jobs de pointe pour une efficacité opérationnelle optimale. Avec Spark sans serveur, qui permet de traiter des tâches de production robustes à grande échelle grâce à des configurations Spark flexibles et à la gestion de grands volumes d'enregistrements, vous atteignez également une utilisation des ressources proche de 100 %.

Fonctionnement

Lightning Engine améliore considérablement les performances de Spark sur Google Cloud en optimisant l'accès aux données, en implémentant un cache intelligent et en exploitant un moteur d'exécution vectorisé en C++. Les temps de requête sont ainsi considérablement réduits et la consommation de ressources est diminuée dans divers benchmarks.

Utilisations courantes

Charges de travail ETL/ELT à grande échelle

Améliorer les performances des charges de travail avec des transformations SQL complexes

Les charges de travail ETL/ELT à grande échelle avec des requêtes SQL complexes sont souvent liées au processeur et impliquent des calculs et des mélanges de données importants. Le traitement matriciel et l'exécution vectorisée de Lightning Engine peuvent contribuer à réduire considérablement le temps de traitement de ces opérations SQL complexes, ce qui permet d'accélérer les pipelines de données, de réduire les coûts grâce à des temps d'exécution plus courts et de mettre à jour les données plus fréquemment.

Tutoriels, guides de démarrage rapide et ateliers

Améliorer les performances des charges de travail avec des transformations SQL complexes

Les charges de travail ETL/ELT à grande échelle avec des requêtes SQL complexes sont souvent liées au processeur et impliquent des calculs et des mélanges de données importants. Le traitement matriciel et l'exécution vectorisée de Lightning Engine peuvent contribuer à réduire considérablement le temps de traitement de ces opérations SQL complexes, ce qui permet d'accélérer les pipelines de données, de réduire les coûts grâce à des temps d'exécution plus courts et de mettre à jour les données plus fréquemment.

Charges de travail d'IA et de ML

Accélérez les charges de travail d'IA/de ML et les charges de travail ETL avec la prise en charge native des GPU

Exécutez des charges de travail d'entraînement Spark ML et d'inférence par lot sans configuration ni installation supplémentaires. L'image Spark est pré-packagée avec les pilotes NVIDIA et les bibliothèques de ML populaires. Utilisez la prise en charge intégrée des jobs Spark Rapids, qui bénéficie de toutes les améliorations apportées aux performances de Lightning Engine, dispose de configurations par défaut optimales pour que les jobs utilisent mieux les GPU et offre un autoscaling rapide des nœuds.

Tutoriels, guides de démarrage rapide et ateliers

Accélérez les charges de travail d'IA/de ML et les charges de travail ETL avec la prise en charge native des GPU

Exécutez des charges de travail d'entraînement Spark ML et d'inférence par lot sans configuration ni installation supplémentaires. L'image Spark est pré-packagée avec les pilotes NVIDIA et les bibliothèques de ML populaires. Utilisez la prise en charge intégrée des jobs Spark Rapids, qui bénéficie de toutes les améliorations apportées aux performances de Lightning Engine, dispose de configurations par défaut optimales pour que les jobs utilisent mieux les GPU et offre un autoscaling rapide des nœuds.

Générer une solution

Quel problème essayez-vous de résoudre ?

What you'll get:

Guide par étapes

Architecture de référence

Solutions pré-intégrées disponibles

Ce service a été créé avec Vertex AI. Vous devez avoir au moins 18 ans pour l'utiliser. Ne saisissez pas d'informations sensibles, confidentielles ni personnelles.

Tarification

Fonctionnement des tarifs de Lightning Engine	Lightning Engine pour Apache Spark est en version Preview. Les tarifs seront bientôt disponibles.
Services et utilisation	Description	Prix (USD)
Unité de calcul de données (DCU)	Le détail des tarifs DCU sera bientôt disponible.	Bientôt disponible

Les tarifs de Lightning Engine (Preview) seront bientôt disponibles.

Fonctionnement des tarifs de Lightning Engine

Lightning Engine pour Apache Spark est en version Preview. Les tarifs seront bientôt disponibles.

Unité de calcul de données (DCU)

Description

Le détail des tarifs DCU sera bientôt disponible.

Prix (USD)

Bientôt disponible

Les tarifs de Lightning Engine (Preview) seront bientôt disponibles.

Simulateur de coût

Estimez vos coûts mensuels (l'estimation inclut les tarifs et les frais spécifiques à une région).

Devis personnalisé

Contactez notre équipe commerciale pour obtenir un devis personnalisé pour votre entreprise.

Lightning Engine pour Apache Spark

Multipliez par 3,6* les performances des jobs Apache Spark

Points forts du produit

Amélioration des performances de Spark

Le meilleur rapport prix/performances du secteur

Interopérabilité avec Open Lakehouse

Déploiement flexible

Charges de travail ETL/ELT à grande échelle

Améliorer les performances des charges de travail avec des transformations SQL complexes

Tutoriels, guides de démarrage rapide et ateliers

Améliorer les performances des charges de travail avec des transformations SQL complexes

Charges de travail d'IA et de ML

Accélérez les charges de travail d'IA/de ML et les charges de travail ETL avec la prise en charge native des GPU

Tutoriels, guides de démarrage rapide et ateliers

Accélérez les charges de travail d'IA/de ML et les charges de travail ETL avec la prise en charge native des GPU

Simulateur de coût

Devis personnalisé

Commencer votre démonstration de faisabilité

Boostez vos jobs Spark

Vous avez un projet volumineux ?

En savoir plus sur Google Cloud Serverless pour Apache Spark

Quand utiliser Lightning Engine pour Apache Spark

Ajuster vos charges de travail Spark Lightning Engine