Documentation Dataproc
Dataproc est un service géré Apache Spark et Apache Hadoop qui vous permet de bénéficier d'outils de données Open Source pour le traitement par lot, l'émission de requêtes, le streaming et le machine learning. L'automatisation Dataproc vous permet de créer des clusters rapidement, de les gérer facilement et de faire des économies en désactivant ceux que vous n'utilisez plus. Vous consacrez moins de temps et d'argent aux fonctions d'administration, ce qui vous permet de vous concentrer sur les tâches et les données. En savoir plus
Démarrez votre démonstration de faisabilité avec 300 $ de crédits gratuits
- Accès à Gemini 2.0 Flash Thinking
- Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
- Aucuns frais automatiques, aucun engagement
Continuez à explorer le monde avec plus de 20 produits toujours gratuits
Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.
Ressources de documentation
Guides
-
Guides de démarrage rapide : Console, Ligne de commande, Bibliothèques clientes, Explorateur d'API : créer un cluster ou Explorateur d'API : envoyer un job Spark
Ressources associées
Exécuter une tâche Spark sur Google Kubernetes Engine
Envoyez des tâches Spark à un cluster Google Kubernetes Engine en cours d'exécution à partir de l'API Jobs de Dataproc.
Présentation de Cloud Dataproc : Hadoop et Spark sur Google Cloud
Ce cours combine des présentations, des démonstrations et des ateliers pratiques pour vous apprendre à créer un cluster Dataproc, envoyer une tâche Spark, puis arrêter le cluster.
Machine learning avec Spark sur Dataproc
Ce cours combine des présentations, des démonstrations et des ateliers pratiques pour vous apprendre à mettre en œuvre une régression logistique à l'aide d'une bibliothèque de machine learning pour Apache Spark exécutée sur un cluster Dataproc. L'objectif sera de développer un modèle de données à partir d'un ensemble de données multivariable.
Solutions de planification des workflows
Planifiez des workflows sur Google Cloud.
Migrer des données HDFS sur site vers Google Cloud
Découvrez comment transférer des données depuis un système de fichiers distribués Hadoop (HDFS) vers Google Cloud.
Gérer les dépendances Java et Scala pour Apache Spark
Méthodes recommandées pour inclure des dépendances lorsque vous envoyez une tâche Spark à un cluster Dataproc.
Exemples d'API Python
Appelez les API Dataproc à partir de Python.
Exemples d'API Java
Appelez les API Dataproc à partir de Java.
Exemples d'API Node.js
Appelez les API Dataproc à partir de Node.js.
Exemples d'API Go
Appelez les API Dataproc à partir de Go.