Nutzen Sie das volle Potenzial von Spark in Google Cloud. Sie haben die Wahl zwischen serverloser Einfachheit oder einer Cluster-Steuerung, die durch Hochgeschwindigkeitsverarbeitung, KI-Unterstützung und nahtlose Open-Lakehouse-Konnektivität weiter unterstützt wird.
Vorteile
Nahtlose Spark-Nutzung für alle Datennutzer
Einfacher Betrieb durch serverloses Spark
Google Cloud Serverless für Apache Spark bietet sofortiges Autoscaling – bei minimalem Konfigurationsaufwand. Mit der Lightning Engine (Vorabversion) können Sie die Abfrageleistung um das 3,6-Fache steigern*. Dataplex Universal Catalog vereinheitlicht Metadaten und vereinfacht Abläufe.
Spark auf deine Weise nutzen
„One size fits all“? Das glauben wir nicht. Google Cloud bietet Ihnen die Flexibilität, für Ihre Spark-Arbeitslasten zwischen serverlosen, verwalteten Clustern und Compute-Clustern zu wählen.
Wichtige Features
Nutzen Sie Google Cloud Serverless für Apache Spark, um Produktivität und Leistung mit Lightning Engine* und Gemini zu steigern. Diese Funktion ist eine umfassend integrierte Umgebung, in der Sie Apache Spark- und SQL-Arbeitslasten direkt in BigQuery ausführen können. Sie bietet einheitliche Sicherheit, Laufzeit-Metadaten mithilfe des BigLake-Metastores und Governance über den Dataplex Universal Catalog. Steigern Sie die Produktivität dank integrierter CI/CD und Gemini in Notebooks und vermeiden Sie die Verwaltung von Apache Spark-Clustern.
* Die Abfragen sind von den TPC-DS- und TPC-H-Standards abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS- und TPC-H-Standard-Spezifikationen entsprechen.
Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Bereitstellung und den Betrieb von Spark, Hadoop und einem umfangreichen Ökosystem mit mehr als 30 Open-Source-Tools. Dank der Einbindung in die breite Palette der Google Cloud-Produkte und ‑Dienste, einschließlich der Lightning Engine für Dataproc in der Google Compute Engine (Premium-Stufe), eignet sich das Tool ideal für die Modernisierung von Data Lakes, effiziente ETL-Pipelines und sichere Data-Science-Initiativen im großen Maßstab, bei denen die Clustersteuerung von größter Bedeutung ist.
Ganz gleich, ob Sie die einfache Zero-Ops-Lösung von Google Cloud Serverless für Apache Spark oder die Steuerung von verwalteten Dataproc-Clustern bevorzugen – Sie können den gesamten Lebenszyklus des maschinellen Lernens beschleunigen. Vorteile:
Mit Vertex AI können Sie Spark nahtlos für Data Science entwickeln und einsetzen. Nutzen Sie Spark über die Vertex AI Workbench für interaktive Entwicklungen mit integrierter Sicherheit und Unterstützung durch Gemini. Integrieren Sie Spark-Verarbeitung in Vertex AI Pipelines für robuste MLOps.
Die Spark-Angebote von Google Cloud bieten eine zuverlässige Kompatibilität mit Open-Source-Formaten wie Apache Iceberg, Delta Lake und Hudi. Nutzen Sie BigLake Metastore oder Dataproc Metastore für die einheitliche Verwaltung von Metadaten in verschiedenen Formaten. So können Sie eine offene Lakehouse-Architektur nutzen, in der Sie Daten mit der von Ihnen gewählten Spark-Engine verarbeiten können.
Spark ist eine Marke der Apache Software Foundation.
Welche Herausforderung wollen Sie meistern? Ein Google Cloud-Experte unterstützt Sie gern dabei, die beste Lösung zu finden.