这是indexloc提供的服务,不要输入任何密码

Apache Spark in Google Cloud

Nutzen Sie das volle Potenzial von Spark in Google Cloud. Sie haben die Wahl zwischen serverloser Einfachheit oder einer Cluster-Steuerung, die durch Hochgeschwindigkeitsverarbeitung, KI-Unterstützung und nahtlose Open-Lakehouse-Konnektivität weiter unterstützt wird.

Vorteile

Erhöhte Entwicklerproduktivität und schnellere Informationen über Daten

Nahtlose Spark-Nutzung für alle Datennutzer

Führen Sie Spark ganz einfach mit BigQuery, Vertex AI und IDEs mit serverlosen oder verwalteten Clustern aus. Mit Gemini für Code und Betrieb können Sie benutzerdefinierte Einbindungen vermeiden, ETL-zu-ML-Workflows optimieren und die Produktivität steigern.


Einfacher Betrieb durch serverloses Spark

Google Cloud Serverless für Apache Spark bietet sofortiges Autoscaling – bei minimalem Konfigurationsaufwand. Mit der Lightning Engine (Vorabversion) können Sie die Abfrageleistung um das 3,6-Fache steigern*. Dataplex Universal Catalog vereinheitlicht Metadaten und vereinfacht Abläufe.

Spark auf deine Weise nutzen

„One size fits all“? Das glauben wir nicht. Google Cloud bietet Ihnen die Flexibilität, für Ihre Spark-Arbeitslasten zwischen serverlosen, verwalteten Clustern und Compute-Clustern zu wählen.

Wichtige Features

Leistungsstarke Möglichkeiten zum Ausführen von Spark in Google Cloud

Google Cloud Serverless für Apache Spark

Nutzen Sie Google Cloud Serverless für Apache Spark, um Produktivität und Leistung mit Lightning Engine* und Gemini zu steigern. Diese Funktion ist eine umfassend integrierte Umgebung, in der Sie Apache Spark- und SQL-Arbeitslasten direkt in BigQuery ausführen können. Sie bietet einheitliche Sicherheit, Laufzeit-Metadaten mithilfe des BigLake-Metastores und Governance über den Dataplex Universal Catalog. Steigern Sie die Produktivität dank integrierter CI/CD und Gemini in Notebooks und vermeiden Sie die Verwaltung von Apache Spark-Clustern.

* Die Abfragen sind von den TPC-DS- und TPC-H-Standards abgeleitet und daher nicht mit veröffentlichten TPC-DS-Standard- und TPC-H-Standard-Ergebnissen vergleichbar, da diese Ausführungen nicht allen Anforderungen der TPC-DS- und TPC-H-Standard-Spezifikationen entsprechen.

Verwaltete Spark-, Hadoop- und OSS-Cluster mit Dataproc

Dataproc ist ein vollständig verwalteter, äußerst skalierbarer Dienst für die Bereitstellung und den Betrieb von Spark, Hadoop und einem umfangreichen Ökosystem mit mehr als 30 Open-Source-Tools. Dank der Einbindung in die breite Palette der Google Cloud-Produkte und ‑Dienste, einschließlich der Lightning Engine für Dataproc in der Google Compute Engine (Premium-Stufe), eignet sich das Tool ideal für die Modernisierung von Data Lakes, effiziente ETL-Pipelines und sichere Data-Science-Initiativen im großen Maßstab, bei denen die Clustersteuerung von größter Bedeutung ist.

Data Science mit Apache Spark in Google Cloud

Ganz gleich, ob Sie die einfache Zero-Ops-Lösung von Google Cloud Serverless für Apache Spark oder die Steuerung von verwalteten Dataproc-Clustern bevorzugen – Sie können den gesamten Lebenszyklus des maschinellen Lernens beschleunigen. Vorteile:

  • Nahtlose Integration: Einfache Verbindung zu BigQuery für den Datenzugriff und Vertex AI für MLOps, um End-to-End-Data-Science-Pipelines zu erstellen.
  • Entwicklungsproduktivität: Nutzen Sie Gemini für Coding-Einblicke und Unterstützung in Notebook-Umgebungen wie BigQuery Studio und Vertex AI Workbench.
  • AI/ML-Bereitschaft: Nutzen Sie vorkonfigurierte ML-Bibliotheken und GPU-Beschleunigung, die sowohl für serverlose Spark- als auch Dataproc-Cluster für anspruchsvolle Trainings- und Inferenzaufgaben verfügbar sind.
  • Schnellere Iterationen: Konzentrieren Sie sich auf die Entwicklung und das Testen, ganz gleich, für welche Option Sie sich entscheiden.

Spark über Vertex AI

Mit Vertex AI können Sie Spark nahtlos für Data Science entwickeln und einsetzen. Nutzen Sie Spark über die Vertex AI Workbench für interaktive Entwicklungen mit integrierter Sicherheit und Unterstützung durch Gemini. Integrieren Sie Spark-Verarbeitung in Vertex AI Pipelines für robuste MLOps.

Open-Source-Tabellenformat-Unterstützung für Ihr Lakehouse

Die Spark-Angebote von Google Cloud bieten eine zuverlässige Kompatibilität mit Open-Source-Formaten wie Apache Iceberg, Delta Lake und Hudi. Nutzen Sie BigLake Metastore oder Dataproc Metastore für die einheitliche Verwaltung von Metadaten in verschiedenen Formaten. So können Sie eine offene Lakehouse-Architektur nutzen, in der Sie Daten mit der von Ihnen gewählten Spark-Engine verarbeiten können.


Spark ist eine Marke der Apache Software Foundation.

Gleich loslegen

Welche Herausforderung wollen Sie meistern? Ein Google Cloud-Experte unterstützt Sie gern dabei, die beste Lösung zu finden.

Google Cloud