Google Cloud Dataproc は、他のクラウドベースの Hadoop と Spark の代替ソリューションと比較して、18% ~ 60% の費用削減を実現できます。ESG レポートを取得する。
フルマネージドの Apache Spark、Hadoop、30 以上のオープンソース フレームワーク クラスタを簡単に制御して実行できます。Lightning Engine で Compute Engine 上の Spark を高速化し、Google Cloud のオープン レイクハウスと統合します。
Apache Spark は Apache Software Foundation の商標です。
機能
Dataproc は、Spark のほか、Apache Hadoop スタック(MapReduce、HDFS、YARN)全体、Flink、Trino、Hive、その他 30 以上のオープンソース ツールに対応するフルマネージド サービスを提供します。これらをサポートするために、Dataproc はフルマネージドの Hive Metastore サービスである Dataproc Metastore と統合され、従来のデータレイク コンポーネントのメタデータ管理が簡素化されます。従来のデータレイク ワークロードをモダナイズしたり、好みのエンジンを使用して新しいアプリケーションを構築したりできます。
マネージド Dataproc クラスタの制御で要求の厳しい Spark ワークロードを実行します。プレビュー版の Lightning Engine** により、クエリ速度が 3.6 倍* に向上しました。Spark SQL と DataFrame のオペレーションで大幅なパフォーマンスの向上を実感できます。バージョンとライブラリを選択して、ニーズに応じて Spark 環境を正確に構成できます。
*クエリは TPC-DS 標準と TPC-H 標準から派生したものであり、TPC-DS 標準と TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準と TPC-H 標準の結果と比較することはできません。
**Compute Engine プレミアム ティアの Dataproc で利用可能。
さまざまなマシンタイプ(GPU を含む)、プリエンプティブル VM、ディスク オプション、自動スケーリング ポリシー、初期化アクション、コンテナ/イメージ、オプション コンポーネントを使用して、Dataproc クラスタをカスタマイズできます。ワークフロー テンプレートなどの機能を使用して、複雑なジョブをオーケストレートし、コンソール、gcloud、API、またはクライアント ライブラリを介してクラスタを管理します。Cloud Monitoring とのインテグレーションにより、包括的な指標、ダッシュボード、アラート機能を提供して、クラスタのパフォーマンスと健全性を詳細に可視化します。
Dataproc クラスタは BigLake Metastore とネイティブに統合されているため、Cloud Storage 上の Apache Iceberg などのオープン形式で保存されたデータを処理できます。従来の Hive ベースのメタデータのニーズには、マネージド Dataproc Metastore サービスとのシームレスな統合が可能です。Dataplex ユニバーサル カタログを活用して、レイクハウス アセット全体で検出、リネージ、ガバナンスを統合します。Dataproc を BigQuery、Vertex AI、Spanner、Pub/Sub、Data Fusion に接続してデータ アプリケーションを拡張し、強力なエンドツーエンドのソリューションを作成します。
Google Cloud の堅牢なセキュリティを活用できます。Kerberos を構成し、IAM でアクセスを管理し、VPC Service Controls でネットワーク ポリシーを適用し、CMEK を使用します。Dataplex ユニバーサル・カタログ と統合して一元的なポリシー管理を行い、BigLake できめ細かいアクセス制御を実現します。
ノートパソコンで実行している Jupyter や VS Code IDE などの使い慣れたツールや IDE を使用して、Dataproc クラスタを接続します。Dataproc を Vertex AI Workbench と統合してクラスタでのインタラクティブな Spark 開発を行い、エンドツーエンドの Vertex AI による AI/ML パイプラインを構築します。
一般的な使用例
データレイクをモダナイズ
オンプレミスの Hadoop と Spark のワークロードをクラウドに簡単に移行できます。Dataproc を使用して、Dataproc Metastore と統合され、Dataplex ユニバーサル カタログによって管理される Cloud Storage 内のデータに対して、MapReduce、Hive、Pig、Spark ジョブを実行します。
データレイクをモダナイズ
オンプレミスの Hadoop と Spark のワークロードをクラウドに簡単に移行できます。Dataproc を使用して、Dataproc Metastore と統合され、Dataplex ユニバーサル カタログによって管理される Cloud Storage 内のデータに対して、MapReduce、Hive、Pig、Spark ジョブを実行します。
大規模なカスタム データ サイエンス
特定のバージョンの Spark、Jupyter、必要な ML ライブラリを使用して、共同で大規模なモデル トレーニングと高度な分析を行うための専用 Dataproc クラスタをスピンアップします。MLOps のために Vertex AI と統合する。
大規模なカスタム データ サイエンス
特定のバージョンの Spark、Jupyter、必要な ML ライブラリを使用して、共同で大規模なモデル トレーニングと高度な分析を行うための専用 Dataproc クラスタをスピンアップします。MLOps のために Vertex AI と統合する。
柔軟な OSS
インタラクティブな SQL 向けの Trino、高度なストリーム処理向けの Flink、または Spark や Hadoop と並んで Dataproc によって管理されるその他の特殊なオープンソース エンジンを備えた専用クラスタをデプロイします。
柔軟な OSS
インタラクティブな SQL 向けの Trino、高度なストリーム処理向けの Flink、または Spark や Hadoop と並んで Dataproc によって管理されるその他の特殊なオープンソース エンジンを備えた専用クラスタをデプロイします。
料金
マネージド クラスタの Dataproc 料金 | Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。Compute Engine プレミアム ティアで Lightning Engine を使用して Spark を高速化 |
---|---|
主要コンポーネント |
|
例: | 4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48 |
マネージド クラスタの Dataproc 料金
Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。Compute Engine プレミアム ティアで Lightning Engine を使用して Spark を高速化
主要コンポーネント
例:
4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48