这是indexloc提供的服务,不要输入任何密码

Dataproc

Spark、Hadoop、オープンソース分析のためのマネージド プラットフォーム

フルマネージドの Apache Spark、Hadoop、30 以上のオープンソース フレームワーク クラスタを簡単に制御して実行できます。Lightning Engine で Compute Engine 上の Spark を高速化し、Google Cloud のオープン レイクハウスと統合します。

Apache Spark は Apache Software Foundation の商標です。

機能

堅牢な Hadoop エコシステムのサポート

Dataproc は、Spark のほか、Apache Hadoop スタック(MapReduce、HDFS、YARN)全体、Flink、Trino、Hive、その他 30 以上のオープンソース ツールに対応するフルマネージド サービスを提供します。これらをサポートするために、Dataproc はフルマネージドの Hive Metastore サービスである Dataproc Metastore と統合され、従来のデータレイク コンポーネントのメタデータ管理が簡素化されます。従来のデータレイク ワークロードをモダナイズしたり、好みのエンジンを使用して新しいアプリケーションを構築したりできます。

Lightning Engine によるマネージド Spark

マネージド Dataproc クラスタの制御で要求の厳しい Spark ワークロードを実行します。プレビュー版の Lightning Engine** により、クエリ速度が 3.6 倍* に向上しました。Spark SQL と DataFrame のオペレーションで大幅なパフォーマンスの向上を実感できます。バージョンとライブラリを選択して、ニーズに応じて Spark 環境を正確に構成できます。

*クエリは TPC-DS 標準TPC-H 標準から派生したものであり、TPC-DS 標準TPC-H 標準の仕様のすべての要件に準拠していないため、公開されている TPC-DS 標準TPC-H 標準の結果と比較することはできません。

**Compute Engine プレミアム ティアの Dataproc で利用可能。

柔軟なクラスタの構成と管理

さまざまなマシンタイプ(GPU を含む)、プリエンプティブル VM、ディスク オプション、自動スケーリング ポリシー、初期化アクションコンテナ/イメージオプション コンポーネントを使用して、Dataproc クラスタをカスタマイズできます。ワークフロー テンプレートなどの機能を使用して、複雑なジョブをオーケストレートし、コンソール、gcloud、API、またはクライアント ライブラリを介してクラスタを管理します。Cloud Monitoring とのインテグレーションにより、包括的な指標、ダッシュボード、アラート機能を提供して、クラスタのパフォーマンスと健全性を詳細に可視化します。

オープンなレイクハウス接続性

Dataproc クラスタは BigLake Metastore とネイティブに統合されているため、Cloud Storage 上の Apache Iceberg などのオープン形式で保存されたデータを処理できます。従来の Hive ベースのメタデータのニーズには、マネージド Dataproc Metastore サービスとのシームレスな統合が可能です。Dataplex ユニバーサル カタログを活用して、レイクハウス アセット全体で検出、リネージ、ガバナンスを統合します。Dataproc を BigQueryVertex AISpannerPub/SubData Fusion に接続してデータ アプリケーションを拡張し、強力なエンドツーエンドのソリューションを作成します。

オープンソースのデータ処理を保護

Google Cloud の堅牢なセキュリティを活用できます。Kerberos を構成し、IAM でアクセスを管理し、VPC Service Controls でネットワーク ポリシーを適用し、CMEK を使用します。Dataplex ユニバーサル・カタログ と統合して一元的なポリシー管理を行い、BigLake できめ細かいアクセス制御を実現します。

データ エンジニアとデータ サイエンティストを支援

ノートパソコンで実行している Jupyter や VS Code IDE などの使い慣れたツールや IDE を使用して、Dataproc クラスタを接続します。Dataproc を Vertex AI Workbench と統合してクラスタでのインタラクティブな Spark 開発を行い、エンドツーエンドの Vertex AI による AI/ML パイプラインを構築します。

仕組み

高度な分析のためのシンプルなクラスタ運用

一般的な使用例

データレイクのモダナイゼーションと Hadoop の移行

データレイクをモダナイズ

オンプレミスの Hadoop と Spark のワークロードをクラウドに簡単に移行できます。Dataproc を使用して、Dataproc Metastore と統合され、Dataplex ユニバーサル カタログによって管理される Cloud Storage 内のデータに対して、MapReduce、Hive、Pig、Spark ジョブを実行します。

データレイクをモダナイズ

オンプレミスの Hadoop と Spark のワークロードをクラウドに簡単に移行できます。Dataproc を使用して、Dataproc Metastore と統合され、Dataplex ユニバーサル カタログによって管理される Cloud Storage 内のデータに対して、MapReduce、Hive、Pig、Spark ジョブを実行します。

Spark と Hadoop による大規模なバッチ ETL

エンタープライズ バッチ処理

Spark を使用して大規模なデータセットを効率的に処理および変換します。Spark は、Compute Engine 上の Dataproc で Lightning Engine によって高速化されるか、カスタマイズ可能な Dataproc クラスタで MapReduce によって高速化されます。制御された環境で、パフォーマンスと費用を重視して複雑な ETL パイプラインを最適化します。

    エンタープライズ バッチ処理

    Spark を使用して大規模なデータセットを効率的に処理および変換します。Spark は、Compute Engine 上の Dataproc で Lightning Engine によって高速化されるか、カスタマイズ可能な Dataproc クラスタで MapReduce によって高速化されます。制御された環境で、パフォーマンスと費用を重視して複雑な ETL パイプラインを最適化します。

      構成可能なデータ サイエンスと ML 環境

      大規模なカスタム データ サイエンス

      特定のバージョンの Spark、Jupyter、必要な ML ライブラリを使用して、共同で大規模なモデル トレーニングと高度な分析を行うための専用 Dataproc クラスタをスピンアップします。MLOps のために Vertex AI と統合する。


      大規模なカスタム データ サイエンス

      特定のバージョンの Spark、Jupyter、必要な ML ライブラリを使用して、共同で大規模なモデル トレーニングと高度な分析を行うための専用 Dataproc クラスタをスピンアップします。MLOps のために Vertex AI と統合する。


      多様なオープンソース分析エンジンの実行

      柔軟な OSS

      インタラクティブな SQL 向けの Trino、高度なストリーム処理向けの Flink、または Spark や Hadoop と並んで Dataproc によって管理されるその他の特殊なオープンソース エンジンを備えた専用クラスタをデプロイします。

      柔軟な OSS

      インタラクティブな SQL 向けの Trino、高度なストリーム処理向けの Flink、または Spark や Hadoop と並んで Dataproc によって管理されるその他の特殊なオープンソース エンジンを備えた専用クラスタをデプロイします。

      ソリューションの生成
      解決したい問題は何ですか?
      What you'll get:
      手順ガイド
      リファレンス アーキテクチャ
      利用可能な事前構築済みソリューション
      このサービスは Vertex AI を使用して構築されました。ご利用いただけるのは 18 歳以上のユーザーのみです。機密情報や個人情報は入力しないでください。

      料金

      マネージド クラスタの Dataproc 料金Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。Compute Engine プレミアム ティアで Lightning Engine を使用して Spark を高速化

      主要コンポーネント

      • Compute Engine インスタンス(vCPU、メモリ)
      • Dataproc サービス料金(vCPU 時間単位)
      • 永続ディスク


      例:

      4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

      マネージド クラスタの Dataproc 料金

      Dataproc は従量課金制の料金体系です。自動スケーリングとプリエンプティブル VM で費用を最適化します。Compute Engine プレミアム ティアで Lightning Engine を使用して Spark を高速化

      主要コンポーネント

      • Compute Engine インスタンス(vCPU、メモリ)
      • Dataproc サービス料金(vCPU 時間単位)
      • 永続ディスク


      例:

      4 つの CPU を持つ 6 つのノード(1 つのメイン + 5 つのワーカー)を持つクラスターをそれぞれ 2 時間実行すると、費用は $0.48 になります。Dataproc 料金 = vCPU の数 × 時間 × Dataproc 料金 = 24 × 2 × $0.01 = $0.48

      料金計算ツール

      リージョン固有の料金と手数料を含む、Dataproc の毎月の費用を試算する

      カスタムの見積もり

      カスタム見積もりをご希望の場合は、Google のセールスチームにお問い合わせください。

      今すぐご登録ください

      新規のお客様向けの $300 相当の無料クレジット

      大規模なプロジェクトを計画していますか?

      Google Cloud コンソールを使用して Dataproc クラスタを作成する

      Cloud Storage コネクタと Apache Spark の併用

      アーキテクチャセンターには、移行のさまざまなテーマやシナリオに関するコンテンツ リソースが用意されており、

      Dataproc
      • Google Cloud プロダクト
      • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
      Google Cloud