这是indexloc提供的服务,不要输入任何密码

Dataproc

用于 Spark、Hadoop 和开源分析的托管式平台

轻松运行全托管式 Apache Spark、Hadoop 和 30 多种开源框架集群,并灵活掌控运行环境。使用 Lightning Engine 加速 Compute Engine 上的 Spark,并与 Google Cloud 的开放式数据湖仓库集成。

Apache Spark 是 Apache Software Foundation 的商标。

功能

稳健的 Hadoop 生态系统支持

除了 Spark,Dataproc 还为完整的 Apache Hadoop 技术栈(MapReduce、HDFS 和 YARN),以及 Flink、Trino、Hive 和 30 多种其他开源工具提供全托管式服务。为支持这些需求,Dataproc 集成了全托管式 Hive Metastore 服务 Dataproc Metastore,简化对传统数据湖组件的元数据管理。对传统数据湖工作负载进行现代化改造,或使用您偏好的引擎构建新应用。

使用 Lightning Engine 的托管式 Spark

利用托管式 Dataproc 集群的控制能力运行要求苛刻的 Spark 工作负载,现已在预览版中集成 Lightning Engine**,查询速度最高提升至 3.6 倍*。体验 Spark SQL 和 DataFrame 操作的显著性能提升。选择版本和库,精确地根据您的需求配置 Spark 环境。

*这些查询源自 TPC-DS 标准TPC-H 标准,因此无法与已发布的 TPC-DS 标准TPC-H 标准结果进行比较,因为这些运行不符合 TPC-DS 标准TPC-H 标准规范的所有要求。

**适用于 Dataproc on Compute Engine 高级层级。

灵活的集群配置和管理

自定义 Dataproc 集群,支持多种机器类型(包括 GPU)、抢占式虚拟机、磁盘选项、自动扩缩政策、初始化操作容器/映像可选组件。使用工作流模板等功能编排复杂作业,并通过控制台、gcloud、API 或客户端库进行集群管理。通过与 Cloud Monitoring 集成,全面掌握集群性能与健康状况,获取丰富的指标、信息中心和提醒功能。

开放式湖仓一体连接

Dataproc 集群与 BigLake Metastore 原生集成,让您可以处理以 Apache Iceberg on Cloud Storage 等开放格式存储的数据。对于基于传统 Hive 的元数据需求,可与托管式 Dataproc Metastore 服务实现无缝集成。利用 Dataplex Universal Catalog 实现对整个湖仓一体资产的统一发现、沿袭和治理。将 Dataproc 与 BigQueryVertex AISpannerPub/SubData Fusion 连接,构建强大、端到端的解决方案,从而扩展您的数据应用。

确保开源数据处理的安全性

获享 Google Cloud 的强大安全机制。配置 Kerberos、使用 IAM 管理访问权限、使用 VPC Service Controls 强制执行网络政策,以及使用 CMEK。集成 Dataplex Universal Catalog 以实现集中式政策管理,并通过 BigLake 实现细粒度访问控制。

为数据工程师和数据科学家赋能

利用熟悉的工具和 IDE(例如在笔记本电脑上运行的 Jupyter 和 VS Code IDE)来连接 Dataproc 集群。将 Dataproc 与 Vertex AI Workbench 集成,以在集群上进行交互式 Spark 开发,并使用 Vertex AI 构建端到端 AI/机器学习流水线

工作方式

简化集群操作,实现强大分析

常见用途

数据湖现代化改造和 Hadoop 迁移

对数据湖进行现代化改造

轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。

对数据湖进行现代化改造

轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。

使用 Spark 和 Hadoop 进行大规模批量 ETL

企业批处理

使用 Spark 高效地处理和转换海量数据集,借助 Compute Engine 上的 Dataproc 或可自定义的 Dataproc 集群上的 MapReduce,Lightning Engine 可加快此处理和转换过程。在受控环境中优化复杂的 ETL 流水线,以提高性能和降低成本。

    企业批处理

    使用 Spark 高效地处理和转换海量数据集,借助 Compute Engine 上的 Dataproc 或可自定义的 Dataproc 集群上的 MapReduce,Lightning Engine 可加快此处理和转换过程。在受控环境中优化复杂的 ETL 流水线,以提高性能和降低成本。

      可配置的数据科学和机器学习环境

      大规模定制数据科学

      启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。


      大规模定制数据科学

      启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。


      运行各种开源分析引擎

      灵活的 OSS

      部署包含用于交互式 SQL 的 Trino、用于高级流处理的 Flink 或其他专用开源引擎以及 Spark 和 Hadoop 的专用集群,所有这些都由 Dataproc 管理。

      灵活的 OSS

      部署包含用于交互式 SQL 的 Trino、用于高级流处理的 Flink 或其他专用开源引擎以及 Spark 和 Hadoop 的专用集群,所有这些都由 Dataproc 管理。

      生成解决方案
      您想解决什么问题?
      What you'll get:
      分步指南
      参考架构
      可用的预构建解决方案
      此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

      价格

      托管式集群的 Dataproc 价格Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。

      关键组件:

      • Compute Engine 实例(vCPU、内存)
      • Dataproc 服务费(每 vCPU 小时)
      • Persistent Disk


      示例:

      一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

      托管式集群的 Dataproc 价格

      Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。

      关键组件:

      • Compute Engine 实例(vCPU、内存)
      • Dataproc 服务费(每 vCPU 小时)
      • Persistent Disk


      示例:

      一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48

      价格计算器

      估算您的每月 Dataproc 成本,包括特定区域的价格和费用。

      定制报价

      请与我们的销售团队联系,获取为贵组织量身定制的报价。

      立即开始

      面向新客户的 $300 赠金

      有一个大型项目?

      使用 Google Cloud 控制台创建 Dataproc 集群

      将 Cloud Storage 连接器与 Apache Spark 搭配使用

      Architecture Center 提供涵盖多种迁移主题和场景的内容资源,帮助您顺利开展迁移工作

      Dataproc