轻松运行全托管式 Apache Spark、Hadoop 和 30 多种开源框架集群,并灵活掌控运行环境。使用 Lightning Engine 加速 Compute Engine 上的 Spark,并与 Google Cloud 的开放式数据湖仓库集成。
Apache Spark 是 Apache Software Foundation 的商标。
功能
除了 Spark,Dataproc 还为完整的 Apache Hadoop 技术栈(MapReduce、HDFS 和 YARN),以及 Flink、Trino、Hive 和 30 多种其他开源工具提供全托管式服务。为支持这些需求,Dataproc 集成了全托管式 Hive Metastore 服务 Dataproc Metastore,简化对传统数据湖组件的元数据管理。对传统数据湖工作负载进行现代化改造,或使用您偏好的引擎构建新应用。
自定义 Dataproc 集群,支持多种机器类型(包括 GPU)、抢占式虚拟机、磁盘选项、自动扩缩政策、初始化操作、容器/映像和可选组件。使用工作流模板等功能编排复杂作业,并通过控制台、gcloud、API 或客户端库进行集群管理。通过与 Cloud Monitoring 集成,全面掌握集群性能与健康状况,获取丰富的指标、信息中心和提醒功能。
Dataproc 集群与 BigLake Metastore 原生集成,让您可以处理以 Apache Iceberg on Cloud Storage 等开放格式存储的数据。对于基于传统 Hive 的元数据需求,可与托管式 Dataproc Metastore 服务实现无缝集成。利用 Dataplex Universal Catalog 实现对整个湖仓一体资产的统一发现、沿袭和治理。将 Dataproc 与 BigQuery、Vertex AI、Spanner、Pub/Sub 和 Data Fusion 连接,构建强大、端到端的解决方案,从而扩展您的数据应用。
获享 Google Cloud 的强大安全机制。配置 Kerberos、使用 IAM 管理访问权限、使用 VPC Service Controls 强制执行网络政策,以及使用 CMEK。集成 Dataplex Universal Catalog 以实现集中式政策管理,并通过 BigLake 实现细粒度访问控制。
利用熟悉的工具和 IDE(例如在笔记本电脑上运行的 Jupyter 和 VS Code IDE)来连接 Dataproc 集群。将 Dataproc 与 Vertex AI Workbench 集成,以在集群上进行交互式 Spark 开发,并使用 Vertex AI 构建端到端 AI/机器学习流水线。
常见用途
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
价格
托管式集群的 Dataproc 价格 | Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。 |
---|---|
关键组件: |
|
示例: | 一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48 |
托管式集群的 Dataproc 价格
Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。
关键组件:
示例:
一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48