2025 年 5 月发布:Dataproc Serverless 现已成为 Google Cloud Serverless for Apache Spark
按需 Spark:快速启动,无需运维,提升查询性能与 Gemini 驱动的工作效率。将 Spark 工作负载的 TCO 降低多达 60%。
Apache Spark 是 Apache Software Foundation 的商标。
功能
消除集群管理的复杂性,避免为闲置和未充分利用的资源付费。Google Cloud Serverless for Apache Spark 可为您的交互式、批量和 AI 工作负载提供快速的虚拟机启动和动态自动扩缩。将时间用于构建功能,而非管理基础架构。虚拟机启动和关闭期间不会产生费用。
放心运行您的生产环境 Spark 工作负载。Google Cloud Serverless for Apache Spark 可优化资源、提供作业隔离,并支持 Google Cloud 的企业级安全功能(包括 VPC-SC、CMEK、个人身份验证和自定义组织政策)。它通过安全子网、默认加密静态数据和传输中的数据、禁用直接虚拟机或 root 访问等功能,确保安全的执行环境,最大限度减轻您的运维安全负担。虽然 Spark 是为了实现自动化而构建的,但专业用户仍可完全访问 Spark 配置,以便进行精细控制。
将生成式 AI 融入到 Spark 开发生命周期中。借助 Gemini 在笔记本中生成基于数据智能上下文的上下文感知型 PySpark 代码,大幅提升工作效率。通过 Gemini Cloud Assist Investigate 获取 AI 辅助的故障排查建议,以快速解决问题、获得更深入的运营数据洞见并优化性能。
无缝运行分布式训练或批量推理工作负载。Google Cloud Serverless for Apache Spark 内置了对 GPU 加速的支持,并附带了 XGBoost、PyTorch 和 Transformers 等热门机器学习库的预封装版本。这些映像已通过 Google 认证,因此可显著缩短 AI/机器学习环境的启动时间并提升可靠性。
保持完全的灵活性。Google Cloud Serverless for Apache Spark 完全兼容 OSS,因此您可以无需修改即可使用现有的 Spark 代码和库。使用您偏好的 IDE(BigQuery Studio、Vertex AI Workbench、Jupyter、VSCode)和偏好的语言(Python、Java、Scala、R)进行开发,并使用 Apache Airflow/Cloud Composer 或 BigQuery 流水线等工具进行编排。处理所有数据格式,例如 Google 原生格式和 Apache Iceberg 等开源格式。
直接在 BigQuery 中体验 Apache Spark 的强大功能。在统一的 Colab Enterprise 笔记本中编写并运行 PySpark 代码和 SQL,利用 BigLake Metastore 的通用元数据、Dataplex 通用目录的共享安全性和一致的治理。
常见用途
闪电般快速的无服务器 ETL/ELT
快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。
闪电般快速的无服务器 ETL/ELT
快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。
交互式分析和快速原型设计
借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。
交互式分析和快速原型设计
借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。
价格
以价值为导向的透明定价 | Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。 | |
---|---|---|
服务和用量 | 订阅类型 | 价格 (USD) |
数据计算单元 (DCU) | 标准 | 起价 $0.06 (每小时) |
高级 | 起价 $0.089 (每小时) | |
Shuffle 存储 | 标准 | 起价 $0.04 每月每 GB |
高级 | 起价 $0.1 每月每 GB | |
加速器价格 | a100 40 GB | 起价 $3.52069 (每小时) |
a100 80 GB | 起价 $4.713696 (每小时) | |
L4 | 起价 $0.672048 (每小时) |
以价值为导向的透明定价
Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。
数据计算单元 (DCU)
标准
Starting at
$0.06
(每小时)
高级
Starting at
$0.089
(每小时)
Shuffle 存储
标准
Starting at
$0.04
每月每 GB
高级
Starting at
$0.1
每月每 GB
加速器价格
a100 40 GB
Starting at
$3.52069
(每小时)
a100 80 GB
Starting at
$4.713696
(每小时)
L4
Starting at
$0.672048
(每小时)