这是indexloc提供的服务,不要输入任何密码

2025 年 5 月发布:Dataproc Serverless 现已成为 Google Cloud Serverless for Apache Spark

Google Cloud Serverless for Apache Spark

Apache Spark 从开发到生产的新方式

按需 Spark:快速启动,无需运维,提升查询性能与 Gemini 驱动的工作效率。将 Spark 工作负载的 TCO 降低多达 60%

Apache Spark 是 Apache Software Foundation 的商标。


功能

按需 Spark:专注于代码,而非集群

消除集群管理的复杂性,避免为闲置和未充分利用的资源付费。Google Cloud Serverless for Apache Spark 可为您的交互式、批量和 AI 工作负载提供快速的虚拟机启动和动态自动扩缩。将时间用于构建功能,而非管理基础架构。虚拟机启动和关闭期间不会产生费用。

使用 Lightning Engine 提升性能

体验行业领先的价格性能比。Google Cloud Serverless for Apache Spark 由我们的新一代原生查询引擎 Lightning Engine 提供支持(目前为预览版)。借助先进的矢量化执行、内置的智能缓存和优化的存储 I/O,它可显著提升 Spark 查询和数据处理性能,性能比开源 Apache Spark 快超过 3.6 倍**,帮助您更快获得洞见并降低成本。

** 这些查询源自 TPC-DS 标准TPC-H 标准,因此无法与已发布的 TPC-DS 标准TPC-H 标准结果进行比较,因为这些运行不符合 TPC-DS 标准TPC-H 标准规范的所有要求。

企业级安全和配置

放心运行您的生产环境 Spark 工作负载。Google Cloud Serverless for Apache Spark 可优化资源、提供作业隔离,并支持 Google Cloud 的企业级安全功能(包括 VPC-SC、CMEK、个人身份验证和自定义组织政策)。它通过安全子网、默认加密静态数据和传输中的数据、禁用直接虚拟机或 root 访问等功能,确保安全的执行环境,最大限度减轻您的运维安全负担。虽然 Spark 是为了实现自动化而构建的,但专业用户仍可完全访问 Spark 配置,以便进行精细控制。

利用 Gemini 在每个步骤提高工作效率

将生成式 AI 融入到 Spark 开发生命周期中。借助 Gemini 在笔记本中生成基于数据智能上下文的上下文感知型 PySpark 代码,大幅提升工作效率。通过 Gemini Cloud Assist Investigate 获取 AI 辅助的故障排查建议,以快速解决问题、获得更深入的运营数据洞见并优化性能。

轻松实现分布式 AI/机器学习

无缝运行分布式训练或批量推理工作负载。Google Cloud Serverless for Apache Spark 内置了对 GPU 加速的支持,并附带了 XGBoost、PyTorch 和 Transformers 等热门机器学习库的预封装版本。这些映像已通过 Google 认证,因此可显著缩短 AI/机器学习环境的启动时间并提升可靠性。

开放、灵活且具备互操作性

保持完全的灵活性。Google Cloud Serverless for Apache Spark 完全兼容 OSS,因此您可以无需修改即可使用现有的 Spark 代码和库。使用您偏好的 IDE(BigQuery StudioVertex AI Workbench、Jupyter、VSCode)和偏好的语言(Python、Java、Scala、R)进行开发,并使用 Apache Airflow/Cloud ComposerBigQuery 流水线等工具进行编排。处理所有数据格式,例如 Google 原生格式和 Apache Iceberg 等开源格式。

统一的 BigQuery 体验

直接在 BigQuery 中体验 Apache Spark 的强大功能。在统一的 Colab Enterprise 笔记本中编写并运行 PySpark 代码和 SQL,利用 BigLake Metastore 的通用元数据、Dataplex 通用目录的共享安全性和一致的治理。

工作方式

从构思到生产,轻松启用 Spark

常见用途

无服务器流水线

闪电般快速的无服务器 ETL/ELT

快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。

闪电般快速的无服务器 ETL/ELT

快速从各种来源提取、转换和加载海量数据集到 BigQuery 或 Google Cloud Storage。借助 Lightning Engine 的卓越性能和零运营负担,简化数据流水线,并确保有最新数据可供分析。

交互式数据科学与分析

交互式分析和快速原型设计

借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。

交互式分析和快速原型设计

借助灵活高性能的无服务器 Spark 环境,为数据科学家和分析师赋能。无论您是执行临时数据探索、快速原型设计,还是构建复杂的机器学习模型,Google Cloud Serverless for Apache Spark 都能提供您所需的速度和工具。在 BigQuery Studio 中开发 PySpark 和 SQL 代码,享受统一体验,或通过 Jupyter 笔记本和安装了 Google Cloud 扩展程序的 VS Code 等首选工具进行连接。借助 Gemini 进行代码辅助与问题排查,使用 Lightning Engine 加速查询,并通过集成 Vertex AI 实现 MLOps。从快速数据发现到借助 GPU 和预构建库训练复杂模型,全程加速您的数据科学生命周期。

生成解决方案
您想解决什么问题?
What you'll get:
分步指南
参考架构
可用的预构建解决方案
此服务是使用 Vertex AI 构建的。您必须年满 18 周岁才能使用。请勿输入敏感信息、机密信息或个人信息。

价格

以价值为导向的透明定价Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。
服务和用量订阅类型 价格 (USD)

数据计算单元 (DCU)

标准

起价

$0.06

(每小时)

高级

起价

$0.089

(每小时)

Shuffle 存储

标准

起价

$0.04

每月每 GB

高级

起价

$0.1

每月每 GB

加速器价格

a100 40 GB

起价

$3.52069

(每小时)

a100 80 GB

起价

$4.713696

(每小时)

L4

起价

$0.672048

(每小时)

以价值为导向的透明定价

Google Cloud Serverless Spark 的价格基于计算 (DCU)、GPU 和 shuffle 存储空间的每秒使用量。

数据计算单元 (DCU)

订阅类型

标准

价格 (USD)

Starting at

$0.06

(每小时)

高级

订阅类型

Starting at

$0.089

(每小时)

Shuffle 存储

订阅类型

标准

价格 (USD)

Starting at

$0.04

每月每 GB

高级

订阅类型

Starting at

$0.1

每月每 GB

加速器价格

订阅类型

a100 40 GB

价格 (USD)

Starting at

$3.52069

(每小时)

a100 80 GB

订阅类型

Starting at

$4.713696

(每小时)

L4

订阅类型

Starting at

$0.672048

(每小时)

价格计算器

按区域计算您的每月费用。

定制报价

请与我们的销售团队联系,获取为贵组织量身定制的报价。

立即开始使用

入门教程

有一个大型项目?

产品概览

将 BigQuery 连接器与 Google Cloud Serverless for Apache Spark 结合使用

将 GPU 与 Google Cloud Serverless for Apache Spark 结合使用