本文档概述了 Compute Engine 上提供的 NVIDIA GPU 型号,您可以使用这些 GPU 来加速虚拟机实例上的机器学习 (ML)、数据处理和图形密集型工作负载。本文档还详细介绍了哪些 GPU 预先附加到加速器优化型机器系列(例如 A4X、A4、A3、A2 和 G2),以及哪些 GPU 可以附加到 N1 通用型实例。
您可以使用本文档比较不同 GPU 型号的性能、内存和功能。如需详细了解加速器优化机器家族,包括 CPU 平台、存储选项和网络功能方面的信息,并找到与您的工作负载匹配的特定机器类型,请参阅加速器优化机器家族。
如需详细了解 Compute Engine 上的 GPU,请参阅 GPU 简介。
如需查看 Compute Engine 上 GPU 的可用区域和可用区,请参阅 GPU 区域和可用区可用性。
可用的 GPU 型号
以下 GPU 型号可与指定的机器类型搭配使用,以支持您的 AI、ML 和 HPC 工作负载。如果您有图形密集型工作负载(例如 3D 可视化),还可以创建使用 NVIDIA RTX 虚拟工作站 (vWS) 的虚拟工作站。NVIDIA RTX 虚拟工作站适用于部分 GPU 型号。当您创建使用 NVIDIA RTX 虚拟工作站的实例时,Compute Engine 会自动添加 vWS 许可。如需了解虚拟工作站的价格,请参阅 GPU 价格页面。
对于 A 系列和 G 系列加速器优化机器类型,指定的 GPU 型号会自动挂接到实例。对于 N1 通用机器类型,您可以挂接指定的 GPU 型号。
机器类型 | GPU 模型 | NVIDIA RTX 虚拟工作站 (vWS) 型号 |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell 超级芯片 (nvidia-gb200 )。
每个超级芯片包含四个 NVIDIA B200 Blackwell GPU。 |
|
A4 | NVIDIA B200 Blackwell GPU (nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM GPU (nvidia-h200-141gb ) |
|
A3 Mega |
NVIDIA H100 SXM GPU (nvidia-h100-mega-80gb ) |
|
A3 High 和 A3 Edge |
NVIDIA H100 SXM GPU (nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80GB GPU (nvidia-a100-80gb ) |
|
A2 标准 | NVIDIA A100 40GB GPU (nvidia-a100-40gb ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
NVIDIA L4 虚拟工作站 (vWS) (nvidia-l4-vws ) |
N1 | NVIDIA T4 GPU (nvidia-tesla-t4 ) |
NVIDIA T4 虚拟工作站 (vWS) (nvidia-tesla-t4-vws ) |
NVIDIA P4 GPU (nvidia-tesla-p4 ) |
NVIDIA P4 虚拟工作站 (vWS) (nvidia-tesla-p4-vws ) |
|
NVIDIA V100 GPU (nvidia-tesla-v100 ) |
||
NVIDIA P100 GPU (nvidia-tesla-p100 ) |
NVIDIA P100 虚拟工作站 (vWS) (nvidia-tesla-p100-vws ) |
您还可以在 AI Hypercomputer 上使用一些 GPU 机器类型。AI Hypercomputer 是一种超级计算系统,经过优化可支持人工智能 (AI) 和机器学习 (ML) 工作负载。建议使用此选项创建密集分配且性能经过优化的基础架构,并集成了 Google Kubernetes Engine (GKE) 和 Slurm 调度器。
A4X 机器系列
A4X 加速器优化型机器类型使用 NVIDIA GB200 Grace Blackwell Superchip (nvidia-gb200
),非常适合基础模型训练和部署。
A4X 是一款基于 NVIDIA GB200 NVL72 的百亿亿次级平台。每台机器都有两个插槽,其中装有搭载 Arm Neoverse V2 核心的 NVIDIA Grace CPU。这些 CPU 通过快速芯片间 (NVLink-C2C) 通信连接到 4 个 NVIDIA B200 Blackwell GPU。
已挂接 NVIDIA GB200 Grace Blackwell Superchip | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12000 | 6 | 2000 | 4 | 720 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A4 机器系列
A4 加速器优化机器类型挂接了 NVIDIA B200 Blackwell GPU (nvidia-b200
),非常适合基础模型训练和提供服务。
已挂接的 NVIDIA Blackwell GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3600 | 8 | 1,440 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 机器系列
A3 加速器优化机器类型挂接了 NVIDIA H100 SXM 或 NVIDIA H200 SXM GPU。
A3 Ultra 机器类型
A3 Ultra 机器类型挂接了 NVIDIA H200 SXM GPU (nvidia-h200-141gb
),可在 A3 系列中提供最高的网络性能。A3 Ultra 机器类型非常适合基础模型训练和部署。
已连接的 NVIDIA H200 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3600 | 8 | 1128 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A3 Mega、A3 High 和 A3 Edge 机器类型
如需使用 NVIDIA H100 SXM GPU,您可以选择以下选项:
- A3 Mega:这些机器类型配有 H100 SXM GPU (
nvidia-h100-mega-80gb
),非常适合大规模训练和部署工作负载。 - A3 High:这些机器类型配有 H100 SXM GPU (
nvidia-h100-80gb
),非常适合训练和部署任务。 - A3 Edge:这些机器类型配有 H100 SXM GPU (
nvidia-h100-80gb
),专为部署而设计,并在部分区域提供。
A3 Mega
已连接的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6000 | 9 | 1800 | 8 | 640 |
A3 High
已连接的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6000 | 5 | 1000 | 8 | 640 |
A3 Edge
已连接的 NVIDIA H100 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 物理 NIC 数量 | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6000 | 5 |
|
8 | 640 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
A2 机器系列
A2 加速器优化机器类型挂接了 NVIDIA A100 GPU,非常适合模型微调、大型模型和经济高效的推理。
A2 机器系列有两种类型:
- A2 Ultra:这些机器类型挂接了 A100 80GB GPU (
nvidia-a100-80gb
) 和本地 SSD 磁盘。 - A2 Standard:这些机器类型挂接了 A100 40GB GPU (
nvidia-tesla-a100
)。您还可以在创建 A2 标准实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型。
A2 Ultra
已连接的 NVIDIA A100 80GB GPU | ||||||
---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 已挂接的本地 SSD (GiB) | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3000 | 100 | 8 | 640 |
A2 标准
已连接的 NVIDIA A100 40GB GPU | ||||||
---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 实例内存 (GB) | 支持本地 SSD | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB HBM3) |
a2-highgpu-1g |
12 | 85 | 是 | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | 是 | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | 是 | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | 是 | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | 是 | 100 | 16 | 640 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
G2 机器系列
G2 加速器优化机器类型挂接了 NVIDIA L4 GPU,非常适合注重成本效益的推理、图形密集型和高性能计算工作负载。
每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的实例内存量。您还可以在创建 G2 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型。
已挂接的 NVIDIA L4 GPU | |||||||
---|---|---|---|---|---|---|---|
机器类型 | vCPU 数量* | 默认实例内存 (GB) | 自定义实例内存范围 (GB) | 支持的最大本地 SSD (GiB) | 最大网络带宽 (Gbps)† | GPU 数量 | GPU 内存‡ (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 - 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 - 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 - 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 - 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 - 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 - 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 - 216 | 1500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 - 432 | 3000 | 100 | 8 | 192 |
*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
† 出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽。
‡GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1 机器系列
您可以将以下 GPU 型号挂接到 N1 机器类型(N1 共享核心机器类型除外)。
与加速器优化机器系列中的机器类型不同,N1 机器类型没有预设的附加 GPU 数量。而是要在创建实例时指定要附加的 GPU 数量。
如果 N1 实例挂接的 GPU 数量较少,其 vCPU 数量上限会受到限制。通常情况下,如果 GPU 数量较多,您可以创建具有较多 vCPU 和内存的实例。
N1+T4 GPU
您可以将 NVIDIA T4 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存* (GB GDDR6) | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|
nvidia-tesla-t4 或 nvidia-tesla-t4-vws
|
1 | 16 | 1 - 48 | 1 - 312 | 是 |
2 | 32 | 1 - 48 | 1 - 312 | 是 | |
4 | 64 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
N1+P4 GPU
您可以将 NVIDIA P4 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存* (GB GDDR5) | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD† |
---|---|---|---|---|---|
nvidia-tesla-p4 或 nvidia-tesla-p4-vws
|
1 | 8 | 1 - 24 | 1 - 156 | 是 |
2 | 16 | 1 - 48 | 1 - 312 | 是 | |
4 | 32 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
†对于挂接了 NVIDIA P4 GPU 的实例,仅可用区 us-central1-c
和 northamerica-northeast1-b
支持本地 SSD 磁盘。
N1+V100 GPU
您可以将 NVIDIA V100 GPU 挂接到具有以下实例配置的 N1 通用实例。
加速器类型 | GPU 数量 | GPU 内存* (GB HBM2) | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 - 12 | 1 - 78 | 是 |
2 | 32 | 1 - 24 | 1 - 156 | 是 | |
4 | 64 | 1 - 48 | 1 - 312 | 是 | |
8 | 128 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
†对于挂接了 NVIDIA V100 GPU 的实例,us-east1-c
不支持本地 SSD 磁盘。
N1+P100 GPU
您可以将 NVIDIA P100 GPU 挂接到具有以下实例配置的 N1 通用实例。
对于部分 NVIDIA P100 GPU,适用于某些配置的 CPU 和内存上限取决于运行 GPU 资源的可用区。
加速器类型 | GPU 数量 | GPU 内存* (GB HBM2) | 可用区 | vCPU 数量 | 实例内存 (GB) | 支持本地 SSD |
---|---|---|---|---|---|---|
nvidia-tesla-p100 或 nvidia-tesla-p100-vws
|
1 | 16 | 所有 P100 可用区 | 1 - 16 | 1 - 104 | 是 |
2 | 32 | 所有 P100 可用区 | 1 至 32 | 1 - 208 | 是 | |
4 | 64 | us-east1-c 、europe-west1-d 、europe-west1-b |
1 至 64 | 1 - 208 | 是 | |
所有其他 P100 可用区 | 1 - 96 | 1 - 624 | 是 |
*GPU 内存是 GPU 设备上提供的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。
常规比较图表
下表介绍了 Compute Engine 上提供的各种 GPU 内存大小、功能可用性以及理想的工作负载类型。
GPU 模型 | GPU 内存 | 互连 | NVIDIA RTX 虚拟工作站 (vWS) 支持 | 最佳用途 |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM、推荐器、HPC 的大规模分布式训练和推理 | |
B200 | 180 GB HBM3e @ 8 TBps | NVLink Full Mesh @ 1,800 GBps | LLM、推荐器、HPC 的大规模分布式训练和推理 | |
H200 | 141 GB HBM3e @ 4.8 TBps | NVLink Full Mesh @ 900 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
H100 | 80 GB HBM3 @ 3.35 TBps | NVLink Full Mesh @ 900 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 80GB | 80 GB HBM2e @ 1.9 TBps | NVLink Full Mesh @ 600 GBps | 包含用于机器学习训练、推理、HPC、BERT、DLRM 的大量数据表的大型模型 | |
A100 40GB | 40 GB HBM2 @ 1.6 TBps | NVLink Full Mesh @ 600 GBps | 机器学习训练、推理、HPC | |
L4 | 24 GB GDDR6 @ 300 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码、HPC | |
T4 | 16 GB GDDR6 @ 320 GBps | 不适用 | 机器学习推理、训练、远程可视化工作站、视频转码 | |
V100 | 16 GB HBM2 @ 900 GBps | NVLink Ring @ 300 GBps | 机器学习训练、推理、HPC | |
P4 | 8 GB GDDR5 @ 192 GBps | 不适用 | 远程可视化工作站、机器学习推理和视频转码 | |
P100 | 16 GB HBM2 @ 732 GBps | 不适用 | 机器学习推理、HPC、远程可视化工作站 |
如需比较 Compute Engine 上的各种 GPU 型号的价格和适用区域,请参阅 GPU 价格。
性能比较图表
下表介绍了 Compute Engine 上提供的不同 GPU 模型的性能规范。
计算性能
GPU 模型 | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*为了让 FP64 代码正常运行,T4、L4 和 P4 GPU 架构中包含少量的 FP64 硬件单元。
†每秒执行的 TeraOperation 数。
Tensor 核心性能
GPU 模型 | FP64 | TF32 | 混合精度 FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS† | 5,000 TFLOPS*、† | 10,000 TFLOPS† | 20,000 TFLOPS† | 10,000 TFLOPS† |
B200 | 40 TFLOPS | 1,100 TFLOPS† | 4,500 TFLOPS*、† | 9,000 TFLOPS† | 9,000 TFLOPS† | |
H200 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
H100 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*、† | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*、† | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*对于混合精度训练,NVIDIA GB200、B200、H200、H100、A100 和 L4 GPU 还支持 bfloat16
数据类型。
†NVIDIA GB200、B200、H200、H100 和 L4 GPU 支持结构稀疏性。您可以使用结构稀疏性将模型的性能提高一倍。所记录的值适用于使用结构化稀疏性的情况。
如果您未使用结构化稀疏性,则这些值会减半。
后续步骤
- 详细了解 Compute Engine GPU。
- 查看 GPU 区域和可用区可用性。
- 查看网络带宽和 GPU。
- 查看 GPU 价格详情。