网络和 GPU 机器


较高的网络带宽可以提高 GPU 实例的性能,以支持在 Compute Engine 上运行的分布式工作负载。

Compute Engine 上挂接了 GPU 的实例可用的最大网络带宽如下所示:

  • 对于 A4 和 A3 加速器优化实例,您可以获得高达 3,600 Gbps 的最大网络带宽,具体取决于机器类型。
  • 对于 A2 和 G2 加速器优化实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于机器类型。
  • 对于挂接了 P100 和 P4 GPU 的 N1 通用实例,可用的最大网络带宽为 32 Gbps。这与没有挂接 GPU 的 N1 实例可用的最大速率类似。如需详细了解网络带宽,请参阅出站数据速率上限
  • 对于挂接了 T4 和 V100 GPU 的 N1 通用实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。

查看网络带宽和 NIC 配置

请参阅以下部分,查看每种 GPU 机器类型的网络配置和带宽速度。

A4 和 A3 Ultra 机器类型

A4 机器类型挂接了 NVIDIA B200 GPU,A3 Ultra 机器类型挂接了 NVIDIA H200 GPU。

这些机器类型提供 8 个 NVIDIA ConnectX-7 (CX7) 网络接口卡 (NIC) 和 2 个 Google 虚拟 NIC (gVNIC)。8 个 CX7 NIC 可提供 3,200 Gbps 的总网络带宽。这些 NIC 专用于高带宽 GPU 到 GPU 通信,无法用于其他网络需求(例如访问公共互联网)。如下图所示,每个 CX7 NIC 都与一个 GPU 对齐,以优化非统一内存访问 (NUMA)。所有 8 个 GPU 都可以使用连接它们的全互连 NVLink 桥接器快速相互通信。另外 2 个 gVNIC 网络接口卡是智能 NIC,可提供额外的 400 Gbps 网络带宽来实现通用网络要求。这些网络接口卡组合为这些机器提供的总网络带宽上限为 3,600 Gbps。

A4 和 A3 Ultra 的网络架构。
图 1:A4 和 A3 Ultra 的网络架构

如需使用这多个 NIC,您需要创建 3 个虚拟私有云网络,如下所示:

  • 2 个 VPC 网络:每个 gVNIC NIC 都必须连接到不同的 VPC 网络
  • 1 个采用 RDMA 网络配置文件的 VPC 网络:所有 8 个 CX7 NIC 共享同一个 VPC 网络

如需设置这些网络,请参阅 AI Hypercomputer 文档中的创建 VPC 网络

A4 虚拟机

已挂接的 NVIDIA Blackwell GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3e)
a4-highgpu-8g 224 3,968 12,000 10 3600 8 1,440

*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 Ultra 虚拟机

已连接的 NVIDIA H200 GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3e)
a3-ultragpu-8g 224 2,952 12,000 10 3600 8 1128

*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A3 Mega、A3 High 和 A3 Edge 机器类型

这些机器类型挂接了 H100 GPU。其中每种机器类型都有固定的 GPU 数量、vCPU 数量和内存大小。

  • 单 NIC A3 虚拟机:对于挂接了 1 到 4 个 GPU 的 A3 虚拟机,仅提供一个物理网络接口卡 (NIC)。
  • 多 NIC A3 虚拟机:对于挂接了 8 个 GPU 的 A3 虚拟机,提供多个物理 NIC。对于这些 A3 机器类型,NIC 在外围设备组件互连高速 (PCIe) 总线上的排列方式如下:
    • 对于 A3 Mega 机器类型:可使用 8+1 NIC 排列。采用这种排列时,8 个 NIC 共享同一 PCIe 总线,1 个 NIC 位于单独的 PCIe 总线上。
    • 对于 A3 High 机器类型:可使用 4+1 NIC 排列。 采用这种排列时,4 个 NIC 共享同一 PCIe 总线,而 1 个NIC 位于单独的 PCIe 总线上。
    • 对于 A3 Edge 机器类型:可使用 4+1 NIC 排列。 采用这种排列时,4 个 NIC 共享同一 PCIe 总线,而 1 个NIC 位于单独的 PCIe 总线上。 这 5 个 NIC 可为每个虚拟机提供 400 Gbps 的总网络带宽。

    共享同一 PCIe 总线的 NIC 采用非统一内存访问 (NUMA) 对齐方式,即每两个 NVIDIA H100 GPU 对应一个 NIC。这些 NIC 非常适合专用高带宽 GPU 到 GPU 通信。位于单独 PCIe 总线上的物理 NIC 非常适合其他网络需求。 如需了解如何为 A3 High 和 A3 Edge 虚拟机设置网络,请参阅设置巨型帧 MTU 网络

A3 Mega

已连接的 NVIDIA H100 GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3)
a3-megagpu-8g 208 1,872 6000 9 1800 8 640

A3 High

已连接的 NVIDIA H100 GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1,500 1 50 2 160
a3-highgpu-4g 104 936 3000 1 100 4 320
a3-highgpu-8g 208 1,872 6000 5 1000 8 640

A3 Edge

已连接的 NVIDIA H100 GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 物理 NIC 数量 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3)
a3-edgegpu-8g 208 1,872 6000 5
  • 800:适用于 asia-south1 和 northamerica-northeast2
  • 400:适用于所有其他 A3 Edge 区域
8 640

*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

A2 机器类型

每种 A2 机器类型都挂接了固定数量的 NVIDIA A100 40GB 或 NVIDIA A100 80 GB GPU。每种机器类型还具有固定的 vCPU 数量和内存大小。

A2 机器系列有两种类型:

  • A2 Ultra:这些机器类型挂接了 A100 80GB GPU 和本地 SSD 磁盘。
  • A2 标准:这些机器类型挂接了 A100 40GB GPU

A2 Ultra

已连接的 NVIDIA A100 80GB GPU
机器类型 vCPU 数量* 实例内存 (GB) 已挂接的本地 SSD (GiB) 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1500 50 4 320
a2-ultragpu-8g 96 1,360 3000 100 8 640

A2 标准

已连接的 NVIDIA A100 40GB GPU
机器类型 vCPU 数量* 实例内存 (GB) 支持本地 SSD 最大网络带宽 (Gbps) GPU 数量 GPU 内存
(GB HBM3)
a2-highgpu-1g 12 85 24 1 40
a2-highgpu-2g 24 170 32 2 80
a2-highgpu-4g 48 340 50 4 160
a2-highgpu-8g 96 680 100 8 320
a2-megagpu-16g 96 1,360 100 16 640

*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

G2 机器类型

G2 加速器优化机器类型挂接了 NVIDIA L4 GPU,非常适合注重成本效益的推理、图形密集型和高性能计算工作负载。

每种 G2 机器类型还具有默认内存和自定义内存范围。自定义内存范围定义了您可以为每种机器类型分配的实例内存量。您还可以在创建 G2 实例时添加本地 SSD 磁盘。如需了解可挂接的磁盘数量,请参阅需要您选择本地 SSD 磁盘数量的机器类型

如需为大多数 GPU 实例获得更高的网络带宽速度(50 Gbps 或更高),建议您使用 Google 虚拟 NIC (gVNIC)。如需详细了解如何创建使用 gVNIC 的 GPU 实例,请参阅创建使用更高带宽的 GPU 实例

已挂接的 NVIDIA L4 GPU
机器类型 vCPU 数量* 默认实例内存 (GB) 自定义实例内存范围 (GB) 支持的最大本地 SSD (GiB) 最大网络带宽 (Gbps) GPU 数量 GPU 内存 (GB GDDR6)
g2-standard-4 4 16 16 - 32 375 10 1 24
g2-standard-8 8 32 32 - 54 375 16 1 24
g2-standard-12 12 48 48 - 54 375 16 1 24
g2-standard-16 16 64 54 - 64 375 32 1 24
g2-standard-24 24 96 96 - 108 750 32 2 48
g2-standard-32 32 128 96 - 128 375 32 1 24
g2-standard-48 48 192 192 - 216 1500 50 4 96
g2-standard-96 96 384 384 - 432 3000 100 8 192

*每个 vCPU 是在其中一个可用的 CPU 平台上以单个硬件超线程的形式实现的。
出站带宽上限不能超过给定的数量。实际的出站带宽取决于目的地 IP 地址和其他因素。如需详细了解网络带宽,请参阅网络带宽
GPU 内存是 GPU 设备上的内存,可用于临时存储数据。它与实例的内存分开,专门用于处理图形密集型工作负载的更高带宽需求。

N1 + GPU 机器类型

对于挂接了 T4 和 V100 GPU 的 N1 通用实例,您可以获得高达 100 Gbps 的最大网络带宽,具体取决于 GPU 和 vCPU 的数量组合。如需了解所有其他 N1 GPU 实例,请参阅概览

请参阅以下部分,根据 GPU 型号、vCPU 和 GPU 数量计算可用于 T4 和 V100 实例的最大网络带宽。

少于 5 个 vCPU

对于具有 5 个或更少 vCPU 的 T4 和 V100 实例,可用的最大网络带宽为 10 Gbps。

超过 5 个 vCPU

对于具有超过 5 个 vCPU 的 T4 和 V100 实例,最大网络带宽根据该虚拟机的 vCPU 和 GPU 数量计算得出。

如需为大多数 GPU 实例获得更高的网络带宽速度(50 Gbps 或更高),建议您使用 Google 虚拟 NIC (gVNIC)。如需详细了解如何创建使用 gVNIC 的 GPU 实例,请参阅创建使用更高带宽的 GPU 实例

GPU 模型 GPU 数量 最大网络带宽计算
NVIDIA V100 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 32)
4 min(vcpu_count * 2, 50)
8 min(vcpu_count * 2, 100)
NVIDIA T4 1 min(vcpu_count * 2, 32)
2 min(vcpu_count * 2, 50)
4 min(vcpu_count * 2, 100)

MTU 设置和 GPU 机器类型

如需最大限度地提高网络带宽,请为 VPC 网络设置更高的最大传输单元 (MTU) 值。较高的 MTU 值会增加数据包大小并降低数据包标头开销,从而增加载荷数据吞吐量。

对于 GPU 机器类型,我们建议为 VPC 网络设置以下 MTU。

GPU 机器类型 建议的 MTU(以字节为单位)
VPC 网络 具有 RDMA 配置文件的 VPC 网络
  • A4X
  • A4
  • A3 Ultra
8896 8896
  • A3 Mega
  • A3 High
  • A3 Edge
8244 不适用
  • A2 标准
  • A2 Ultra
  • G2
  • 支持 GPU 的 N1 机器类型
8896 不适用

设置 MTU 值时,请注意以下事项:

  • 8192 是两个 4 KB 页面。
  • 对于启用了标头拆分的 GPU NIC,建议在 A3 Mega、A3 High 和 A3 Edge 虚拟机中使用 8244。
  • 除非表格中另有说明,否则请使用值 8896。

创建高带宽 GPU 机器

如需创建使用更高网络带宽的 GPU 实例,请根据机器类型使用以下方法之一:

后续步骤