En este documento, se describen los modelos de GPU de NVIDIA disponibles en Compute Engine, que puedes usar para acelerar el aprendizaje automático (AA), el procesamiento de datos y las cargas de trabajo con uso intensivo de gráficos en tus instancias de máquina virtual (VM). En este documento, también se detalla qué GPUs vienen preconectadas a las series de máquinas optimizadas para aceleradores, como A4X, A4, A3, A2 y G2, y qué GPUs puedes conectar a las instancias de uso general N1.
Usa este documento para comparar el rendimiento, la memoria y las funciones de diferentes modelos de GPU. Para obtener una descripción general más detallada de la familia de máquinas optimizadas para aceleradores, incluida información sobre las plataformas de CPU, las opciones de almacenamiento y las capacidades de redes, y para encontrar el tipo de máquina específico que coincida con tu carga de trabajo, consulta Familia de máquinas optimizadas para aceleradores.
Para obtener más información sobre las GPU en Compute Engine, consulta Acerca de las GPU.
Si deseas ver las regiones y zonas disponibles para las GPU en Compute Engine, consulta Regiones de GPU y disponibilidad de zonas.
Modelos de GPU disponibles
Los siguientes modelos de GPU están disponibles con el tipo de máquina especificado para admitir tus cargas de trabajo de IA, AA y HPC. Si tienes cargas de trabajo de contenido gráfico alto, como la visualización 3D, también puedes crear estaciones de trabajo virtuales que usen estaciones de trabajo virtuales (vWS) NVIDIA RTX. La estación de trabajo virtual NVIDIA RTX está disponible para algunos modelos de GPU. Cuando creas una instancia que usa la estación de trabajo virtual NVIDIA RTX, Compute Engine agrega automáticamente una licencia de vWS. Para obtener información sobre los precios de las estaciones de trabajo virtuales, consulta la página de precios de GPU.
En el caso de los tipos de máquinas optimizados para aceleradores de las series A y G, el modelo de GPU especificado se conecta automáticamente a la instancia. Para los tipos de máquinas de uso general N1, puedes conectar los modelos de GPU especificados.
Tipo de máquina | Modelo de GPU | Modelo de estación de trabajo virtual (vWS) NVIDIA RTX |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada superchip contiene cuatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega |
GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High y A3 Edge |
GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 estándar | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA L4 (nvidia-l4-vws ) |
N1 | GPUs NVIDIA T4 (nvidia-tesla-t4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA T4 (nvidia-tesla-t4-vws ) |
GPUs NVIDIA P4 (nvidia-tesla-p4 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA P4 (nvidia-tesla-p4-vws ) |
|
GPUs NVIDIA V100 (nvidia-tesla-v100 ) |
||
GPUs NVIDIA P100 (nvidia-tesla-p100 ) |
Estaciones de trabajo virtuales (vWS) NVIDIA P100 (nvidia-tesla-p100-vws ) |
También puedes usar algunos tipos de máquinas con GPU en AI Hypercomputer. AI Hypercomputer es un sistema de supercomputación optimizado para admitir tus cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (AA). Esta opción se recomienda para crear una infraestructura optimizada para el rendimiento y con una asignación densa que tenga integraciones para los programadores de Google Kubernetes Engine (GKE) y Slurm.
Serie de máquinas A4X
Los tipos de máquinas A4X optimizadas para aceleradores usan superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200
) y son ideales para el entrenamiento y la entrega de modelos básicos.
A4X es una plataforma de exaescala basada en NVIDIA GB200 NVL72. Cada máquina tiene dos sockets con CPU NVIDIA Grace y núcleos Arm Neoverse V2. Estas CPU están conectadas a cuatro GPU NVIDIA B200 Blackwell con una rápida comunicación de chip a chip (NVLink-C2C).
Superchips NVIDIA GB200 Grace Blackwell conectados | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12,000 | 6 | 2,000 | 4 | 720 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas A4
Los tipos de máquinas A4 optimizados para aceleradores tienen GPUs NVIDIA B200 Blackwell (nvidia-b200
) conectadas y son ideales para el entrenamiento y la entrega de modelos básicos.
GPU NVIDIA Blackwell conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3e) |
a4-highgpu-8g |
224 | 3,968 | 12,000 | 10 | 3,600 | 8 | 1,440 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas A3
Los tipos de máquinas A3 optimizadas para aceleradores tienen conectadas GPUs NVIDIA H100 SXM o NVIDIA H200 SXM.
Tipo de máquina A3 Ultra
Los tipos de máquinas A3 Ultra tienen GPUs NVIDIA H200 SXM (nvidia-h200-141gb
) conectadas y proporcionan el mayor rendimiento de red de la serie A3. Los tipos de máquinas A3 Ultra son ideales para el entrenamiento y la entrega de modelos básicos.
GPU NVIDIA H200 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3e) |
a3-ultragpu-8g |
224 | 2,952 | 12,000 | 10 | 3,600 | 8 | 1128 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Tipos de máquinas A3 Mega, High y Edge
Para usar las GPUs NVIDIA H100 SXM, tienes las siguientes opciones:
- A3 Mega: Estos tipos de máquinas tienen GPUs H100 SXM (
nvidia-h100-mega-80gb
) y son ideales para cargas de trabajo de entrenamiento y procesamiento a gran escala. - A3 High: Estos tipos de máquinas tienen hasta GPUs H100 SXM (
nvidia-h100-80gb
) y son adecuados para tareas de entrenamiento y de servicio. - A3 Edge: Estos tipos de máquinas tienen GPUs H100 SXM (
nvidia-h100-80gb
), están diseñados específicamente para la entrega y están disponibles en un conjunto limitado de regiones.
A3 Mega
GPU NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3) |
a3-megagpu-8g |
208 | 1,872 | 6,000 | 9 | 1,800 | 8 | 640 |
A3 High
GPU NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1,500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3,000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1,872 | 6,000 | 5 | 1,000 | 8 | 640 |
A3, Edge
GPU NVIDIA H100 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Cantidad de NICs físicas | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3) |
a3-edgegpu-8g |
208 | 1,872 | 6,000 | 5 |
|
8 | 640 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas A2
Los tipos de máquinas optimizados para aceleradores A2 tienen GPU NVIDIA A100 conectadas y son ideales para el ajuste de modelos, la inferencia de modelos grandes y la inferencia optimizada en cuanto a costos.
Las series de máquinas A2 están disponibles en dos tipos:
- A2 Ultra: Estos tipos de máquinas tienen GPUs A100 de 80 GB (
nvidia-a100-80gb
) y discos SSD locales conectados. - A2 estándar: Estos tipos de máquinas tienen GPUs A100 de 40 GB (
nvidia-tesla-a100
) conectadas. También puedes agregar discos SSD locales cuando creas una instancia A2 estándar. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.
A2 ultra
GPU NVIDIA A100 de 80 GB conectadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | SSD local conectado (GiB) | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1,500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1,360 | 3,000 | 100 | 8 | 640 |
A2 Estándar
GPUs NVIDIA A100 de 40 GB conectadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de la instancia (GB) | Compatible con SSD local | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB HBM3) |
a2-highgpu-1g |
12 | 85 | Sí | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sí | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sí | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sí | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1,360 | Sí | 100 | 16 | 640 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas G2
Los tipos de máquinas optimizados para aceleradores G2 tienen GPU NVIDIA L4 conectadas y son ideales para la inferencia optimizada en función del costo, las cargas de trabajo de computación de alto rendimiento y con uso intensivo de gráficos.
Cada tipo de máquina G2 también tiene una memoria predeterminada y un rango de memoria personalizado. El rango de memoria personalizado define la cantidad de memoria que puedes asignar a tu instancia para cada tipo de máquina. También puedes agregar discos SSD locales cuando creas una instancia G2. Para conocer la cantidad de discos que puedes conectar, consulta Tipos de máquinas que requieren que elijas una cantidad de discos SSD locales.
GPU NVIDIA L4 conectadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Recuento de CPU virtuales* | Memoria de instancia predeterminada (GB) | Rango de memoria de instancia personalizado (GB) | Máximo de SSD local admitido (GiB) | Ancho de banda de red máximo (Gbps)† | Recuento de GPU | Memoria de GPU‡ (GB GDDR6) |
g2-standard-4 |
4 | 16 | De 16 a 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | De 32 a 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | De 48 a 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | De 54 a 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | De 96 a 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | De 96 a 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | De 192 a 216 | 1,500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | De 384 a 432 | 3,000 | 100 | 8 | 192 |
* Una CPU virtual se implementa como un solo hipersubproceso de hardware en una de las
plataformas de CPU disponibles.
†El ancho de banda de salida máximo no puede ser superior al número especificado. El ancho de banda de salida real depende de la dirección IP de destino y de otros factores.
Para obtener más información sobre el ancho de banda de la red, consulta Ancho de banda de red.
‡La memoria de GPU es la memoria de un dispositivo GPU que se puede usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Serie de máquinas N1
Puedes adjuntar los siguientes modelos de GPU a un tipo de máquina N1 con la excepción de los tipos de máquinas de núcleo compartido N1.
A diferencia de los tipos de máquinas de la serie de máquinas optimizadas para aceleradores, los tipos de máquinas N1 no incluyen una cantidad fija de GPUs conectadas. En cambio, debes especificar la cantidad de GPUs que se adjuntarán cuando crees la instancia.
Las instancias N1 con menos GPUs limitan la cantidad máxima de CPU virtuales. En general, una cantidad mayor de GPU te permite crear instancias con mayores cantidades de CPU virtuales y de memoria.
GPU de N1 + T4
Puedes conectar las GPU NVIDIA T4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB GDDR6) | Recuento de CPU virtuales | Memoria de la instancia (GB) | Compatible con SSD local |
---|---|---|---|---|---|
nvidia-tesla-t4 o nvidia-tesla-t4-vws
|
1 | 16 | De 1 a 48 | De 1 a 312 | Sí |
2 | 32 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 64 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
GPU de N1 + P4
Puedes conectar las GPU NVIDIA P4 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB GDDR5) | Recuento de CPU virtuales | Memoria de la instancia (GB) | Compatible con SSD local † |
---|---|---|---|---|---|
nvidia-tesla-p4 o nvidia-tesla-p4-vws
|
1 | 8 | De 1 a 24 | De 1 a 156 | Sí |
2 | 16 | De 1 a 48 | De 1 a 312 | Sí | |
4 | 32 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
†Para las instancias con GPU NVIDIA P4 conectadas, los discos SSD locales solo son compatibles en las zonas us-central1-c
y northamerica-northeast1-b
.
GPU de N1 + V100
Puedes conectar las GPU NVIDIA V100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB HBM2) | Recuento de CPU virtuales | Memoria de la instancia (GB) | Compatible con SSD local † |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | De 1 a 12 | De 1 a 78 | Sí |
2 | 32 | De 1 a 24 | De 1 a 156 | Sí | |
4 | 64 | De 1 a 48 | De 1 a 312 | Sí | |
8 | 128 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
†Para las instancias con GPU NVIDIA V100 conectadas, los discos SSD locales no son compatibles con us-east1-c
.
GPU de N1 + P100
Puedes conectar las GPU NVIDIA P100 a las instancias N1 de uso general con los siguientes parámetros de configuración de instancias.
En algunas GPU NVIDIA P100, la CPU y la memoria máximas disponibles para algunas configuraciones dependen de la zona en la que se ejecuta el recurso de GPU.
Tipo de acelerador | Recuento de GPU | Memoria de GPU* (GB HBM2) | Zona | Recuento de CPU virtuales | Memoria de la instancia (GB) | Compatible con SSD local |
---|---|---|---|---|---|---|
nvidia-tesla-p100 o nvidia-tesla-p100-vws
|
1 | 16 | Todas las zonas P100 | De 1 a 16 | De 1 a 104 | Sí |
2 | 32 | Todas las zonas P100 | De 1 a 32 | De 1 a 208 | Sí | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
De 1 a 64 | De 1 a 208 | Sí | |
Todas las demás zonas de P100 | De 1 a 96 | De 1 a 624 | Sí |
*La memoria de GPU es la memoria disponible en un dispositivo GPU que puedes usar para el almacenamiento temporal de datos. Es independiente de la memoria de la instancia y está diseñado específicamente para manejar las demandas de ancho de banda más altas de tus cargas de trabajo de alto contenido gráfico.
Gráfico de comparación general
En la siguiente tabla, se describe el tamaño de la memoria de GPU, la disponibilidad de las funciones y los tipos de carga de trabajo ideales de diferentes modelos de GPU que están disponibles en Compute Engine.
Modelo de GPU | Memoria de GPU | Interconexión | Compatibilidad con la estación de trabajo virtual (vWS) NVIDIA RTX | Mejor uso para |
---|---|---|---|---|
GB200 | HBM3e de 180 GB a 8 TBps | Malla completa de NVLink a 1,800 GBps | Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC | |
B200 | HBM3e de 180 GB a 8 TBps | Malla completa de NVLink a 1,800 GBps | Entrenamiento e inferencia distribuidos a gran escala de LLM, sistemas de recomendación y HPC | |
H200 | HBM3e de 141 GB a 4.8 TBps | Malla completa de NVLink a 900 GBps | Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM | |
H100 | HBM3 de 80 GB a 3.35 TBps | Malla completa de NVLink a 900 GBps | Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM | |
A100 80 GB | HBM2e de 80 GB a 1.9 TBps | Malla completa de NVLink a 600 GBps | Modelos grandes con tablas de datos enormes para el entrenamiento de AA, la inferencia, la HPC, BERT y DLRM | |
A100 40 GB | HBM2 de 40 GB a 1.6 TBps | Malla completa de NVLink a 600 GBps | AA, entrenamiento, inferencia, HPC | |
L4 | GDDR6 de 24 GB a 300 GBps | N/A | Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video, HPC | |
T4 | GDDR6 de 16 GB a 320 GBps | N/A | Inferencia de ML, entrenamiento, estaciones de trabajo de visualización remota, transcodificación de video | |
V100 | HBM2 de 16 GB a 900 GBps | NVLink Ring a 300 GBps | AA, entrenamiento, inferencia, HPC | |
P4 | GDDR5 de 8 GB a 192 GBps | N/A | Estaciones de trabajo de visualización remota, inferencia ML y transcodificación de video | |
P100 | HBM2 de 16 GB a 732 GBps | N/A | AA, entrenamiento, inferencia, HPC, estaciones de trabajo de visualización remota |
Si deseas comparar los precios de GPU para los diferentes modelos y regiones de GPU disponibles en Compute Engine, consulta los precios de GPU.
Gráfico de comparación de rendimiento
En la siguiente tabla, se describen las especificaciones de rendimiento de diferentes modelos de GPU que están disponibles en Compute Engine.
Rendimiento de procesamiento
Modelo de GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS* | 67 TFLOPS* | ||
H100 | 34 TFLOPS* | 67 TFLOPS* | ||
A100 80 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
A100 40 GB | 9.7 TFLOPS | 19.5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0.25 TFLOPS* | 8.1 TFLOPS | ||
V100 | 7.8 TFLOPS | 15.7 TFLOPS | ||
P4 | 0.2 TFLOPS* | 5.5 TFLOPS | 22 TOPS† | |
P100 | 4.7 TFLOPS | 9.3 TFLOPS | 18.7 TFLOPS |
*Para permitir que el código FP64 funcione correctamente, la arquitectura de GPU T4, L4 y P4 incluye una pequeña cantidad de unidades de hardware FP64.
†Teraoperaciones por segundo.
Rendimiento del núcleo de tensor
Modelo de GPU | FP64 | TF32 | FP16/FP32 de precisión mixta | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS† | 5,000 TFLOPS*, † | 10,000 TFLOPS† | 20,000 TFLOPS† | 10,000 TFLOPS† |
B200 | 40 TFLOPS | 1,100 TFLOPS† | 4,500 TFLOPS*, † | 9,000 TFLOPS† | 9,000 TFLOPS† | |
H200 | 67 TFLOPS* | 989 TFLOPS† | 1,979 TFLOPS*, † | 3,958 TOPS† | 3,958 TFLOPS† | |
H100 | 67 TFLOPS* | 989 TFLOPS† | 1,979 TFLOPS*, † | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40 GB | 19.5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*, † | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*Para el entrenamiento de precisión mixta, las GPU NVIDIA GB200, B200, H200, H100, A100 y L4 también admiten el tipo de datos bfloat16
.
†Las GPUs NVIDIA GB200, B200, H200, H100 y L4 admiten la dispersión estructural. Puedes usar la dispersión estructural para duplicar el rendimiento de tus modelos. Los valores que se documentan se aplican cuando se usa la escasez estructurada.
Si no usas la escasez estructurada, los valores se reducen a la mitad.
Próximos pasos
- Obtén más información sobre las GPUs de Compute Engine.
- Verifica la disponibilidad de las regiones y zonas de GPU.
- Revisa Ancho de banda de la red y GPU.
- Consulta los detalles de los precios de las GPU.