Types de machines avec GPU


Ce document décrit les modèles de GPU NVIDIA disponibles sur Compute Engine, que vous pouvez utiliser pour accélérer le machine learning (ML), le traitement des données et les charges de travail gourmandes en ressources graphiques sur vos instances de machines virtuelles (VM). Ce document indique également les GPU préassociés aux séries de machines optimisées pour les accélérateurs, telles que A4X, A4, A3, A2 et G2, ainsi que les GPU que vous pouvez associer aux instances à usage général N1.

Utilisez ce document pour comparer les performances, la mémoire et les fonctionnalités de différents modèles de GPU. Pour obtenir une présentation plus détaillée de la famille de machines optimisées pour les accélérateurs, y compris des informations sur les plates-formes de processeur, les options de stockage et les capacités de mise en réseau, et pour trouver le type de machine spécifique qui correspond à votre charge de travail, consultez Famille de machines optimisées pour les accélérateurs.

Pour en savoir plus sur les GPU sur Compute Engine, consultez la page À propos des GPU.

Pour consulter les régions et les zones disponibles pour les GPU sur Compute Engine, consultez la page Régions et zones disponibles pour les GPU.

Modèles de GPU disponibles

Les modèles de GPU suivants sont disponibles avec le type de machine spécifié pour prendre en charge vos charges de travail d'IA, de ML et de HPC. Si vous avez des charges de travail exigeantes en ressources graphiques, telles que la visualisation 3D, vous pouvez également créer des postes de travail virtuels qui utilisent des postes de travail virtuels (vWS) NVIDIA RTX. Le poste de travail virtuel NVIDIA RTX est disponible pour certains modèles de GPU. Lorsque vous créez une instance qui utilise NVIDIA RTX Virtual Workstation, Compute Engine ajoute automatiquement une licence vWS. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.

Pour les types de machines optimisés pour les accélérateurs des séries A et G, le modèle de GPU spécifié est automatiquement associé à l'instance. Pour les types de machines à usage général N1, vous pouvez associer les modèles de GPU spécifiés.

Type de machine Modèle GPU Modèle de poste de travail virtuel NVIDIA RTX (vWS)
A4X Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200).

Chaque superchip contient quatre GPU NVIDIA B200 Blackwell.

A4 GPU NVIDIA B200 Blackwell (nvidia-b200)
A3 Ultra GPU NVIDIA H200 SXM (nvidia-h200-141gb)
A3 Mega
GPU NVIDIA H100 SXM (nvidia-h100-mega-80gb)
A3 High et
A3 Edge
GPU NVIDIA H100 SXM (nvidia-h100-80gb)
A2 Ultra GPU NVIDIA A100 80 Go (nvidia-a100-80gb)
A2 Standard GPU NVIDIA A100 40 Go (nvidia-a100-40gb)
G2 NVIDIA L4 (nvidia-l4) Postes de travail virtuels (vWS) NVIDIA L4 (nvidia-l4-vws)
N1 GPU NVIDIA T4 (nvidia-tesla-t4) Postes de travail virtuels (vWS) NVIDIA T4 (nvidia-tesla-t4-vws)
GPU NVIDIA P4 (nvidia-tesla-p4) Postes de travail virtuels (vWS) NVIDIA P4 (nvidia-tesla-p4-vws)
GPU NVIDIA V100 (nvidia-tesla-v100)
GPU NVIDIA P100 (nvidia-tesla-p100) Postes de travail virtuels (vWS) NVIDIA P100 (nvidia-tesla-p100-vws)

Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour prendre en charge vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.

Série de machines A4X

Les types de machines A4X optimisés pour les accélérateurs utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et le serving de modèles de base.

A4X est une plate-forme exascale basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux emplacements avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication NVLink-C2C rapide entre les puces.

Superchips NVIDIA GB200 Grace Blackwell associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3e)
a4x-highgpu-4g 140 884 12 000 6 2 000 4 720

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines A4

Les types de machines A4 optimisés pour les accélérateurs sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et le déploiement de modèles de base.

GPU NVIDIA Blackwell associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3e)
a4-highgpu-8g 224 3 968 12 000 10 3 600 8 1 440

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines A3

Les types de machines A3 optimisés pour les accélérateurs sont associés à des GPU NVIDIA H100 SXM ou NVIDIA H200 SXM.

Type de machine A3 Ultra

Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et le service de modèles de fondation.

GPU NVIDIA H200 associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3e)
a3-ultragpu-8g 224 2 952 12 000 10 3 600 8 1128

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Types de machines A3 Mega, High et Edge

Pour utiliser les GPU NVIDIA H100 SXM, vous avez les options suivantes :

  • A3 Mega : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-mega-80gb) et sont idéaux pour les charges de travail d'entraînement et de diffusion à grande échelle.
  • A3 High : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb) et sont adaptés aux tâches d'entraînement et de diffusion.
  • A3 Edge : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb), sont conçus spécifiquement pour le serving et sont disponibles dans un ensemble limité de régions.

A3 Mega

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3)
a3-megagpu-8g 208 1 872 6 000 9 1 800 8 640

A3 High

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3)
a3-highgpu-1g 26 234 750 1 25 1 80
a3-highgpu-2g 52 468 1 500 1 50 2 160
a3-highgpu-4g 104 936 3 000 1 100 4 320
a3-highgpu-8g 208 1 872 6 000 5 1 000 8 640

A3 Edge

GPU NVIDIA H100 associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Nombre de cartes d'interface réseau physiques Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3)
a3-edgegpu-8g 208 1 872 6 000 5
  • 800 : pour asia-south1 et northamerica-northeast2
  • 400 : pour toutes les autres régions A3 Edge
8 640

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines A2

Les types de machines A2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA A100 et sont idéaux pour l'affinage de modèles, l'inférence de grands modèles et l'inférence optimisée pour les coûts.

La série de machines A2 est disponible en deux types :

  • A2 Ultra : ces types de machines sont associés à des GPU A100 de 80 Go (nvidia-a100-80gb) et à des disques SSD locaux.
  • A2 Standard : ces types de machines sont associés à des GPU A100 de 40 Go (nvidia-tesla-a100). Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance A2 Standard. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

A2 ultra

GPU NVIDIA A100 80 Go associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local associé (Gio) Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3)
a2-ultragpu-1g 12 170 375 24 1 80
a2-ultragpu-2g 24 340 750 32 2 160
a2-ultragpu-4g 48 680 1 500 50 4 320
a2-ultragpu-8g 96 1 360 3 000 100 8 640

A2 standard

GPU NVIDIA A100 40 Go associés
Type de machine Nombre de vCPU* Mémoire de l'instance (Go) SSD local compatible Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU
(GB HBM3)
a2-highgpu-1g 12 85 Oui 24 1 40
a2-highgpu-2g 24 170 Oui 32 2 80
a2-highgpu-4g 48 340 Oui 50 4 160
a2-highgpu-8g 96 680 Oui 100 8 320
a2-megagpu-16g 96 1 360 Oui 100 16 640

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines G2

Les types de machines G2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA L4 et sont idéaux pour les charges de travail d'inférence optimisées pour les coûts, les charges de travail de calcul hautes performances et celles nécessitant beaucoup de ressources graphiques.

Chaque type de machine G2 dispose également d'une mémoire par défaut et d'une plage de mémoire personnalisée. La plage de mémoire personnalisée définit la quantité de mémoire que vous pouvez allouer à votre instance pour chaque type de machine. Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance G2. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

GPU NVIDIA L4 associés
Type de machine Nombre de vCPU* Mémoire d'instance par défaut (Go) Plage de mémoire d'instance personnalisée (Go) Disque SSD local maximal compatible (Gio) Bande passante réseau maximale (Gbit/s) Nombre de GPU Mémoire GPU (Go GDDR6)
g2-standard-4 4 16 Entre 16 et 32 375 10 1 24
g2-standard-8 8 32 Entre 32 et 54 375 16 1 24
g2-standard-12 12 48 Entre 48 et 54 375 16 1 24
g2-standard-16 16 64 Entre 54 et 64 375 32 1 24
g2-standard-24 24 96 Entre 96 et 108 750 32 2 48
g2-standard-32 32 128 Entre 96 et 128 375 32 1 24
g2-standard-48 48 192 Entre 192 et 216 1 500 50 4 96
g2-standard-96 96 384 Entre 384 et 432 3 000 100 8 192

* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
 La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines N1

Vous pouvez associer les modèles de GPU suivants à un type de machine N1, à l'exception des types de machines N1 à cœur partagé.

Contrairement aux types de machines de la série optimisée pour les accélérateurs, les types de machines N1 ne sont pas fournis avec un nombre défini de GPU associés. Au lieu de cela, vous spécifiez le nombre de GPU à associer lorsque vous créez l'instance.

Les instances N1 avec moins de GPU limitent le nombre maximal de processeurs virtuels. En règle générale, un nombre plus élevé de GPU permet de créer des instances dotées d'une plus grande quantité de processeurs virtuels et de mémoire.

GPU N1+T4

Vous pouvez associer des GPU NVIDIA T4 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire GPU* (Go GDDR6) Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible
nvidia-tesla-t4 ou
nvidia-tesla-t4-vws
1 16 Entre 1 et 48 Entre 1 et 312 Oui
2 32 Entre 1 et 48 Entre 1 et 312 Oui
4 64 Entre 1 et 96 Entre 1 et 624 Oui

*La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

GPU N1+P4

Vous pouvez associer des GPU NVIDIA P4 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire GPU* (Go GDDR5) Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible
nvidia-tesla-p4 ou
nvidia-tesla-p4-vws
1 8 Entre 1 et 24 Entre 1 et 156 Oui
2 16 Entre 1 et 48 Entre 1 et 312 Oui
4 32 Entre 1 et 96 Entre 1 et 624 Oui

*La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

 Pour les instances auxquelles des GPU NVIDIA P4 sont associés, les disques SSD locaux ne sont compatibles qu'avec les zones us-central1-c et northamerica-northeast1-b.

GPU N1+V100

Vous pouvez associer des GPU NVIDIA V100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur Nombre de GPU Mémoire GPU* (GB HBM2) Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible
nvidia-tesla-v100 1 16 Entre 1 et 12 Entre 1 et 78 Oui
2 32 Entre 1 et 24 Entre 1 et 156 Oui
4 64 Entre 1 et 48 Entre 1 et 312 Oui
8 128 Entre 1 et 96 Entre 1 et 624 Oui

*La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.
 Les disques SSD locaux ne sont pas compatibles avec les instances auxquelles sont associés des GPU NVIDIA V100 dans us-east1-c.

GPU N1+P100

Vous pouvez associer des GPU NVIDIA P100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Pour certains GPU NVIDIA P100, la quantité maximale de processeurs et de mémoire disponibles pour certaines configurations dépend de la zone dans laquelle la ressource GPU s'exécute.

Type d'accélérateur Nombre de GPU Mémoire GPU* (GB HBM2) Zone Nombre de vCPU Mémoire de l'instance (Go) SSD local compatible
nvidia-tesla-p100 ou
nvidia-tesla-p100-vws
1 16 Toutes les zones P100 Entre 1 et 16 Entre 1 et 104 Oui
2 32 Toutes les zones P100 1 à 32 Entre 1 et 208 Oui
4 64 us-east1-c,
europe-west1-d,
europe-west1-b
Entre 1 et 64 Entre 1 et 208 Oui
Toutes les autres zones P100 Entre 1 et 96 Entre 1 et 624 Oui

*La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Graphique de comparaison général

Le tableau suivant décrit la taille de la mémoire du GPU, la disponibilité des fonctionnalités, ainsi que les types de charges de travail idéaux des différents modèles de GPU disponibles sur Compute Engine.

Modèle GPU Mémoire de GPU Interconnexion Compatibilité avec les postes de travail virtuels (vWS) NVIDIA RTX Utilisation optimale
GB200 180 Go HBM3e à 8 Tbit/s NVLink Full Mesh à 1 800 Gbit/s Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
B200 180 Go HBM3e à 8 Tbit/s NVLink Full Mesh à 1 800 Gbit/s Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
H200 141 Go HBM3e à 4,8 Tbit/s NVLink Full Mesh à 900 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
H100 80 Go HBM3 à 3,35 Tbit/s NVLink Full Mesh à 900 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 80 Go 80 Go HBM2e à 1,9 Tbit/s NVLink Full Mesh à 600 Gbit/s Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 40 Go 40 Go HBM2 à 1,6 Tbit/s NVLink Full Mesh à 600 Gbit/s Entraînement et inférence ML, HPC
L4 24 Go GDDR6 à 300 Gbit/s N/A Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
T4 16 Go GDDR6 à 320 Gbit/s N/A Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos
V100 16 Go HBM2 à 900 Gbit/s NVLink Ring à 300 Gbit/s Entraînement et inférence ML, HPC
P4 8 Go GDDR5 à 192 Gbit/s N/A Postes de travail à distance pour la visualisation, inférence ML et transcodage de vidéos
P100 16 Go HBM2 à 732 Gbit/s N/A Inférence et entraînement ML, HPC, postes de travail à distance pour la visualisation

Pour comparer les tarifs des GPU selon les différents modèles de GPU et les différentes régions disponibles sur Compute Engine, consultez la section Tarifs des GPU.

Graphique de comparaison des performances

Le tableau suivant décrit les spécifications des performances des différents modèles de GPU disponibles sur Compute Engine.

Performances de calcul

Modèle GPU FP64 FP32 FP16 INT8
GB200 90 TFLOPS 180 TFLOPS
B200 40 TFLOPS 80 TFLOPS
H200 34 TFLOPS 67 TFLOPS
H100 34 TFLOPS 67 TFLOPS
A100 80 Go 9,7 TFLOPS 19,5 TFLOPS
A100 40 Go 9,7 TFLOPS 19,5 TFLOPS
L4 0,5 TFLOPS* 30,3 TFLOPS
T4 0,25 TFLOPS* 8,1 TFLOPS
V100 7,8 TFLOPS 15,7 TFLOPS
P4 0,2 TFLOPS* 5,5 TFLOPS 22 TOPS
P100 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

*Pour permettre au code FP64 de fonctionner correctement, l'architecture des GPU T4, L4 et P4 inclut un petit nombre d'unités matérielles FP64.
Téra-opérations par seconde.

Performances des cœurs Tensor

Modèle GPU FP64 TF32 Précision mixte FP16/FP32 INT8 INT4 FP8
GB200 90 TFLOPS 2 500 TFLOPS 5 000 TFLOPS*, † 10 000 TFLOPS 20 000 TFLOPS 10 000 TFLOPS
B200 40 TFLOPS 1 100 TFLOPS 4 500 TFLOPS*, † 9 000 TFLOPS 9 000 TFLOPS
H200 67 TFLOPS 989 TFLOPS 1 979 TFLOPS*, † 3 958 TOPS 3 958 TFLOPS
H100 67 TFLOPS 989 TFLOPS 1 979 TFLOPS*, † 3 958 TOPS 3 958 TFLOPS
A100 80 Go 19,5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
A100 40 Go 19,5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
L4 120 TFLOPS 242 TFLOPS*, † 485 TOPS 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

*Pour l'entraînement de précision mixte, les GPU NVIDIA GB200, B200, H200, H100, A100 et L4 sont également compatibles avec le type de données bfloat16.
Les GPU NVIDIA GB200, B200, H200, H100 et L4 sont compatibles avec la parcimonie structurelle. Vous pouvez utiliser la parcimonie structurelle pour doubler les performances de vos modèles. Les valeurs documentées s'appliquent lorsque vous utilisez la parcimonie structurée. Si vous n'utilisez pas la parcimonie structurée, les valeurs sont divisées par deux.

Étape suivante