Cette page a été traduite par l'API Cloud Translation.

Types de machines avec GPU

Ce document décrit les modèles de GPU NVIDIA disponibles sur Compute Engine, que vous pouvez utiliser pour accélérer le machine learning (ML), le traitement des données et les charges de travail gourmandes en ressources graphiques sur vos instances de machines virtuelles (VM). Ce document indique également les GPU préassociés aux séries de machines optimisées pour les accélérateurs, telles que A4X, A4, A3, A2 et G2, ainsi que les GPU que vous pouvez associer aux instances à usage général N1.

Utilisez ce document pour comparer les performances, la mémoire et les fonctionnalités de différents modèles de GPU. Pour obtenir une présentation plus détaillée de la famille de machines optimisées pour les accélérateurs, y compris des informations sur les plates-formes de processeur, les options de stockage et les capacités de mise en réseau, et pour trouver le type de machine spécifique qui correspond à votre charge de travail, consultez Famille de machines optimisées pour les accélérateurs.

Pour en savoir plus sur les GPU sur Compute Engine, consultez la page À propos des GPU.

Pour consulter les régions et les zones disponibles pour les GPU sur Compute Engine, consultez la page Régions et zones disponibles pour les GPU.

Modèles de GPU disponibles

Les modèles de GPU suivants sont disponibles avec le type de machine spécifié pour prendre en charge vos charges de travail d'IA, de ML et de HPC. Si vous avez des charges de travail exigeantes en ressources graphiques, telles que la visualisation 3D, vous pouvez également créer des postes de travail virtuels qui utilisent des postes de travail virtuels (vWS) NVIDIA RTX. Le poste de travail virtuel NVIDIA RTX est disponible pour certains modèles de GPU. Lorsque vous créez une instance qui utilise NVIDIA RTX Virtual Workstation, Compute Engine ajoute automatiquement une licence vWS. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.

Pour les types de machines optimisés pour les accélérateurs des séries A et G, le modèle de GPU spécifié est automatiquement associé à l'instance. Pour les types de machines à usage général N1, vous pouvez associer les modèles de GPU spécifiés.

Type de machine	Modèle GPU	Modèle de poste de travail virtuel NVIDIA RTX (vWS)
A4X	Superchips NVIDIA GB200 Grace Blackwell (`nvidia-gb200`). Chaque superchip contient quatre GPU NVIDIA B200 Blackwell.
A4	GPU NVIDIA B200 Blackwell (`nvidia-b200`)
A3 Ultra	GPU NVIDIA H200 SXM (`nvidia-h200-141gb`)
A3 Mega	GPU NVIDIA H100 SXM (`nvidia-h100-mega-80gb`)
A3 High et A3 Edge	GPU NVIDIA H100 SXM (`nvidia-h100-80gb`)
A2 Ultra	GPU NVIDIA A100 80 Go (`nvidia-a100-80gb`)
A2 Standard	GPU NVIDIA A100 40 Go (`nvidia-a100-40gb`)
G2	NVIDIA L4 (`nvidia-l4`)	Postes de travail virtuels (vWS) NVIDIA L4 (`nvidia-l4-vws`)
N1	GPU NVIDIA T4 (`nvidia-tesla-t4`)	Postes de travail virtuels (vWS) NVIDIA T4 (`nvidia-tesla-t4-vws`)
	GPU NVIDIA P4 (`nvidia-tesla-p4`)	Postes de travail virtuels (vWS) NVIDIA P4 (`nvidia-tesla-p4-vws`)
	GPU NVIDIA V100 (`nvidia-tesla-v100`)
	GPU NVIDIA P100 (`nvidia-tesla-p100`)	Postes de travail virtuels (vWS) NVIDIA P100 (`nvidia-tesla-p100-vws`)

Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour prendre en charge vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.

Série de machines A4X

Les types de machines A4X optimisés pour les accélérateurs utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et le serving de modèles de base.

A4X est une plate-forme exascale basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux emplacements avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication NVLink-C2C rapide entre les puces.

						Superchips NVIDIA GB200 Grace Blackwell associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12 000	6	2 000	4	720

^* Un processeur virtuel est implémenté sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
^† La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
^‡ La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines A4

Les types de machines A4 optimisés pour les accélérateurs sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et le déploiement de modèles de base.

						GPU NVIDIA Blackwell associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3e)
`a4-highgpu-8g`	224	3 968	12 000	10	3 600	8	1 440

Série de machines A3

Les types de machines A3 optimisés pour les accélérateurs sont associés à des GPU NVIDIA H100 SXM ou NVIDIA H200 SXM.

Type de machine A3 Ultra

Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et le service de modèles de fondation.

						GPU NVIDIA H200 associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3e)
`a3-ultragpu-8g`	224	2 952	12 000	10	3 600	8	1128

Types de machines A3 Mega, High et Edge

Pour utiliser les GPU NVIDIA H100 SXM, vous avez les options suivantes :

A3 Mega : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-mega-80gb) et sont idéaux pour les charges de travail d'entraînement et de diffusion à grande échelle.
A3 High : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb) et sont adaptés aux tâches d'entraînement et de diffusion.
A3 Edge : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb), sont conçus spécifiquement pour le serving et sont disponibles dans un ensemble limité de régions.

A3 Mega

Conseil : Lorsque vous provisionnez des types de machines a3-megagpu-8g, nous vous recommandons d'utiliser un cluster de ces instances et de le déployer avec un programmeur tel que Google Kubernetes Engine (GKE) ou Slurm. Pour obtenir des instructions détaillées sur ces deux options, consultez les pages suivantes :

Pour créer un cluster Google Kubernetes Engine, consultez Déployer un cluster A3 Mega avec GKE.
Pour créer un cluster Slurm, consultez Déployer un cluster Slurm A3 Mega.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3)
`a3-megagpu-8g`	208	1 872	6 000	9	1 800	8	640

A3 High

Conseil : Lorsque vous provisionnez des types de machines a3-highgpu-1g, a3-highgpu-2g ou a3-highgpu-4g, vous devez créer des instances à l'aide de VM Spot ou d'une fonctionnalité qui utilise le planificateur de charge de travail dynamique (DWS), comme les demandes de redimensionnement dans un MIG. Pour obtenir des instructions détaillées sur ces deux options, consultez les ressources suivantes :

Pour créer des VM Spot, définissez le modèle de provisionnement sur SPOT lorsque vous créez une VM optimisée pour les accélérateurs.
Pour créer une demande de redimensionnement dans un MIG qui utilise DWS, consultez Créer un MIG comprenant des VM avec GPU.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1 500	1	50	2	160
`a3-highgpu-4g`	104	936	3 000	1	100	4	320
`a3-highgpu-8g`	208	1 872	6 000	5	1 000	8	640

A3 Edge

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3)
`a3-edgegpu-8g`	208	1 872	6 000	5	800 : pour asia-south1 et northamerica-northeast2 400 : pour toutes les autres régions A3 Edge	8	640

Série de machines A2

Les types de machines A2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA A100 et sont idéaux pour l'affinage de modèles, l'inférence de grands modèles et l'inférence optimisée pour les coûts.

La série de machines A2 est disponible en deux types :

A2 Ultra : ces types de machines sont associés à des GPU A100 de 80 Go (nvidia-a100-80gb) et à des disques SSD locaux.
A2 Standard : ces types de machines sont associés à des GPU A100 de 40 Go (nvidia-tesla-a100). Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance A2 Standard. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

A2 ultra

					GPU NVIDIA A100 80 Go associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local associé (Gio)	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1 500	50	4	320
`a2-ultragpu-8g`	96	1 360	3 000	100	8	640

A2 standard

					GPU NVIDIA A100 40 Go associés
Type de machine	Nombre de vCPU^*	Mémoire de l'instance (Go)	SSD local compatible	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (GB HBM3)
`a2-highgpu-1g`	12	85	Oui	24	1	40
`a2-highgpu-2g`	24	170	Oui	32	2	80
`a2-highgpu-4g`	48	340	Oui	50	4	160
`a2-highgpu-8g`	96	680	Oui	100	8	320
`a2-megagpu-16g`	96	1 360	Oui	100	16	640

Série de machines G2

Les types de machines G2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA L4 et sont idéaux pour les charges de travail d'inférence optimisées pour les coûts, les charges de travail de calcul hautes performances et celles nécessitant beaucoup de ressources graphiques.

Chaque type de machine G2 dispose également d'une mémoire par défaut et d'une plage de mémoire personnalisée. La plage de mémoire personnalisée définit la quantité de mémoire que vous pouvez allouer à votre instance pour chaque type de machine. Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance G2. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

						GPU NVIDIA L4 associés
Type de machine	Nombre de vCPU^*	Mémoire d'instance par défaut (Go)	Plage de mémoire d'instance personnalisée (Go)	Disque SSD local maximal compatible (Gio)	Bande passante réseau maximale (Gbit/s)^†	Nombre de GPU	Mémoire GPU^‡ (Go GDDR6)
`g2-standard-4`	4	16	Entre 16 et 32	375	10	1	24
`g2-standard-8`	8	32	Entre 32 et 54	375	16	1	24
`g2-standard-12`	12	48	Entre 48 et 54	375	16	1	24
`g2-standard-16`	16	64	Entre 54 et 64	375	32	1	24
`g2-standard-24`	24	96	Entre 96 et 108	750	32	2	48
`g2-standard-32`	32	128	Entre 96 et 128	375	32	1	24
`g2-standard-48`	48	192	Entre 192 et 216	1 500	50	4	96
`g2-standard-96`	96	384	Entre 384 et 432	3 000	100	8	192

Série de machines N1

Vous pouvez associer les modèles de GPU suivants à un type de machine N1, à l'exception des types de machines N1 à cœur partagé.

Contrairement aux types de machines de la série optimisée pour les accélérateurs, les types de machines N1 ne sont pas fournis avec un nombre défini de GPU associés. Au lieu de cela, vous spécifiez le nombre de GPU à associer lorsque vous créez l'instance.

Les instances N1 avec moins de GPU limitent le nombre maximal de processeurs virtuels. En règle générale, un nombre plus élevé de GPU permet de créer des instances dotées d'une plus grande quantité de processeurs virtuels et de mémoire.

GPU N1+T4

Vous pouvez associer des GPU NVIDIA T4 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU^* (Go GDDR6)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible
`nvidia-tesla-t4` ou `nvidia-tesla-t4-vws`	1	16	Entre 1 et 48	Entre 1 et 312	Oui
	2	32	Entre 1 et 48	Entre 1 et 312	Oui
	4	64	Entre 1 et 96	Entre 1 et 624	Oui

^*La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

GPU N1+P4

Vous pouvez associer des GPU NVIDIA P4 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU^* (Go GDDR5)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible^†
`nvidia-tesla-p4` ou `nvidia-tesla-p4-vws`	1	8	Entre 1 et 24	Entre 1 et 156	Oui
	2	16	Entre 1 et 48	Entre 1 et 312	Oui
	4	32	Entre 1 et 96	Entre 1 et 624	Oui

^† Pour les instances auxquelles des GPU NVIDIA P4 sont associés, les disques SSD locaux ne sont compatibles qu'avec les zones us-central1-c et northamerica-northeast1-b.

GPU N1+V100

Vous pouvez associer des GPU NVIDIA V100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU^* (GB HBM2)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible^†
`nvidia-tesla-v100`	1	16	Entre 1 et 12	Entre 1 et 78	Oui
	2	32	Entre 1 et 24	Entre 1 et 156	Oui
	4	64	Entre 1 et 48	Entre 1 et 312	Oui
	8	128	Entre 1 et 96	Entre 1 et 624	Oui

GPU N1+P100

Vous pouvez associer des GPU NVIDIA P100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Pour certains GPU NVIDIA P100, la quantité maximale de processeurs et de mémoire disponibles pour certaines configurations dépend de la zone dans laquelle la ressource GPU s'exécute.

Type d'accélérateur	Nombre de GPU	Mémoire GPU^* (GB HBM2)	Zone	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible
`nvidia-tesla-p100` ou `nvidia-tesla-p100-vws`	1	16	Toutes les zones P100	Entre 1 et 16	Entre 1 et 104	Oui
	2	32	Toutes les zones P100	1 à 32	Entre 1 et 208	Oui
	4	64	`us-east1-c`, `europe-west1-d`, `europe-west1-b`	Entre 1 et 64	Entre 1 et 208	Oui
	4	64	Toutes les autres zones P100	Entre 1 et 96	Entre 1 et 624	Oui

Graphique de comparaison général

Le tableau suivant décrit la taille de la mémoire du GPU, la disponibilité des fonctionnalités, ainsi que les types de charges de travail idéaux des différents modèles de GPU disponibles sur Compute Engine.

Modèle GPU	Mémoire de GPU	Interconnexion	Utilisation optimale
GB200	180 Go HBM3e à 8 Tbit/s	NVLink Full Mesh à 1 800 Gbit/s	Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
B200	180 Go HBM3e à 8 Tbit/s	NVLink Full Mesh à 1 800 Gbit/s	Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
H200	141 Go HBM3e à 4,8 Tbit/s	NVLink Full Mesh à 900 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
H100	80 Go HBM3 à 3,35 Tbit/s	NVLink Full Mesh à 900 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 80 Go	80 Go HBM2e à 1,9 Tbit/s	NVLink Full Mesh à 600 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 40 Go	40 Go HBM2 à 1,6 Tbit/s	NVLink Full Mesh à 600 Gbit/s	Entraînement et inférence ML, HPC
L4	24 Go GDDR6 à 300 Gbit/s	N/A	Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
T4	16 Go GDDR6 à 320 Gbit/s	N/A	Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos
V100	16 Go HBM2 à 900 Gbit/s	NVLink Ring à 300 Gbit/s	Entraînement et inférence ML, HPC
P4	8 Go GDDR5 à 192 Gbit/s	N/A	Postes de travail à distance pour la visualisation, inférence ML et transcodage de vidéos
P100	16 Go HBM2 à 732 Gbit/s	N/A	Inférence et entraînement ML, HPC, postes de travail à distance pour la visualisation

Pour comparer les tarifs des GPU selon les différents modèles de GPU et les différentes régions disponibles sur Compute Engine, consultez la section Tarifs des GPU.

Graphique de comparaison des performances

Le tableau suivant décrit les spécifications des performances des différents modèles de GPU disponibles sur Compute Engine.

Performances de calcul

Modèle GPU	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS	67 TFLOPS
H100	34 TFLOPS	67 TFLOPS
A100 80 Go	9,7 TFLOPS	19,5 TFLOPS
A100 40 Go	9,7 TFLOPS	19,5 TFLOPS
L4	0,5 TFLOPS^*	30,3 TFLOPS
T4	0,25 TFLOPS^*	8,1 TFLOPS
V100	7,8 TFLOPS	15,7 TFLOPS
P4	0,2 TFLOPS^*	5,5 TFLOPS		22 TOPS^†
P100	4,7 TFLOPS	9,3 TFLOPS	18,7 TFLOPS

^*Pour permettre au code FP64 de fonctionner correctement, l'architecture des GPU T4, L4 et P4 inclut un petit nombre d'unités matérielles FP64.
^†Téra-opérations par seconde.

Performances des cœurs Tensor

Modèle GPU	FP64	TF32	Précision mixte FP16/FP32	INT8	INT4	FP8
GB200	90 TFLOPS	2 500 TFLOPS^†	5 000 TFLOPS^{*, †}	10 000 TFLOPS^†	20 000 TFLOPS^†	10 000 TFLOPS^†
B200	40 TFLOPS	1 100 TFLOPS^†	4 500 TFLOPS^{*, †}	9 000 TFLOPS^†		9 000 TFLOPS^†
H200	67 TFLOPS	989 TFLOPS^†	1 979 TFLOPS^{*, †}	3 958 TOPS^†		3 958 TFLOPS^†
H100	67 TFLOPS	989 TFLOPS^†	1 979 TFLOPS^{*, †}	3 958 TOPS^†		3 958 TFLOPS^†
A100 80 Go	19,5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
A100 40 Go	19,5 TFLOPS	156 TFLOPS	312 TFLOPS^*	624 TOPS	1248 TOPS
L4		120 TFLOPS^†	242 TFLOPS^{*, †}	485 TOPS^†		485 TFLOPS^†
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

^*Pour l'entraînement de précision mixte, les GPU NVIDIA GB200, B200, H200, H100, A100 et L4 sont également compatibles avec le type de données bfloat16.
^†Les GPU NVIDIA GB200, B200, H200, H100 et L4 sont compatibles avec la parcimonie structurelle. Vous pouvez utiliser la parcimonie structurelle pour doubler les performances de vos modèles. Les valeurs documentées s'appliquent lorsque vous utilisez la parcimonie structurée. Si vous n'utilisez pas la parcimonie structurée, les valeurs sont divisées par deux.

Étape suivante

En savoir plus sur les GPU Compute Engine
Vérifiez la disponibilité des régions et des zones GPU.
Consultez Bandes passantes réseau et GPU.
Consultez les tarifs des GPU.