In diesem Dokument werden die in Compute Engine verfügbaren NVIDIA-GPU-Modelle beschrieben, mit denen Sie Arbeitslasten für maschinelles Lernen, Datenverarbeitung und grafikintensive Arbeitslasten auf Ihren VM-Instanzen beschleunigen können. In diesem Dokument wird auch beschrieben, welche GPUs an beschleunigungsoptimierte Maschinenserien wie A4X, A4, A3, A2 und G2 vorab angehängt sind und welche GPUs Sie an N1-Instanzen für allgemeine Zwecke anhängen können.
In diesem Dokument können Sie die Leistung, den Speicher und die Funktionen verschiedener GPU-Modelle vergleichen. Eine detailliertere Übersicht über die beschleunigungsoptimierte Maschinenfamilie mit Informationen zu CPU-Plattformen, Speicheroptionen und Netzwerkfunktionen sowie den Maschinentyp, der zu Ihrer Arbeitslast passt, finden Sie unter Beschleunigungsoptimierte Maschinenfamilie.
Weitere Informationen zu GPUs in Compute Engine finden Sie unter GPUs.
Hinweis: Informationen zu den verfügbaren Regionen und Zonen für GPUs in Compute Engine finden Sie unter Verfügbarkeit von GPU-Regionen und -Zonen.
Verfügbare GPU-Modelle
Die folgenden GPU-Modelle sind mit dem angegebenen Maschinentyp verfügbar, um Ihre KI-, ML- und HPC-Arbeitslasten zu unterstützen. Wenn Sie grafikintensive Arbeitslasten haben, z. B. 3D-Visualisierung, können Sie auch virtuelle Workstations erstellen, die NVIDIA RTX Virtual Workstations (vWS) verwenden. NVIDIA RTX Virtual Workstation ist für einige GPU-Modelle verfügbar. Wenn Sie eine Instanz erstellen, die NVIDIA RTX Virtual Workstation verwendet, fügt Compute Engine automatisch eine vWS-Lizenz hinzu. Informationen zu Preisen für virtuelle Workstations finden Sie auf der Seite „GPU-Preise“.
Bei den beschleunigungsoptimierten Maschinentypen der A- und G-Serie wird das angegebene GPU-Modell automatisch an die Instanz angehängt. An die N1-Maschinentypen für allgemeine Zwecke können Sie die angegebenen GPU-Modelle anhängen.
Maschinentyp | GPU-Modell | Modell der NVIDIA RTX Virtual Workstation (vWS) |
---|---|---|
A4X | NVIDIA GB200 Grace Blackwell-Superchips (nvidia-gb200 ).
Jeder Superchip enthält vier NVIDIA B200 Blackwell-GPUs. |
|
A4 | NVIDIA B200 Blackwell-GPUs (nvidia-b200 ) |
|
A3 Ultra | NVIDIA H200 SXM-GPUs (nvidia-h200-141gb ) |
|
A3 Mega |
NVIDIA H100 SXM-GPUs (nvidia-h100-mega-80gb ) |
|
A3 High und A3 Edge |
NVIDIA H100 SXM-GPUs (nvidia-h100-80gb ) |
|
A2 Ultra | NVIDIA A100 80 GB-GPUs (nvidia-a100-80gb ) |
|
A2 Standard | NVIDIA A100 40 GB-GPUs (nvidia-a100-40gb ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
Virtuelle Workstations (vWS) mit NVIDIA L4 (nvidia-l4-vws ) |
N1 | NVIDIA T4-GPUs (nvidia-tesla-t4 ) |
NVIDIA T4 Virtual Workstations (vWS) (nvidia-tesla-t4-vws ) |
NVIDIA P4-GPUs (nvidia-tesla-p4 ) |
NVIDIA P4 Virtual Workstations (vWS) (nvidia-tesla-p4-vws ) |
|
NVIDIA V100-GPUs (nvidia-tesla-v100 ) |
||
NVIDIA P100-GPUs (nvidia-tesla-p100 ) |
NVIDIA P100 Virtual Workstations (vWS) (nvidia-tesla-p100-vws ) |
Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das für die Unterstützung Ihrer Arbeitslasten für künstliche Intelligenz (KI) und maschinelles Lernen (ML) optimiert ist. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine (GKE) und Slurm-Scheduler zu erstellen.
A4X-Maschinenserie
Beschleunigungsoptimierte A4X-Maschinentypen
verwenden NVIDIA GB200 Grace Blackwell-Superchips (nvidia-gb200
) und eignen sich ideal für das Training und die Bereitstellung von Foundation Models.
A4X ist eine Exascale-Plattform, die auf NVIDIA GB200 NVL72 basiert. Jede Maschine hat zwei Sockel mit NVIDIA Grace-CPUs mit Arm Neoverse V2-Kernen. Diese CPUs sind über eine schnelle Chip-zu-Chip-Kommunikation (NVLink-C2C) mit vier NVIDIA B200 Blackwell-GPUs verbunden.
Angehängte NVIDIA GB200 Grace Blackwell-Superchips | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12.000 | 6 | 2.000 | 4 | 720 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
A4-Maschinenserie
Beschleunigungsoptimierte A4-Maschinentypen
haben NVIDIA B200 Blackwell-GPUs (nvidia-b200
) angehängt und eignen sich ideal für das Training und die Bereitstellung von Foundation Models.
Angehängte NVIDIA Blackwell-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3e) |
a4-highgpu-8g |
224 | 3.968 | 12.000 | 10 | 3.600 | 8 | 1.440 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
A3-Maschinenserie
An beschleunigungsoptimierte A3-Maschinentypen sind NVIDIA H100 SXM- oder NVIDIA H200 SXM-GPUs angehängt.
A3 Ultra-Maschinentyp
An A3 Ultra-Maschinentypen sind NVIDIA H200 SXM-GPUs (nvidia-h200-141gb
) angehängt. Sie bieten die höchste Netzwerkleistung in der A3-Serie. A3 Ultra-Maschinentypen eignen sich ideal für das Training und die Bereitstellung von Basismodellen.
Angehängte NVIDIA H200-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3e) |
a3-ultragpu-8g |
224 | 2.952 | 12.000 | 10 | 3.600 | 8 | 1128 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
A3 Mega-, High- und Edge-Maschinentypen
Wenn Sie NVIDIA H100 SXM-GPUs verwenden möchten, haben Sie folgende Möglichkeiten:
- A3 Mega: An diese Maschinentypen sind H100 SXM-GPUs (
nvidia-h100-mega-80gb
) angehängt. Sie eignen sich ideal für umfangreiche Trainings- und Bereitstellungsarbeitslasten. - A3 High: Diese Maschinentypen haben bis zu H100 SXM-GPUs (
nvidia-h100-80gb
) und eignen sich gut für Trainings- und Serving-Aufgaben. - A3 Edge: An diese Maschinentypen sind H100 SXM-GPUs (
nvidia-h100-80gb
) angehängt. Sie sind speziell für das Bereitstellen konzipiert und in einer begrenzten Anzahl von Regionen verfügbar.
A3 Mega
Angehängte NVIDIA H100-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3) |
a3-megagpu-8g |
208 | 1.872 | 6.000 | 9 | 1.800 | 8 | 640 |
A3 High
Angehängte NVIDIA H100-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1.500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3.000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1.872 | 6.000 | 5 | 1.000 | 8 | 640 |
A3 Edge
Angehängte NVIDIA H100-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Anzahl der physischen Netzwerkkarten | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3) |
a3-edgegpu-8g |
208 | 1.872 | 6.000 | 5 |
|
8 | 640 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
A2-Maschinenserie
An beschleunigungsoptimierte A2-Maschinentypen sind NVIDIA A100-GPUs angehängt. Sie eignen sich ideal für das Feinabstimmen von Modellen sowie für die Inferenz großer Modelle und kostengünstige Inferenz.
A2-Maschinenserien sind in zwei Typen verfügbar:
- A2 Ultra: An diese Maschinentypen sind A100-GPUs mit 80 GB (
nvidia-a100-80gb
) und lokale SSD-Laufwerke angehängt. - A2 Standard: An diese Maschinentypen sind A100-GPUs (
nvidia-tesla-a100
) mit 40 GB angehängt. Sie können auch beim Erstellen einer A2-Standardinstanz lokale SSD-Laufwerke hinzufügen. Informationen zur Anzahl der Laufwerke, die Sie anhängen können, finden Sie unter Maschinentypen, bei denen Sie eine bestimmte Anzahl von lokalen SSD-Laufwerken auswählen müssen.
A2-Ultra
Angehängte NVIDIA A100-GPUs mit 80 GB | ||||||
---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Verbundene lokale SSD (GiB) | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1.500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1.360 | 3.000 | 100 | 8 | 640 |
A2-Standard
Angehängte NVIDIA A100-GPUs mit 40 GB | ||||||
---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Instanzarbeitsspeicher (GB) | Unterstützung lokaler SSDs | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB HBM3) |
a2-highgpu-1g |
12 | 85 | Ja | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Ja | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Ja | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Ja | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1.360 | Ja | 100 | 16 | 640 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
G2-Maschinenserie
An beschleunigungsoptimierte G2-Maschinentypen sind NVIDIA L4-GPUs angehängt. Sie eignen sich ideal für kostenoptimierte Inferenz-, grafikintensive und Hochleistungs-Computing-Arbeitslasten.
Jeder G2-Maschinentyp hat auch einen Standardarbeitsspeicher und einen benutzerdefinierten Arbeitsspeicherbereich. Der benutzerdefinierte Arbeitsspeicherbereich definiert die Größe des Arbeitsspeichers, den Sie Ihrer Instanz für jeden Maschinentyp zuweisen können. Sie können auch beim Erstellen einer G2-Instanz lokale SSD-Laufwerke hinzufügen. Informationen zur Anzahl der Laufwerke, die Sie anhängen können, finden Sie unter Maschinentypen, bei denen Sie eine bestimmte Anzahl von lokalen SSD-Laufwerken auswählen müssen.
Angehängte NVIDIA L4-GPUs | |||||||
---|---|---|---|---|---|---|---|
Maschinentyp | vCPU-Anzahl* | Standard-Instanzarbeitsspeicher (GB) | Benutzerdefinierter Instanzarbeitsspeicherbereich (GB) | Maximal unterstützte lokale SSD (GiB) | Maximale Netzwerkbandbreite (Gbit/s)† | GPU-Anzahl | GPU-Arbeitsspeicher‡ (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 bis 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 bis 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 bis 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 bis 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 bis 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 bis 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 bis 216 | 1.500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 bis 432 | 3.000 | 100 | 8 | 192 |
* Eine vCPU ist als einzelner Hardware-Hyper-Thread auf einer der verfügbaren CPU-Plattformen implementiert.
† Die maximale Bandbreite für ausgehenden Traffic darf die angegebene Zahl nicht überschreiten. Die tatsächliche Bandbreite für ausgehenden Traffic hängt von der Ziel-IP-Adresse und anderen Faktoren ab.
Weitere Informationen zur Netzwerkbandbreite finden Sie unter Netzwerkbandbreite.
‡ GPU-Arbeitsspeicher ist der Speicher auf einem GPU-Gerät, der zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
N1-Maschinenserie
Sie können die folgenden GPU-Modelle an N1-Maschinentypen anhängen, mit Ausnahme der N1-Maschinentypen mit gemeinsam genutztem Kern.
Im Gegensatz zu den Maschinentypen in der beschleunigungsoptimierten Maschinenreihe haben N1-Maschinentypen keine festgelegte Anzahl von angehängten GPUs. Stattdessen geben Sie beim Erstellen der Instanz die Anzahl der anzuhängenden GPUs an.
Bei N1-Instanzen mit weniger GPUs ist die maximale Anzahl von vCPUs begrenzt. Im Allgemeinen ermöglicht es Ihnen eine höhere Anzahl von GPUs, Instanzen mit einer größeren Anzahl von vCPUs und mehr Arbeitsspeicher zu erstellen.
N1+T4-GPUs
Sie können NVIDIA T4-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.
Beschleunigertyp | GPU-Anzahl | GPU-Arbeitsspeicher* (GB GDDR6) | vCPU Anzahl | Instanzarbeitsspeicher (GB) | Unterstützung lokaler SSDs |
---|---|---|---|---|---|
nvidia-tesla-t4 oder nvidia-tesla-t4-vws
|
1 | 16 | 1 bis 48 | 1 bis 312 | Ja |
2 | 32 | 1 bis 48 | 1 bis 312 | Ja | |
4 | 64 | 1 bis 96 | 1 bis 624 | Ja |
* GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
N1+P4-GPUs
Sie können NVIDIA P4-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.
Beschleunigertyp | GPU-Anzahl | GPU-Arbeitsspeicher* (GB GDDR5) | vCPU Anzahl | Instanzarbeitsspeicher (GB) | Unterstützung lokaler SSDs† |
---|---|---|---|---|---|
nvidia-tesla-p4 oder nvidia-tesla-p4-vws
|
1 | 8 | 1 bis 24 | 1 bis 156 | Ja |
2 | 16 | 1 bis 48 | 1 bis 312 | Ja | |
4 | 32 | 1 bis 96 | 1 bis 624 | Ja |
* GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
†Für Instanzen mit angehängten NVIDIA P4-GPUs werden lokale SSD-Laufwerke nur in den Zonen us-central1-c
und northamerica-northeast1-b
unterstützt.
N1+V100-GPUs
Sie können NVIDIA V100-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.
Beschleunigertyp | GPU-Anzahl | GPU-Arbeitsspeicher* (GB HBM2) | vCPU Anzahl | Instanzarbeitsspeicher (GB) | Unterstützung lokaler SSDs† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 bis 12 | 1 bis 78 | Ja |
2 | 32 | 1 bis 24 | 1 bis 156 | Ja | |
4 | 64 | 1 bis 48 | 1 bis 312 | Ja | |
8 | 128 | 1 bis 96 | 1 bis 624 | Ja |
* GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
†Für Instanzen mit angehängten NVIDIA V100-GPUs werden lokale SSD-Laufwerke in us-east1-c
nicht unterstützt.
N1+P100-GPUs
Sie können NVIDIA P100-GPUs mit den folgenden Instanzkonfigurationen an N1-Instanzen für allgemeine Zwecke anhängen.
Bei einigen NVIDIA P100-GPUs hängen die maximale CPU-Anzahl und der maximale Arbeitsspeicher, die für einige Konfigurationen verfügbar sind, von der Zone ab, in der die GPU-Ressource ausgeführt wird.
Beschleunigertyp | GPU-Anzahl | GPU-Arbeitsspeicher* (GB HBM2) | Zone | vCPU Anzahl | Instanzarbeitsspeicher (GB) | Unterstützung lokaler SSDs |
---|---|---|---|---|---|---|
nvidia-tesla-p100 oder nvidia-tesla-p100-vws
|
1 | 16 | Alle P100-Zonen | 1 bis 16 | 1 bis 104 | Ja |
2 | 32 | Alle P100-Zonen | 1 bis 32 | 1 bis 208 | Ja | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
1 bis 64 | 1 bis 208 | Ja | |
Alle anderen P100-Zonen | 1 bis 96 | 1 bis 624 | Ja |
* GPU-Arbeitsspeicher ist der Speicher, der auf einem GPU-Gerät verfügbar ist und zum temporären Speichern von Daten verwendet werden kann. Es ist vom Arbeitsspeicher der Instanz getrennt und wurde speziell für die höheren Bandbreitenanforderungen grafikintensiver Arbeitslasten entwickelt.
Allgemeine Vergleichstabelle
In der folgenden Tabelle werden die GPU-Arbeitsspeichergröße, die Feature-Verfügbarkeit und die idealen Arbeitslasttypen verschiedener GPU-Modelle beschrieben, die in Compute Engine verfügbar sind.
GPU-Modell | GPU-Speicher | Interconnect | Unterstützung für NVIDIA RTX Virtual Workstation (vWS) | Geeignete Anwendungsfälle |
---|---|---|---|---|
GB200 | 180 GB HBM3e @ 8 TB/s | NVLink Full Mesh @ 1.800 GB/s | Umfangreiches verteiltes Training und Inferenz von LLMs, Empfehlungssystemen und HPC | |
B200 | 180 GB HBM3e @ 8 TB/s | NVLink Full Mesh @ 1.800 GB/s | Umfangreiches verteiltes Training und Inferenz von LLMs, Empfehlungssystemen und HPC | |
H200 | 141 GB HBM3e @ 4,8 TB/s | NVLink Full Mesh @ 900 GB/s | Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM | |
H100 | 80 GB HBM3 @ 3,35 TB/s | NVLink Full Mesh @ 900 GB/s | Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM | |
A100 80GB | 80 GB HBM2e @ 1,9 TB/s | NVLink Full Mesh @ 600 GBps | Große Modelle mit riesigen Datentabellen für ML-Training, Inferenz, HPC, BERT und DLRM | |
A100 40GB | 40 GB HBM2 @ 1,6 TB/s | NVLink Full Mesh @ 600 GBps | ML-Training, Inferenz, HPC | |
L4 | 24 GB GDDR6 bei 300 GB/s | – | ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung, HPC | |
T4 | 16 GB GDDR6 bei 320 GB/s | – | ML-Inferenz, Training, Remote-Workstations zur Visualisierung, Videotranscodierung | |
V100 | 16 GB HBM2 bei 900 GB/s | NVLink Ring @ 300 GB/s | ML-Training, Inferenz, HPC | |
P4 | 8 GB GDDR5 bei 192 GB/s | – | Remote-Workstations zur Visualisierung, ML-Inferenz und Videotranscodierung | |
P100 | 16 GB HBM2 bei 732 GB/s | – | ML-Training, Inferenz, HPC, Remote-Workstations zur Visualisierung |
Informationen zum Vergleichen der GPU-Preise für die verschiedenen GPU-Modelle und -Regionen, die in Compute Engine verfügbar sind, finden Sie unter GPU-Preise.
Leistungsvergleichsdiagramm
In der folgenden Tabelle werden die Leistungsspezifikationen der verschiedenen GPU-Modelle beschrieben, die in Compute Engine verfügbar sind.
Rechenleistung
GPU-Modell | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
A100 40GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
L4 | 0,5 TFLOPS* | 30,3 TFLOPS | ||
T4 | 0,25 TFLOPS* | 8,1 TFLOPS | ||
V100 | 7,8 TFLOPS | 15,7 TFLOPS | ||
P4 | 0,2 TFLOPS* | 5,5 TFLOPS | 22 TOPS† | |
P100 | 4,7 TFLOPS | 9,3 TFLOPS | 18,7 TFLOPS |
* Damit der FP64-Code ordnungsgemäß funktioniert, ist in der T4-, L4- und P4-GPU-Architektur eine geringe Anzahl von FP64-Hardwareeinheiten enthalten.
†TeraOperations pro Sekunde.
Tensor-Kernleistung
GPU-Modell | FP64 | TF32 | Mixed Precision FP16/FP32 | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2.500 TFLOPS† | 5.000 TFLOPS*, † | 10.000 TFLOPS† | 20.000 TFLOPS† | 10.000 TFLOPS† |
B200 | 40 TFLOPS | 1.100 TFLOPS† | 4.500 TFLOPS*, † | 9.000 TFLOPS† | 9.000 TFLOPS† | |
H200 | 67 TFLOPS | 989 TFLOPS† | 1.979 TFLOPS*, † | 3.958 TOPS† | 3,958 TFLOPS† | |
H100 | 67 TFLOPS | 989 TFLOPS† | 1.979 TFLOPS*, † | 3.958 TOPS† | 3,958 TFLOPS† | |
A100 80GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*, † | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*Für das Mixed Precision Training unterstützen NVIDIA GB200-, B200-, H200-, H100-, A100- und L4-GPUs auch den Datentyp bfloat16
.
†NVIDIA GB200-, B200-, H200-, H100- und L4-GPUs unterstützen strukturelle Dünnbesetzung. Mit struktureller dünner Besetzung können Sie die Leistung Ihrer Modelle verdoppeln. Die dokumentierten Werte gelten für die Verwendung von strukturierter Sparsity.
Wenn Sie keine strukturierte Sparsity verwenden, werden die Werte halbiert.
Nächste Schritte
- Weitere Informationen zu Compute Engine-GPUs
- Prüfen Sie die Verfügbarkeit von GPU-Regionen und -Zonen.
- Netzwerkbandbreiten und GPUs ansehen
- Preisinformationen zu GPUs