Ratenbegrenzungen regeln die Anzahl der Anfragen, die Sie innerhalb eines bestimmten Zeitraums an die Gemini API senden können. Diese Limits tragen dazu bei, dass die Nutzung fair bleibt, schützen vor Missbrauch und sorgen dafür, dass die Systemleistung für alle Nutzer aufrechterhalten wird.
Funktionsweise von Ratenbeschränkungen
Ratenbeschränkungen werden in der Regel anhand von drei Dimensionen gemessen:
- Anfragen pro Minute (RPM)
- Tokens pro Minute (Eingabe) (TPM)
- Anfragen pro Tag (RPD)
Ihre Nutzung wird anhand der einzelnen Limits bewertet. Wenn Sie eines der Limits überschreiten, wird ein Ratenbegrenzungsfehler ausgelöst. Wenn Ihr RPM-Limit beispielsweise 20 beträgt, führt das Senden von 21 Anfragen innerhalb einer Minute zu einem Fehler, auch wenn Sie Ihr TPM-Limit oder andere Limits nicht überschritten haben.
Ratenbegrenzungen gelten pro Projekt, nicht pro API-Schlüssel.
Kontingente für Anfragen pro Tag (RPD) werden um Mitternacht (Pacific Time) zurückgesetzt.
Die Limits variieren je nach verwendetem Modell. Einige Limits gelten nur für bestimmte Modelle. „Bilder pro Minute“ (Images per minute, IPM) wird beispielsweise nur für Modelle berechnet, die Bilder generieren können (Imagen 3), ist aber konzeptionell ähnlich wie TPM. Bei anderen Modellen gilt möglicherweise ein Tokenlimit pro Tag.
Die Ratenbegrenzungen sind für experimentelle Modelle und Vorschauversionen strenger.
Nutzungsstufen
Ratenbegrenzungen sind an die Nutzungsstufe des Projekts gebunden. Wenn Ihre API-Nutzung und Ihre Ausgaben steigen, können Sie auf eine höhere Stufe mit erhöhten Ratenlimits upgraden.
Die Voraussetzungen für die Stufen 2 und 3 basieren auf den kumulativen Gesamtausgaben für Google Cloud-Dienste (einschließlich, aber nicht beschränkt auf die Gemini API) für das mit Ihrem Projekt verknüpfte Abrechnungskonto.
Stufe | Qualifikationen |
---|---|
Kostenlos | Nutzer in unterstützten Ländern |
Preisstufe 1 | Mit dem Projekt verknüpftes Rechnungskonto |
Preisstufe 2 | Gesamtausgaben: > 250 $ und mindestens 30 Tage seit erfolgreicher Zahlung |
Ebene 3 | Gesamtausgaben: > 1.000 $ und mindestens 30 Tage seit erfolgreicher Zahlung |
Wenn Sie ein Upgrade anfordern, führt unser automatisiertes System zum Schutz vor Missbrauch zusätzliche Prüfungen durch. Die Erfüllung der angegebenen Qualifikationskriterien reicht in der Regel für die Genehmigung aus. In seltenen Fällen kann ein Antrag auf Upgrade jedoch aufgrund anderer Faktoren abgelehnt werden, die während der Überprüfung ermittelt wurden.
Dieses System trägt dazu bei, die Sicherheit und Integrität der Gemini API-Plattform für alle Nutzer aufrechtzuerhalten.
Standardmäßige API-Ratenbegrenzungen
In der folgenden Tabelle sind die Ratenlimits für alle Standard-Gemini API-Aufrufe aufgeführt.
Kostenlose Stufe
Modell | RPM | TPM | RPD |
---|---|---|---|
Text-out-Modelle | |||
Gemini 2.5 Pro | 5 | 250.000 | 100 |
Gemini 2.5 Flash | 10 | 250.000 | 250 |
Gemini 2.5 Flash-Lite | 15 | 250.000 | 1.000 |
Gemini 2.0 Flash | 15 | 1.000.000 | 200 |
Gemini 2.0 Flash-Lite | 30 | 1.000.000 | 200 |
Live-API | |||
Gemini 2.5 Flash Live | 3 Sitzungen | 1.000.000 | |
Gemini 2.5 Flash-Vorabversion für nativen Audio-Dialog | Eine Sitzung | 25.000 | 5 |
Gemini 2.5 Flash Experimental – Dialog für die native Audioanalyse | Eine Sitzung | 10.000 | 5 |
Gemini 2.0 Flash Live | 3 Sitzungen | 1.000.000 | |
Multimodale Generierungsmodelle | |||
Gemini 2.5 Flash Preview – TTS | 3 | 10.000 | 15 |
Gemini 2.5 Pro Preview – TTS | |||
Gemini 2.0 Flash – Vorschau auf die Bildgenerierung | 10 | 200.000 | 100 |
Imagen 3 | |||
Veo 2 | |||
Andere Modelle | |||
Gemma 3 und 3n | 30 | 15.000 | 14.400 |
Gemini Embedding | 100 | 30.000 | 1.000 |
Eingestellte Modelle | |||
Gemini 1.5 Flash (eingestellt) | 15 | 250.000 | 50 |
Gemini 1.5 Flash-8B (eingestellt) | 15 | 250.000 | 50 |
Gemini 1.5 Pro (eingestellt) |
Preisstufe 1
Modell | RPM | TPM | RPD | In die Warteschlange gestellte Batch-Tokens |
---|---|---|---|---|
Text-out-Modelle | ||||
Gemini 2.5 Pro | 150 | 2.000.000 | 10.000 | 5.000.000 |
Gemini 2.5 Flash | 1.000 | 1.000.000 | 10.000 | 3.000.000 |
Gemini 2.5 Flash-Lite | 4.000 | 4.000.000 | Kein Limit | 10.000.000 |
Gemini 2.0 Flash | 2.000 | 4.000.000 | Kein Limit | 10.000.000 |
Gemini 2.0 Flash-Lite | 4.000 | 4.000.000 | Kein Limit | 10.000.000 |
Live-API | ||||
Gemini 2.5 Flash Live | 50 Sitzungen | 4.000.000 | ||
Gemini 2.5 Flash-Vorabversion für nativen Audio-Dialog | 3 Sitzungen | 50.000 | 50 | |
Gemini 2.5 Flash Experimental – Dialog für die native Audioanalyse | Eine Sitzung | 25.000 | 50 | |
Gemini 2.0 Flash Live | 50 Sitzungen | 4.000.000 | ||
Multimodale Generierungsmodelle | ||||
Gemini 2.5 Flash Preview – TTS | 10 | 10.000 | 100 | |
Gemini 2.5 Pro Preview – TTS | 10 | 10.000 | 50 | |
Gemini 2.0 Flash – Vorschau auf die Bildgenerierung | 1.000 | 1.000.000 | 10.000 | |
Imagen 4 Standard | 10 | 70 | ||
Imagen 4 Ultra | 5 | 30 | ||
Imagen 3 | 20 | |||
Veo 3 | 2 | 10 | ||
Veo 2 | 2 | 50 | ||
Andere Modelle | ||||
Gemma 3 und 3n | 30 | 15.000 | 14.400 | |
Gemini Embedding | 3.000 | 1.000.000 | ||
Eingestellte Modelle | ||||
Gemini 1.5 Flash (eingestellt) | 2.000 | 4.000.000 | ||
Gemini 1.5 Flash-8B (eingestellt) | 4.000 | 4.000.000 | ||
Gemini 1.5 Pro (eingestellt) | 1.000 | 4.000.000 |
Preisstufe 2
Modell | RPM | TPM | RPD | In die Warteschlange gestellte Batch-Tokens |
---|---|---|---|---|
Text-out-Modelle | ||||
Gemini 2.5 Pro | 1.000 | 5.000.000 | 50.000 | 500.000.000 |
Gemini 2.5 Flash | 2.000 | 3.000.000 | 100.000 | 400.000.000 |
Gemini 2.5 Flash-Lite | 10.000 | 10.000.000 | Kein Limit | 500.000.000 |
Gemini 2.0 Flash | 10.000 | 10.000.000 | Kein Limit | 1.000.000.000 |
Gemini 2.0 Flash-Lite | 20.000 | 10.000.000 | Kein Limit | 1.000.000.000 |
Live-API | ||||
Gemini 2.5 Flash Live | 1.000 Sitzungen | 10.000.000 | ||
Gemini 2.5 Flash-Vorabversion für nativen Audio-Dialog | 100 Sitzungen | 1.000.000 | ||
Gemini 2.5 Flash Experimental – Dialog für die native Audioanalyse | Eine Sitzung | 25.000 | 50 | |
Gemini 2.0 Flash Live | 1.000 Sitzungen | 10.000.000 | ||
Multimodale Generierungsmodelle | ||||
Gemini 2.5 Flash Preview – TTS | 1.000 | 100.000 | 10.000 | |
Gemini 2.5 Pro Preview – TTS | 100 | 25.000 | 1.000 | |
Gemini 2.0 Flash – Vorschau auf die Bildgenerierung | 2.000 | 3.000.000 | 100.000 | |
Imagen 4 Standard | 15 | 1000 | ||
Imagen 4 Ultra | 10 | 400 | ||
Imagen 3 | 20 | |||
Veo 3 | 4 | 50 | ||
Veo 2 | 2 | 50 | ||
Andere Modelle | ||||
Gemma 3 und 3n | 30 | 15.000 | 14.400 | |
Gemini Embedding | 5.000 | 5.000.000 | -- | -- |
Eingestellte Modelle | ||||
Gemini 1.5 Flash (eingestellt) | 2.000 | 4.000.000 | ||
Gemini 1.5 Flash-8B (eingestellt) | 4.000 | 4.000.000 | ||
Gemini 1.5 Pro (eingestellt) | 1.000 | 4.000.000 |
Ebene 3
Modell | RPM | TPM | RPD | In die Warteschlange gestellte Batch-Tokens |
---|---|---|---|---|
Text-out-Modelle | ||||
Gemini 2.5 Pro | 2.000 | 8.000.000 | Kein Limit | 1.000.000.000 |
Gemini 2.5 Flash | 10.000 | 8.000.000 | Kein Limit | 1.000.000.000 |
Gemini 2.5 Flash-Lite | 30.000 | 30.000.000 | Kein Limit | 1.000.000.000 |
Gemini 2.0 Flash | 30.000 | 30.000.000 | Kein Limit | 5.000.000.000 |
Gemini 2.0 Flash-Lite | 30.000 | 30.000.000 | Kein Limit | 5.000.000.000 |
Live-API | ||||
Gemini 2.5 Flash Live | 1.000 Sitzungen | 10.000.000 | ||
Gemini 2.5 Flash-Vorabversion für nativen Audio-Dialog | 100 Sitzungen | 1.000.000 | ||
Gemini 2.5 Flash Experimental – Dialog für die native Audioanalyse | Eine Sitzung | 25.000 | 50 | |
Gemini 2.0 Flash Live | 1.000 Sitzungen | 10.000.000 | ||
Multimodale Generierungsmodelle | ||||
Gemini 2.5 Flash Preview – TTS | 1.000 | 1.000.000 | ||
Gemini 2.5 Pro Preview – TTS | 100 | 1.000.000 | ||
Gemini 2.0 Flash – Vorschau auf die Bildgenerierung | 5.000 | 5.000.000 | ||
Imagen 4 Standard | 20 | 15.000 | ||
Imagen 4 Ultra | 15 | 5.000 | ||
Imagen 3 | 20 | |||
Veo 3 | 10 | 500 | ||
Veo 2 | 2 | 50 | ||
Andere Modelle | ||||
Gemma 3 und 3n | 30 | 15.000 | 14.400 | |
Gemini Embedding | 10.000 | 10.000.000 | -- | -- |
Eingestellte Modelle | ||||
Gemini 1.5 Flash (eingestellt) | 2.000 | 4.000.000 | ||
Gemini 1.5 Flash-8B (eingestellt) | 4.000 | 4.000.000 | ||
Gemini 1.5 Pro (eingestellt) | 1.000 | 4.000.000 |
Die angegebenen Ratenlimits sind nicht garantiert und die tatsächliche Kapazität kann variieren.
Ratenbegrenzungen für den Batchmodus
Für Anfragen im Batch-Modus gelten eigene Ratenlimits, die sich von den API-Aufrufen im Nicht-Batch-Modus unterscheiden.
- Gleichzeitige Batchanfragen:100
- Größenlimit für Eingabedateien:2 GB
- Dateispeicherlimit:20 GB
- In die Warteschlange gestellte Tokens pro Modell:In der Spalte Batch Enqueued Tokens (In die Warteschlange gestellte Batch-Tokens) in der Tabelle mit den Ratenlimits ist die maximale Anzahl von Tokens aufgeführt, die für die Batchverarbeitung in allen aktiven Batchjobs für ein bestimmtes Modell in die Warteschlange gestellt werden können. Tabelle mit Standard-API-Ratenbegrenzungen
So führst du ein Upgrade auf die nächste Stufe durch
Für alle Abrechnungsdienste wird die Cloud-Abrechnung verwendet. Wenn Sie von der kostenlosen Stufe zu einer kostenpflichtigen Stufe wechseln möchten, müssen Sie zuerst die Cloud-Abrechnung für Ihr Google Cloud-Projekt aktivieren.
Sobald Ihr Projekt die angegebenen Kriterien erfüllt, kann es auf die nächste Stufe hochgestuft werden. So beantragen Sie ein Upgrade:
- Rufen Sie in AI Studio die Seite API-Schlüssel auf.
- Suchen Sie das Projekt, das Sie aktualisieren möchten, und klicken Sie auf „Upgrade“. Die Option „Upgrade“ wird nur für Projekte angezeigt, die die Anforderungen für die nächste Stufe erfüllen.
Nach einer kurzen Validierung wird das Projekt auf die nächste Stufe hochgestuft.
Erhöhung des Ratenlimits beantragen
Für jede Modellvariante gilt ein Ratenlimit (Anfragen pro Minute, RPM). Weitere Informationen zu diesen Ratenlimits finden Sie unter Gemini-Modelle.
Erhöhung der Ratenbegrenzung für kostenpflichtige Tarife beantragen
Wir können nicht garantieren, dass Ihr Ratenlimit erhöht wird, werden aber unser Bestes tun, um Ihre Anfrage zu prüfen.