Gemini przetwarzają dane wejściowe i wyjściowe w jednostkach zwanych tokenami.
Tokeny mogą być pojedynczymi znakami, np. z
, lub całymi słowami, np. cat
. Długie słowa są dzielone na kilka tokenów. Zbiór wszystkich tokenów używanych przez model nazywa się słownikiem, a proces dzielenia tekstu na tokeny to tokenizacja.
W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 słów w języku angielskim.
Każdy model ma maksymalną liczbę tokenów, które może obsłużyć w prompcie i odpowiedzi. Znajomość liczby tokenów w prompcie pozwala sprawdzić, czy nie przekraczasz tego limitu. Dodatkowo koszt żądania jest częściowo określany przez liczbę tokenów wejściowych i wyjściowych, więc wiedza o tym, jak je zliczać, może być przydatna.
Modele Gemini 1.0 i 1.5 również obsługiwały liczbę „płatnych znaków” i ceny, ale ponieważ te modele zostały już wycofane lub wkrótce zostaną wycofane, na tej stronie nie ma informacji o płatnych znakach.
Obsługiwane modele
gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite-preview-06-17
gemini-2.0-flash-001
(i jego automatycznie aktualizowany aliasgemini-2.0-flash
)gemini-2.0-flash-lite-001
(i jego automatycznie aktualizowany aliasgemini-2.0-flash-lite
)gemini-2.0-flash-preview-image-generation
Opcje liczenia tokenów
Wszystkie dane wejściowe i wyjściowe Gemini API są tokenizowane, w tym tekst, pliki obrazów i inne dane nietekstowe. Oto opcje liczenia tokenów:
- Sprawdzaj liczbę tokenów tylko w przypadku żądań (przed wysłaniem ich do modelu).
- Wywołaj funkcję
countTokens
z danymi wejściowymi żądania przed wysłaniem go do modelu. Zwróci to:total_tokens
: liczba tokenów tylko danych wejściowych
- Sprawdź liczbę tokenów zarówno w przypadku żądań, jak i odpowiedzi.
- Użyj atrybutu
usageMetadata
w obiekcie odpowiedzi. Obejmuje to m.in.:prompt_token_count
: liczba tokenów tylko w danych wejściowychcandidates_token_count
: liczba tokenów tylko w danych wyjściowych (nie obejmuje tokenów związanych z procesem myślowym).thoughts_token_count
: liczba tokenów myślenia użytych do wygenerowania odpowiedzi.total_token_count
: łączna liczba tokenów wejściowych i wyjściowych (obejmuje tokeny związane z procesem myślowym)
Podczas strumieniowania danych wyjściowych atrybut
usageMetadata
pojawia się tylko w ostatnim fragmencie strumienia. W przypadku fragmentów pośrednich jest tonil
.
Weź pod uwagę te informacje o powyższych opcjach:
- Nie będą liczyć liczby obrazów wejściowych ani liczby sekund w plikach wejściowych wideo lub audio. Liczba tokenów w przypadku każdego z tych rodzajów danych będzie jednak powiązana z tymi wartościami.
- Liczba tokenów wejściowych obejmuje prompt (tekst i wszystkie pliki wejściowe), a także instrukcje systemowe i narzędzia.
- Liczba tokenów wyjściowych nie obejmuje tokenów myślenia. Są one podawane w osobnym polu.
- Dodatkowe informacje dotyczące poszczególnych typów próśb znajdziesz w dalszej części tej strony.
Ceny tych opcji
Wywoływanie interfejsu
countTokens
: wywoływanie interfejsucountTokens
(Count Tokens API) jest bezpłatne. Maksymalny limit interfejsu Count Tokens API to 3000 żądań na minutę (RPM).Używanie atrybutu
usageMetadata
: ten atrybut jest zawsze zwracany w ramach odpowiedzi i nie generuje tokenów ani opłat.
Dodatkowe informacje
Poniżej znajdziesz dodatkowe informacje dotyczące pracy z określonymi typami próśb.
Zliczanie tokenów w polu tekstowym
Brak dodatkowych informacji.
Zliczanie tokenów w przypadku czatu wieloetapowego
Podczas korzystania z czatu pamiętaj o tych kwestiach dotyczących połączeń telefonicznych countTokens
:
- Jeśli wywołasz funkcję
countTokens
z historią czatu, zwróci ona łączną liczbę tokenów z obu ról w czacie (total_tokens
). - Aby dowiedzieć się, jak duża będzie kolejna tura rozmowy, musisz dodać ją do historii, gdy wywołujesz funkcję
countTokens
.
Określanie liczby tokenów wejściowych w przypadku danych multimodalnych
Pamiętaj o tych kwestiach dotyczących zliczania tokenów w przypadku danych wejściowych multimodalnych:
- Opcjonalnie możesz wywołać
countTokens
osobno w przypadku tekstu i pliku. - W przypadku obu opcji zliczania tokenów otrzymasz tę samą liczbę tokenów niezależnie od tego, czy podasz plik jako dane wbudowane, czy użyjesz jego adresu URL.
Pliki wejściowe obrazów
Wejściowe pliki obrazów są konwertowane na tokeny na podstawie ich wymiarów:
- Obrazy wejściowe, których oba wymiary są mniejsze lub równe 384 pikselom: każdy obraz jest liczony jako 258 tokenów.
- Obrazy wejściowe, które są większe w jednym lub obu wymiarach: każdy obraz jest przycinany i skalowany w razie potrzeby do kafelków o wymiarach 768 x 768 pikseli, a każdy kafelek jest liczony jako 258 tokenów.
Pliki wejściowe audio i wideo
Wejściowe pliki wideo i audio są konwertowane na tokeny według tych stałych stawek:
- Wideo: 263 tokeny na sekundę
- Audio: 32 tokeny na sekundę
Pliki wejściowe dokumentów (np. PDF-y)
Wejściowe pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.