Ta strona została przetłumaczona przez Cloud Translation API.

Zliczanie tokenów w modelach Gemini

Gemini przetwarzają dane wejściowe i wyjściowe w jednostkach zwanych tokenami.

Tokeny mogą być pojedynczymi znakami, np. z, lub całymi słowami, np. cat. Długie słowa są dzielone na kilka tokenów. Zbiór wszystkich tokenów używanych przez model nazywa się słownikiem, a proces dzielenia tekstu na tokeny to tokenizacja.

W przypadku modeli Gemini token odpowiada około 4 znakom. 100 tokenów to około 60–80 słów w języku angielskim.

Każdy model ma maksymalną liczbę tokenów, które może obsłużyć w prompcie i odpowiedzi. Znajomość liczby tokenów w prompcie pozwala sprawdzić, czy nie przekraczasz tego limitu. Dodatkowo koszt żądania jest częściowo określany przez liczbę tokenów wejściowych i wyjściowych, więc wiedza o tym, jak je zliczać, może być przydatna.

Modele Gemini 1.0 i 1.5 również obsługiwały liczbę „płatnych znaków” i ceny, ale ponieważ te modele zostały już wycofane lub wkrótce zostaną wycofane, na tej stronie nie ma informacji o płatnych znakach.

Obsługiwane modele

gemini-2.5-pro
gemini-2.5-flash
gemini-2.5-flash-lite-preview-06-17
gemini-2.0-flash-001 (i jego automatycznie aktualizowany alias gemini-2.0-flash)
gemini-2.0-flash-lite-001 (i jego automatycznie aktualizowany alias gemini-2.0-flash-lite)
gemini-2.0-flash-preview-image-generation

Opcje liczenia tokenów

Wszystkie dane wejściowe i wyjściowe Gemini API są tokenizowane, w tym tekst, pliki obrazów i inne dane nietekstowe. Oto opcje liczenia tokenów:

Sprawdzaj liczbę tokenów tylko w przypadku żądań (przed wysłaniem ich do modelu).

Wywołaj funkcję countTokens z danymi wejściowymi żądania przed wysłaniem go do modelu. Zwróci to:

total_tokens: liczba tokenów tylko danych wejściowych

Sprawdź liczbę tokenów zarówno w przypadku żądań, jak i odpowiedzi.

Użyj atrybutu usageMetadata w obiekcie odpowiedzi. Obejmuje to m.in.:

prompt_token_count: liczba tokenów tylko w danych wejściowych
candidates_token_count: liczba tokenów tylko w danych wyjściowych (nie obejmuje tokenów związanych z procesem myślowym).
thoughts_token_count: liczba tokenów myślenia użytych do wygenerowania odpowiedzi.
total_token_count: łączna liczba tokenów wejściowych i wyjściowych (obejmuje tokeny związane z procesem myślowym)

Podczas strumieniowania danych wyjściowych atrybut usageMetadata pojawia się tylko w ostatnim fragmencie strumienia. W przypadku fragmentów pośrednich jest to nil.

Weź pod uwagę te informacje o powyższych opcjach:

Nie będą liczyć liczby obrazów wejściowych ani liczby sekund w plikach wejściowych wideo lub audio. Liczba tokenów w przypadku każdego z tych rodzajów danych będzie jednak powiązana z tymi wartościami.
Liczba tokenów wejściowych obejmuje prompt (tekst i wszystkie pliki wejściowe), a także instrukcje systemowe i narzędzia.
Liczba tokenów wyjściowych nie obejmuje tokenów myślenia. Są one podawane w osobnym polu.
Dodatkowe informacje dotyczące poszczególnych typów próśb znajdziesz w dalszej części tej strony.

Ceny tych opcji

Wywoływanie interfejsu countTokens: wywoływanie interfejsu countTokens (Count Tokens API) jest bezpłatne. Maksymalny limit interfejsu Count Tokens API to 3000 żądań na minutę (RPM).
Używanie atrybutu usageMetadata: ten atrybut jest zawsze zwracany w ramach odpowiedzi i nie generuje tokenów ani opłat.

Dodatkowe informacje

Poniżej znajdziesz dodatkowe informacje dotyczące pracy z określonymi typami próśb.

Zliczanie tokenów w polu tekstowym

Brak dodatkowych informacji.

Zliczanie tokenów w przypadku czatu wieloetapowego

Podczas korzystania z czatu pamiętaj o tych kwestiach dotyczących połączeń telefonicznych countTokens:

Jeśli wywołasz funkcję countTokens z historią czatu, zwróci ona łączną liczbę tokenów z obu ról w czacie (total_tokens).
Aby dowiedzieć się, jak duża będzie kolejna tura rozmowy, musisz dodać ją do historii, gdy wywołujesz funkcję countTokens.

Określanie liczby tokenów wejściowych w przypadku danych multimodalnych

Pamiętaj o tych kwestiach dotyczących zliczania tokenów w przypadku danych wejściowych multimodalnych:

Opcjonalnie możesz wywołać countTokens osobno w przypadku tekstu i pliku.
W przypadku obu opcji zliczania tokenów otrzymasz tę samą liczbę tokenów niezależnie od tego, czy podasz plik jako dane wbudowane, czy użyjesz jego adresu URL.

Pliki wejściowe obrazów

Wejściowe pliki obrazów są konwertowane na tokeny na podstawie ich wymiarów:

Obrazy wejściowe, których oba wymiary są mniejsze lub równe 384 pikselom: każdy obraz jest liczony jako 258 tokenów.
Obrazy wejściowe, które są większe w jednym lub obu wymiarach: każdy obraz jest przycinany i skalowany w razie potrzeby do kafelków o wymiarach 768 x 768 pikseli, a każdy kafelek jest liczony jako 258 tokenów.

Pliki wejściowe audio i wideo

Wejściowe pliki wideo i audio są konwertowane na tokeny według tych stałych stawek:

Wideo: 263 tokeny na sekundę
Audio: 32 tokeny na sekundę

Pliki wejściowe dokumentów (np. PDF-y)

Wejściowe pliki PDF są traktowane jako obrazy, więc każda strona pliku PDF jest tokenizowana w taki sam sposób jak obraz.