مدل های Gemini ورودی و خروجی را در واحدهایی به نام توکن پردازش می کند.
توکن ها می توانند نویسه های تکی مانند z
یا کلمات کامل مانند cat
باشند. کلمات طولانی به چندین نشانه تقسیم می شوند. مجموعه تمام نشانه های استفاده شده توسط مدل، واژگان نامیده می شود، و فرآیند تقسیم متن به نشانه ها، توکن سازی نامیده می شود.
برای مدل های Gemini ، یک توکن معادل حدود 4 کاراکتر است. 100 توکن برابر با 60-80 کلمه انگلیسی است.
هر مدل دارای حداکثر تعداد نشانه هایی است که می تواند در یک اعلان و پاسخ به آنها رسیدگی کند. دانستن تعداد نشانههای درخواستتان به شما امکان میدهد بدانید که آیا از این حد فراتر رفتهاید. علاوه بر این، هزینه درخواست تا حدی با تعداد توکنهای ورودی و خروجی تعیین میشود، بنابراین دانستن نحوه شمارش نشانهها میتواند مفید باشد.
توجه داشته باشید که مدلهای Gemini 1.0 و 1.5 از تعداد و قیمت «شخصیتهای قابل پرداخت» نیز پشتیبانی میکنند، اما از آنجایی که این مدلها همگی یا بازنشسته هستند یا به زودی بازنشسته میشوند، این صفحه هیچ توضیحی درباره شخصیتهای قابل پرداخت ارائه نمیدهد.
مدل های پشتیبانی شده
-
gemini-2.5-pro
-
gemini-2.5-flash
-
gemini-2.5-flash-lite
-
gemini-2.0-flash-001
(و نام مستعار به روز شده خودکار آنgemini-2.0-flash
) -
gemini-2.0-flash-lite-001
(و نام مستعار به روز شده خودکار آنgemini-2.0-flash-lite
) -
gemini-2.0-flash-preview-image-generation
گزینه هایی برای شمارش نشانه ها
تمام ورودیها و خروجیهای Gemini API از جمله متن، فایلهای تصویری و سایر روشهای غیر متنی توکنیزه میشوند. در اینجا گزینه هایی برای شمارش نشانه ها وجود دارد:
- تعداد توکن ها را فقط برای درخواست های خود بررسی کنید (قبل از ارسال آنها به مدل).
- قبل از ارسال درخواست به مدل،
countTokens
با ورودی درخواست فراخوانی کنید. این برمی گرداند:-
total_tokens
: فقط تعداد توکن ورودی
-
- تعداد توکن ها را هم برای درخواست ها و هم برای پاسخ های خود بررسی کنید.
- از ویژگی
usageMetadata
در شی پاسخ استفاده کنید. این شامل:-
prompt_token_count
: فقط تعداد توکن ورودی -
candidates_token_count
: فقط تعداد توکن های خروجی (شامل نشانه های تفکر نمی شود) -
thoughts_token_count
: شمارش نشانههای هر نشانه تفکری که برای تولید پاسخ استفاده میشود -
total_token_count
: تعداد کل نشانهها برای ورودی و خروجی (شامل هر گونه نشانه فکری)
هنگام خروجی جریان، ویژگی
usageMetadata
فقط در آخرین قسمت جریان ظاهر می شود. برای تکه های متوسطnil
است. -
در مورد گزینه های بالا به نکات زیر توجه کنید:
- آنها تعداد تصاویر ورودی یا تعداد ثانیه ها را در فایل های ورودی ویدیویی یا صوتی حساب نمی کنند. با این حال، تعداد نشانهها برای هر یک از این روشها با این مقادیر مرتبط است.
- تعداد نشانه های ورودی شامل اعلان (متن و هر فایل ورودی) و همچنین دستورالعمل ها و ابزارهای سیستم است.
- تعداد نشانه های خروجی شامل هیچ نشانه فکری نمی شود. آنها در یک زمینه جداگانه ارائه می شوند.
- اطلاعات اضافی مربوط به هر نوع درخواست را بعداً در این صفحه مرور کنید.
قیمت گذاری برای این گزینه ها
تماس با
countTokens
: برای تماس باcountTokens
(API Count Tokens) هزینه ای دریافت نمی شود. حداکثر سهمیه برای Count Tokens API 3000 درخواست در دقیقه (RPM) است.استفاده از ویژگی
usageMetadata
: این ویژگی همیشه به عنوان بخشی از پاسخ برگردانده می شود و هیچ نشانه یا هزینه ای برای خود ایجاد نمی کند.
اطلاعات تکمیلی
در اینجا برخی از اطلاعات اضافی هنگام کار با انواع خاصی از درخواست ها آورده شده است.
شمارش نشانه های ورودی متن
بدون اطلاعات اضافی
توکن های چند نوبتی (چت) را بشمارید
برای فراخوانی countTokens
هنگام استفاده از چت به موارد زیر توجه کنید:
- اگر
countTokens
با سابقه چت فراخوانی کنید، تعداد کل توکن ها را از هر دو نقش در چت (total_tokens
) برمی گرداند. - برای درک اینکه نوبت بعدی مکالمه شما چقدر بزرگ خواهد بود، باید هنگام تماس
countTokens
آن را به تاریخچه اضافه کنید.
توکن های ورودی چندوجهی را بشمارید
به نکات زیر در مورد شمارش نشانه ها با ورودی چند وجهی توجه کنید:
- می توانید به صورت اختیاری
countTokens
روی متن و فایل به طور جداگانه فراخوانی کنید. - برای هر دو گزینه شمارش توکن، چه فایل را به عنوان داده درون خطی یا با استفاده از URL آن ارائه دهید، یک تعداد توکن را دریافت خواهید کرد.
فایل های ورودی تصویر
فایل های ورودی تصویر بر اساس ابعادشان به توکن تبدیل می شوند:
- ورودی های تصویر با هر دو ابعاد کمتر یا مساوی 384 پیکسل: هر تصویر به عنوان 258 توکن محاسبه می شود.
- ورودیهای تصویری که در یک یا هر دو بعد بزرگتر هستند: هر تصویر برش داده میشود و در صورت نیاز به کاشیهایی با ابعاد 768x768 پیکسل برش داده میشود و سپس هر کاشی به عنوان 258 نشانه محاسبه میشود.
فایل های ورودی تصویری و صوتی
فایلهای ورودی ویدیویی و صوتی با نرخهای ثابت زیر به توکن تبدیل میشوند:
- ویدئو: 263 توکن در ثانیه
- صدا: 32 توکن در ثانیه
فایل های ورودی سند (مانند PDF).
فایلهای ورودی PDF بهعنوان تصویر در نظر گرفته میشوند، بنابراین هر صفحه از یک پیدیاف به روشی مشابه یک تصویر نشانه گذاری میشود.