برای مدل های جمینی توکن ها را بشمارید

مدل های Gemini ورودی و خروجی را در واحدهایی به نام توکن پردازش می کند.

توکن ها می توانند نویسه های تکی مانند z یا کلمات کامل مانند cat باشند. کلمات طولانی به چندین نشانه تقسیم می شوند. مجموعه تمام نشانه های استفاده شده توسط مدل، واژگان نامیده می شود، و فرآیند تقسیم متن به نشانه ها، توکن سازی نامیده می شود.

برای مدل های Gemini ، یک توکن معادل حدود 4 کاراکتر است. 100 توکن برابر با 60-80 کلمه انگلیسی است.

هر مدل دارای حداکثر تعداد نشانه هایی است که می تواند در یک اعلان و پاسخ به آنها رسیدگی کند. دانستن تعداد نشانه‌های درخواستتان به شما امکان می‌دهد بدانید که آیا از این حد فراتر رفته‌اید. علاوه بر این، هزینه درخواست تا حدی با تعداد توکن‌های ورودی و خروجی تعیین می‌شود، بنابراین دانستن نحوه شمارش نشانه‌ها می‌تواند مفید باشد.

توجه داشته باشید که مدل‌های Gemini 1.0 و 1.5 از تعداد و قیمت «شخصیت‌های قابل پرداخت» نیز پشتیبانی می‌کنند، اما از آنجایی که این مدل‌ها همگی یا بازنشسته هستند یا به زودی بازنشسته می‌شوند، این صفحه هیچ توضیحی درباره شخصیت‌های قابل پرداخت ارائه نمی‌دهد.

مدل های پشتیبانی شده

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite
  • gemini-2.0-flash-001 (و نام مستعار به روز شده خودکار آن gemini-2.0-flash )
  • gemini-2.0-flash-lite-001 (و نام مستعار به روز شده خودکار آن gemini-2.0-flash-lite )
  • gemini-2.0-flash-preview-image-generation

گزینه هایی برای شمارش نشانه ها

تمام ورودی‌ها و خروجی‌های Gemini API از جمله متن، فایل‌های تصویری و سایر روش‌های غیر متنی توکنیزه می‌شوند. در اینجا گزینه هایی برای شمارش نشانه ها وجود دارد:

تعداد توکن ها را فقط برای درخواست های خود بررسی کنید (قبل از ارسال آنها به مدل).
قبل از ارسال درخواست به مدل، countTokens با ورودی درخواست فراخوانی کنید. این برمی گرداند:
  • total_tokens : فقط تعداد توکن ورودی
تعداد توکن ها را هم برای درخواست ها و هم برای پاسخ های خود بررسی کنید.
از ویژگی usageMetadata در شی پاسخ استفاده کنید. این شامل:
  • prompt_token_count : فقط تعداد توکن ورودی
  • candidates_token_count : فقط تعداد توکن های خروجی (شامل نشانه های تفکر نمی شود)
  • thoughts_token_count : شمارش نشانه‌های هر نشانه تفکری که برای تولید پاسخ استفاده می‌شود
  • total_token_count : تعداد کل نشانه‌ها برای ورودی و خروجی (شامل هر گونه نشانه فکری)

هنگام خروجی جریان، ویژگی usageMetadata فقط در آخرین قسمت جریان ظاهر می شود. برای تکه های متوسط nil است.

در مورد گزینه های بالا به نکات زیر توجه کنید:

  • آنها تعداد تصاویر ورودی یا تعداد ثانیه ها را در فایل های ورودی ویدیویی یا صوتی حساب نمی کنند. با این حال، تعداد نشانه‌ها برای هر یک از این روش‌ها با این مقادیر مرتبط است.
  • تعداد نشانه های ورودی شامل اعلان (متن و هر فایل ورودی) و همچنین دستورالعمل ها و ابزارهای سیستم است.
  • تعداد نشانه های خروجی شامل هیچ نشانه فکری نمی شود. آنها در یک زمینه جداگانه ارائه می شوند.
  • اطلاعات اضافی مربوط به هر نوع درخواست را بعداً در این صفحه مرور کنید.

قیمت گذاری برای این گزینه ها

  • تماس با countTokens : برای تماس با countTokens (API Count Tokens) هزینه ای دریافت نمی شود. حداکثر سهمیه برای Count Tokens API 3000 درخواست در دقیقه (RPM) است.

  • استفاده از ویژگی usageMetadata : این ویژگی همیشه به عنوان بخشی از پاسخ برگردانده می شود و هیچ نشانه یا هزینه ای برای خود ایجاد نمی کند.

اطلاعات تکمیلی

در اینجا برخی از اطلاعات اضافی هنگام کار با انواع خاصی از درخواست ها آورده شده است.

شمارش نشانه های ورودی متن

بدون اطلاعات اضافی

توکن های چند نوبتی (چت) را بشمارید

برای فراخوانی countTokens هنگام استفاده از چت به موارد زیر توجه کنید:

  • اگر countTokens با سابقه چت فراخوانی کنید، تعداد کل توکن ها را از هر دو نقش در چت ( total_tokens ) برمی گرداند.
  • برای درک اینکه نوبت بعدی مکالمه شما چقدر بزرگ خواهد بود، باید هنگام تماس countTokens آن را به تاریخچه اضافه کنید.

توکن های ورودی چندوجهی را بشمارید

به نکات زیر در مورد شمارش نشانه ها با ورودی چند وجهی توجه کنید:

  • می توانید به صورت اختیاری countTokens روی متن و فایل به طور جداگانه فراخوانی کنید.
  • برای هر دو گزینه شمارش توکن، چه فایل را به عنوان داده درون خطی یا با استفاده از URL آن ارائه دهید، یک تعداد توکن را دریافت خواهید کرد.

فایل های ورودی تصویر

فایل های ورودی تصویر بر اساس ابعادشان به توکن تبدیل می شوند:

  • ورودی های تصویر با هر دو ابعاد کمتر یا مساوی 384 پیکسل: هر تصویر به عنوان 258 توکن محاسبه می شود.
  • ورودی‌های تصویری که در یک یا هر دو بعد بزرگ‌تر هستند: هر تصویر برش داده می‌شود و در صورت نیاز به کاشی‌هایی با ابعاد 768x768 پیکسل برش داده می‌شود و سپس هر کاشی به عنوان 258 نشانه محاسبه می‌شود.

فایل های ورودی تصویری و صوتی

فایل‌های ورودی ویدیویی و صوتی با نرخ‌های ثابت زیر به توکن تبدیل می‌شوند:

  • ویدئو: 263 توکن در ثانیه
  • صدا: 32 توکن در ثانیه

فایل های ورودی سند (مانند PDF).

فایل‌های ورودی PDF به‌عنوان تصویر در نظر گرفته می‌شوند، بنابراین هر صفحه از یک پی‌دی‌اف به روشی مشابه یک تصویر نشانه گذاری می‌شود.