นับโทเค็นสำหรับโมเดล Gemini

Gemini โมเดลจะประมวลผลอินพุตและเอาต์พุตในหน่วยที่เรียกว่าโทเค็น

โทเค็นอาจเป็นอักขระเดียว เช่น z หรือทั้งคำ เช่น cat ระบบจะแบ่งคำยาวๆ ออกเป็นโทเค็นหลายรายการ ชุดโทเค็นทั้งหมดที่โมเดลใช้เรียกว่าคำศัพท์ และกระบวนการแยกข้อความเป็นโทเค็นเรียกว่าการโทเค็น

สำหรับโมเดล Gemini โทเค็นจะเทียบเท่ากับอักขระประมาณ 4 ตัว โดย 100 โทเค็นจะเท่ากับคำภาษาอังกฤษประมาณ 60-80 คำ

โมเดลแต่ละรายการมีจำนวนโทเค็นสูงสุด ที่สามารถจัดการได้ในพรอมต์และคำตอบ การทราบจำนวนโทเค็นของพรอมต์จะช่วยให้คุณทราบว่าใช้เกินขีดจำกัดนี้หรือไม่ นอกจากนี้ ค่าใช้จ่ายของคำขอจะพิจารณาจากจำนวนโทเค็นอินพุตและเอาต์พุตด้วย ดังนั้นการรู้วิธีนับโทเค็นจึงอาจเป็นประโยชน์

โปรดทราบว่าโมเดล Gemini 1.0 และ 1.5 ยังรองรับการนับและราคาของ "อักขระที่เรียกเก็บเงินได้" แต่เนื่องจากโมเดลเหล่านั้นเลิกใช้งานแล้วหรือกำลังจะเลิกใช้งาน หน้านี้จึงไม่ได้อธิบายเกี่ยวกับอักขระที่เรียกเก็บเงินได้

โมเดลที่รองรับ

  • gemini-2.5-pro
  • gemini-2.5-flash
  • gemini-2.5-flash-lite-preview-06-17
  • gemini-2.0-flash-001 (และนามแฝงที่อัปเดตอัตโนมัติ gemini-2.0-flash)
  • gemini-2.0-flash-lite-001 (และนามแฝงที่อัปเดตอัตโนมัติ gemini-2.0-flash-lite)
  • gemini-2.0-flash-preview-image-generation

ตัวเลือกสำหรับการนับโทเค็น

อินพุตและเอาต์พุตทั้งหมดสำหรับ Gemini API จะได้รับการแปลงเป็นโทเค็น ซึ่งรวมถึงข้อความ ไฟล์รูปภาพ และรูปแบบอื่นๆ ที่ไม่ใช่ข้อความ ตัวเลือกในการนับโทเค็นมีดังนี้

ตรวจสอบจำนวนโทเค็นสำหรับคำขอเท่านั้น (ก่อนส่ง ไปยังโมเดล)
เรียกใช้ countTokens โดยมีอินพุตของคำขอ ก่อนส่งไปยังโมเดล ระบบจะแสดงผลดังนี้
  • total_tokens: จำนวนโทเค็นของอินพุตเท่านั้น
ตรวจสอบจำนวนโทเค็นทั้งคำขอและการตอบกลับ
ใช้แอตทริบิวต์ usageMetadata ในออบเจ็กต์การตอบกลับ ซึ่งรวมถึง
  • prompt_token_count: จำนวนโทเค็นของอินพุตเท่านั้น
  • candidates_token_count: จำนวนโทเค็นของเอาต์พุตเท่านั้น (ไม่รวมโทเค็นการคิด)
  • thoughts_token_count: จำนวนโทเค็นของโทเค็นการคิด ที่ใช้ในการสร้างคำตอบ
  • total_token_count: จำนวนโทเค็นทั้งหมดสำหรับ ทั้งอินพุตและเอาต์พุต (รวมโทเค็นการคิดทั้งหมด)

เมื่อสตรีมเอาต์พุต แอตทริบิวต์ usageMetadata จะปรากฏใน ก้อนข้อมูลสุดท้ายของสตรีมเท่านั้น โดยจะใช้ nil สำหรับ ก้อนข้อมูลระดับกลาง

โปรดทราบประเด็นต่อไปนี้เกี่ยวกับตัวเลือกด้านบน

  • โดยจะไม่นับจำนวนรูปภาพอินพุตหรือจำนวนวินาทีในไฟล์อินพุตวิดีโอหรือเสียง อย่างไรก็ตาม จำนวนโทเค็นสำหรับรูปแบบ แต่ละรูปแบบจะสัมพันธ์กับค่าเหล่านี้
  • จำนวนโทเค็นอินพุตประกอบด้วยพรอมต์ (ข้อความและไฟล์อินพุต) รวมถึงคำสั่งและเครื่องมือของระบบ
  • จำนวนโทเค็นเอาต์พุตไม่รวมโทเค็นการคิด โดยโทเค็นการคิดจะ ระบุไว้ในช่องแยกต่างหาก
  • ดูข้อมูลเพิ่มเติมที่เกี่ยวข้องกับคำขอแต่ละประเภท ในหน้านี้

ราคาสำหรับตัวเลือกเหล่านี้

  • การเรียกใช้ countTokens: ไม่มีค่าใช้จ่ายสำหรับการเรียกใช้ countTokens (API นับโทเค็น) โควต้าสูงสุดสำหรับ Count Tokens API คือ 3,000 คำขอต่อนาที (RPM)

  • การใช้แอตทริบิวต์ usageMetadata: ระบบจะแสดงแอตทริบิวต์นี้เป็นส่วนหนึ่งของการตอบกลับเสมอ และจะไม่ทำให้เกิดโทเค็นหรือเรียกเก็บเงิน

ข้อมูลเพิ่มเติม

โปรดดูข้อมูลเพิ่มเติมต่อไปนี้เมื่อทำงานกับคำขอประเภทใดประเภทหนึ่ง

นับโทเค็นอินพุตข้อความ

ไม่มีข้อมูลเพิ่มเติม

นับโทเค็นแบบหลายรอบ (แชท)

โปรดทราบข้อมูลต่อไปนี้สำหรับการโทรcountTokensเมื่อใช้แชท

  • หากคุณเรียกใช้ countTokens พร้อมประวัติการแชท ฟังก์ชันจะแสดงผลจำนวนโทเค็นทั้งหมดจากทั้ง 2 บทบาทในแชท (total_tokens)
  • หากต้องการทราบว่าการสนทนาครั้งถัดไปจะมีขนาดเท่าใด คุณต้อง ต่อท้ายประวัติเมื่อเรียกใช้ countTokens

นับโทเค็นอินพุตหลายรูปแบบ

โปรดทราบประเด็นต่อไปนี้เกี่ยวกับการนับโทเค็นด้วยอินพุตมัลติโมดัล

  • คุณจะโทรหา countTokens ในข้อความและไฟล์แยกกันได้ (ไม่บังคับ)
  • สำหรับตัวเลือกการนับโทเค็นทั้ง 2 แบบ คุณจะได้รับจำนวนโทเค็นเท่ากันไม่ว่า จะระบุไฟล์เป็นข้อมูลแบบอินไลน์หรือใช้ URL ของไฟล์

ไฟล์อินพุตรูปภาพ

ระบบจะแปลงไฟล์อินพุตรูปภาพเป็นโทเค็นตามขนาดของรูปภาพ ดังนี้

  • อินพุตรูปภาพที่มีขนาดทั้ง 2 ด้านไม่เกิน 384 พิกเซล: ระบบจะนับรูปภาพแต่ละรูปเป็น 258 โทเค็น
  • อินพุตรูปภาพที่มีขนาดใหญ่กว่าในมิติเดียวหรือทั้ง 2 มิติ: ระบบจะครอบตัดและปรับขนาดรูปภาพแต่ละรูปตามต้องการเป็นไทล์ขนาด 768x768 พิกเซล จากนั้นจะนับไทล์แต่ละไทล์เป็น 258 โทเค็น

ไฟล์อินพุตวิดีโอและเสียง

ระบบจะแปลงไฟล์อินพุตวิดีโอและเสียงเป็นโทเค็นในอัตราคงที่ต่อไปนี้

  • วิดีโอ: 263 โทเค็นต่อวินาที
  • เสียง: 32 โทเค็นต่อวินาที

ไฟล์อินพุตเอกสาร (เช่น PDF)

ระบบจะถือว่าไฟล์อินพุต PDF เป็นรูปภาพ ดังนั้นระบบจะสร้างโทเค็นแต่ละหน้าของ PDF ในลักษณะเดียวกับรูปภาพ