इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

Firebase AI Logic SDK का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. इसके लिए, टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF) जैसे कई तरह के इनपुट का इस्तेमाल किया जा सकता है.

आपको ऐसे फ़ाइल टाइप इस्तेमाल करने होंगे जिन पर Gemini काम करता है. साथ ही, ऐसे MIME टाइप की जानकारी देनी होगी जिन पर Gemini काम करता है. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इनके बारे में बताया गया है:

मल्टीमॉडल अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प

इस पेज पर, Gemini API की सेवा देने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, Gemini API की सेवा देने वाली कंपनी चुनें

मल्टीमॉडल वाले हर अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

अनुरोध में दी जा सकने वाली फ़ाइलों का साइज़ और संख्या, इन बातों पर निर्भर करती है: इनपुट फ़ाइल का टाइप, फ़ाइल देने का तरीका, और इस्तेमाल किया गया मॉडल (ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें).

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराएं

इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में यहां दी गई जानकारी ध्यान में रखें:

  • सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.

  • ट्रांज़िट के दौरान फ़ाइल को base64 में कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का तरीका दिखाने वाले उदाहरण के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए उपलब्ध SDK टूल, MIME टाइप तय किए बिना ही अनुरोधों में इनलाइन इमेज को हैंडल कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल सबमिट करना

Gemini Developer API का इस्तेमाल करते समय, इन तरह के यूआरएल स्वीकार किए जाते हैं:



इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए अनुरोध के हिसाब से, इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा किया जाता है और उनके चारों ओर पैडिंग जोड़ी जाती है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. ऐसा करते समय, उनके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) को बनाए रखा जाता है.

हर अनुरोध में ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन का हिसाब इस तरह लगाया जाता है:

  • अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल से कम या उसके बराबर हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
  • अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. अगर ज़रूरी हो, तो हर टाइल को इस तरह से अडजस्ट किया जाता है कि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल होता है.

इमेज: सबसे सही तरीके

इमेज इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

  • अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट की तुलना में बेहतर नतीजे मिलते हैं.
  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक इमेज है, तो अनुरोध में इमेज को टेक्स्ट प्रॉम्प्ट से पहले रखें.
  • अगर आपके प्रॉम्प्ट में कई इमेज शामिल हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को अपने जवाब में उनका रेफ़रंस देना है, तो हर इमेज के आगे इंडेक्स देने से मदद मिल सकती है. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां प्रॉम्प्ट में इंडेक्स की गई इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • ज़्यादा रिज़ॉल्यूशन वाली इमेज इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
  • प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
  • इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
  • धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के जवाब नहीं देते हैं.
  • स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • चिकित्सा के क्षेत्र में इस्तेमाल: ये मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या चिकित्सा से जुड़ी सलाह देने के लिए सही नहीं हैं.
  • लोगों की पहचान करना: इन मॉडल का इस्तेमाल, इमेज में मौजूद ऐसे लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
  • सटीकता: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज को समझने में, मॉडल को भ्रम हो सकता है या वे गलतियां कर सकते हैं. ऐसा भी हो सकता है कि मॉडल, इमेज और दस्तावेज़ों में मौजूद हाथ से लिखे गए टेक्स्ट को समझने में गड़बड़ी करें.



वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • एमपीजी - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो फ़ाइलें अपलोड की जा सकती हैं

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन का हिसाब इस तरह लगाया जाता है:

  • ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
  • वीडियो को 1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सैंपल किया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन होते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीके अपनाएं और यह जानकारी दें:

  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
  • अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा में बदलना है, तो मॉडल से MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इसमें पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, एक ही फ़ॉर्मैट का इस्तेमाल करें.

वीडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के जवाब नहीं देते हैं.
  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
  • तेज़ गति: वीडियो में तेज़ गति को समझने में मॉडल से गलतियाँ हो सकती हैं. ऐसा इसलिए होता है, क्योंकि सैंपलिंग रेट 1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सेट होता है.



ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन ऑडियो MIME टाइप के साथ काम करते हैं:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • एमपीए - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • पीसीएम - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा इतनी फ़ाइलें अपलोड की जा सकती हैं: 1 ऑडियो फ़ाइल

ऑडियो: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
  • सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.



दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए, हर अनुरोध के हिसाब से इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन MIME टाइप वाले दस्तावेज़ों के साथ काम करते हैं:

  • PDF - application/pdf
  • टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. किसी प्रॉम्प्ट में पेजों की संख्या, Gemini मल्टीमॉडल मॉडल के साथ काम करने वाली इमेज की संख्या से ज़्यादा नहीं होनी चाहिए.

  • हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें
  • हर फ़ाइल में ज़्यादा से ज़्यादा पेज: हर फ़ाइल में 1,000 पेज
  • हर फ़ाइल का ज़्यादा से ज़्यादा साइज़: 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकन में बदला जाता है.

साथ ही, पीडीएफ़ की कीमत Gemini इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज वाला PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.

दस्तावेज़: सबसे सही तरीके

पीडीएफ़ का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं और जानकारी का इस्तेमाल करें:

  • अगर आपके प्रॉम्प्ट में सिर्फ़ एक PDF है, तो अपने अनुरोध में टेक्स्ट वाले प्रॉम्प्ट से पहले PDF रखें.
  • अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, उसे कई PDF में बांटें.
  • स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, ऐसे PDF इस्तेमाल करें जिनमें टेक्स्ट को टेक्स्ट के तौर पर रेंडर किया गया हो. इस फ़ॉर्मैट में टेक्स्ट को मशीन आसानी से पढ़ सकती है. इससे मॉडल के लिए, स्कैन की गई इमेज वाले PDF की तुलना में टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान हो जाता है. इस तरीके से, कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

  • स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
  • सटीकता: PDF दस्तावेज़ों में हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.