इस पेज का अनुवाद Cloud Translation API से किया गया है.

इनपुट फ़ाइलों के लिए इस्तेमाल किए जा सकने वाले फ़ॉर्मैट और ज़रूरी शर्तें

Firebase AI Logic SDK का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. इसके लिए, टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF) जैसे कई तरह के इनपुट का इस्तेमाल किया जा सकता है.

आपको ऐसे फ़ाइल टाइप इस्तेमाल करने होंगे जिन पर Gemini काम करता है. साथ ही, ऐसे MIME टाइप की जानकारी देनी होगी जिन पर Gemini काम करता है. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.

यह पेज, GenerativeModel का इस्तेमाल करने के बारे में है. इसमें इनके बारे में बताया गया है:

अनुरोध में फ़ाइलें सबमिट करने के विकल्प.
इन फ़ाइल इनपुट के लिए, काम करने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे, PDF).

मल्टीमॉडल अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प

इस पेज पर, Gemini API की सेवा देने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, Gemini API की सेवा देने वाली कंपनी चुनें

मल्टीमॉडल वाले हर अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:

फ़ाइल का mimeType. इस पेज के लागू होने वाले सेक्शन में जाकर, हर इनपुट फ़ाइल के लिए काम करने वाले MIME टाइप देखें.
फ़ाइल. आपके पास फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराने या फ़ाइल को उसके यूआरएल का इस्तेमाल करके उपलब्ध कराने का विकल्प होता है.

अनुरोध में दी जा सकने वाली फ़ाइलों का साइज़ और संख्या, इन बातों पर निर्भर करती है: इनपुट फ़ाइल का टाइप, फ़ाइल देने का तरीका, और इस्तेमाल किया गया मॉडल (ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें).

पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराएं

इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में यहां दी गई जानकारी ध्यान में रखें:

सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.
ट्रांज़िट के दौरान फ़ाइल को base64 में कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.

किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का तरीका दिखाने वाले उदाहरण के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए उपलब्ध SDK टूल, MIME टाइप तय किए बिना ही अनुरोधों में इनलाइन इमेज को हैंडल कर सकते हैं. ज़्यादा जानें.

दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल सबमिट करना

Gemini Developer API का इस्तेमाल करते समय, इन तरह के यूआरएल स्वीकार किए जाते हैं:

YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या सबके लिए मौजूद नहीं के तौर पर सेट होना चाहिए.

हर अनुरोध में, YouTube वीडियो का सिर्फ़ एक यूआरएल दिया जा सकता है.

इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

इमेज: ज़रूरी शर्तें

इस सेक्शन में, इमेज के लिए अनुरोध के हिसाब से, इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:

PNG - image/png
JPEG - image/jpeg
WebP - image/webp

हर अनुरोध के लिए सीमाएं

किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा किया जाता है और उनके चारों ओर पैडिंग जोड़ी जाती है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. ऐसा करते समय, उनके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) को बनाए रखा जाता है.

हर अनुरोध में ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें

इमेज: टोकनाइज़ेशन

इमेज के लिए टोकन का हिसाब इस तरह लगाया जाता है:

अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल से कम या उसके बराबर हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. अगर ज़रूरी हो, तो हर टाइल को इस तरह से अडजस्ट किया जाता है कि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल होता है.

इमेज: सबसे सही तरीके

इमेज इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:

अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट की तुलना में बेहतर नतीजे मिलते हैं.
अगर आपके प्रॉम्प्ट में सिर्फ़ एक इमेज है, तो अनुरोध में इमेज को टेक्स्ट प्रॉम्प्ट से पहले रखें.
अगर आपके प्रॉम्प्ट में कई इमेज शामिल हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को अपने जवाब में उनका रेफ़रंस देना है, तो हर इमेज के आगे इंडेक्स देने से मदद मिल सकती है. अपने इंडेक्स के लिए, a b c या image 1 image 2 image 3 का इस्तेमाल करें. यहां प्रॉम्प्ट में इंडेक्स की गई इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:
```
image 1 
image 2 
image 3 

Write a blogpost about my day using image 1 and image 2. Then, give me ideas
for tomorrow based on image 3.
```
ज़्यादा रिज़ॉल्यूशन वाली इमेज इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
धुंधली इमेज का इस्तेमाल न करें.

इमेज: सीमाएं

Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:

कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के जवाब नहीं देते हैं.
स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
चिकित्सा के क्षेत्र में इस्तेमाल: ये मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या चिकित्सा से जुड़ी सलाह देने के लिए सही नहीं हैं.
लोगों की पहचान करना: इन मॉडल का इस्तेमाल, इमेज में मौजूद ऐसे लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
सटीकता: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज को समझने में, मॉडल को भ्रम हो सकता है या वे गलतियां कर सकते हैं. ऐसा भी हो सकता है कि मॉडल, इमेज और दस्तावेज़ों में मौजूद हाथ से लिखे गए टेक्स्ट को समझने में गड़बड़ी करें.

वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

वीडियो: ज़रूरी शर्तें

इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:

FLV - video/x-flv
MOV - video/quicktime
MPEG - video/mpeg
MPEGPS - video/mpegps
एमपीजी - video/mpg
MP4 - video/mp4
WEBM - video/webm
WMV - video/wmv
3GPP - video/3gpp

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो फ़ाइलें अपलोड की जा सकती हैं

वीडियो: टोकनाइज़ेशन

वीडियो के लिए टोकन का हिसाब इस तरह लगाया जाता है:

ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है.
वीडियो को 1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सैंपल किया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन होते हैं.

वीडियो: सबसे सही तरीके

वीडियो का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीके अपनाएं और यह जानकारी दें:

अगर आपके प्रॉम्प्ट में सिर्फ़ एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा में बदलना है, तो मॉडल से MM:SS फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इसमें पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, एक ही फ़ॉर्मैट का इस्तेमाल करें.

वीडियो: सीमाएं

कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के जवाब नहीं देते हैं.
बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
तेज़ गति: वीडियो में तेज़ गति को समझने में मॉडल से गलतियाँ हो सकती हैं. ऐसा इसलिए होता है, क्योंकि सैंपलिंग रेट 1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सेट होता है.

ऑडियो: ज़रूरी शर्तें और सीमाएं

ऑडियो: ज़रूरी शर्तें

इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन ऑडियो MIME टाइप के साथ काम करते हैं:

AAC - audio/aac
FLAC - audio/flac
MP3 - audio/mp3
एमपीए - audio/m4a
MPEG - audio/mpeg
MPGA - audio/mpga
MP4 - audio/mp4
OPUS - audio/opus
पीसीएम - audio/pcm
WAV - audio/wav
WEBM - audio/webm

हर अनुरोध के लिए सीमाएं

हर अनुरोध में ज़्यादा से ज़्यादा इतनी फ़ाइलें अपलोड की जा सकती हैं: 1 ऑडियो फ़ाइल

ऑडियो: सीमाएं

बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको generation_config में audio_timestamp पैरामीटर कॉन्फ़िगर करना होगा.

दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं

दस्तावेज़: ज़रूरी शर्तें

इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए, हर अनुरोध के हिसाब से इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.

साथ काम करने वाले MIME टाइप

Gemini मल्टीमॉडल मॉडल, इन MIME टाइप वाले दस्तावेज़ों के साथ काम करते हैं:

PDF - application/pdf
टेक्स्ट - text/plain

हर अनुरोध के लिए सीमाएं

PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. किसी प्रॉम्प्ट में पेजों की संख्या, Gemini मल्टीमॉडल मॉडल के साथ काम करने वाली इमेज की संख्या से ज़्यादा नहीं होनी चाहिए.

हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें
हर फ़ाइल में ज़्यादा से ज़्यादा पेज: हर फ़ाइल में 1,000 पेज
हर फ़ाइल का ज़्यादा से ज़्यादा साइज़: 50 एमबी

दस्तावेज़: टोकनाइज़ेशन

PDF टोकनाइज़ेशन

PDF को इमेज माना जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकन में बदला जाता है.

साथ ही, पीडीएफ़ की कीमत Gemini इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज वाला PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.

दस्तावेज़: सबसे सही तरीके

पीडीएफ़ का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं और जानकारी का इस्तेमाल करें:

अगर आपके प्रॉम्प्ट में सिर्फ़ एक PDF है, तो अपने अनुरोध में टेक्स्ट वाले प्रॉम्प्ट से पहले PDF रखें.
अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, उसे कई PDF में बांटें.
स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, ऐसे PDF इस्तेमाल करें जिनमें टेक्स्ट को टेक्स्ट के तौर पर रेंडर किया गया हो. इस फ़ॉर्मैट में टेक्स्ट को मशीन आसानी से पढ़ सकती है. इससे मॉडल के लिए, स्कैन की गई इमेज वाले PDF की तुलना में टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान हो जाता है. इस तरीके से, कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय सबसे अच्छे नतीजे मिलते हैं.

दस्तावेज़: सीमाएं

स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
सटीकता: PDF दस्तावेज़ों में हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.