Firebase AI Logic SDK का इस्तेमाल करके, अपने ऐप्लिकेशन से Gemini API को कॉल करते समय, Gemini मॉडल को टेक्स्ट जनरेट करने के लिए कहा जा सकता है. इसके लिए, टेक्स्ट, इमेज, वीडियो, ऑडियो, और दस्तावेज़ (जैसे कि PDF) जैसे कई तरह के इनपुट का इस्तेमाल किया जा सकता है.
आपको ऐसे फ़ाइल टाइप इस्तेमाल करने होंगे जिन पर Gemini काम करता है. साथ ही, ऐसे MIME टाइप की जानकारी देनी होगी जिन पर Gemini काम करता है. इसके अलावा, यह भी पक्का करना होगा कि आपकी फ़ाइलें और मल्टीमॉडल अनुरोध, ज़रूरी शर्तों को पूरा करते हों और सबसे सही तरीकों का पालन करते हों.
यह पेज, GenerativeModel
का इस्तेमाल करने के बारे में है. इसमें इनके बारे में बताया गया है:
इन फ़ाइल इनपुट के लिए, काम करने वाले MIME टाइप, सबसे सही तरीके, और सीमाओं के बारे में जानकारी:
इमेज | वीडियो | ऑडियो | दस्तावेज़ (जैसे, PDF).
मल्टीमॉडल अनुरोधों में फ़ाइलें उपलब्ध कराने के विकल्प
इस पेज पर, Gemini API की सेवा देने वाली कंपनी के हिसाब से कॉन्टेंट देखने के लिए, Gemini API की सेवा देने वाली कंपनी चुनें |
मल्टीमॉडल वाले हर अनुरोध में, आपको हमेशा यह जानकारी देनी होगी:
फ़ाइल का
mimeType
. इस पेज के लागू होने वाले सेक्शन में जाकर, हर इनपुट फ़ाइल के लिए काम करने वाले MIME टाइप देखें.फ़ाइल. आपके पास फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराने या फ़ाइल को उसके यूआरएल का इस्तेमाल करके उपलब्ध कराने का विकल्प होता है.
अनुरोध में दी जा सकने वाली फ़ाइलों का साइज़ और संख्या, इन बातों पर निर्भर करती है: इनपुट फ़ाइल का टाइप, फ़ाइल देने का तरीका, और इस्तेमाल किया गया मॉडल (ज़्यादा जानकारी के लिए, इस पेज पर हर इनपुट फ़ाइल टाइप का सेक्शन देखें).
पहला विकल्प: फ़ाइल को इनलाइन डेटा के तौर पर उपलब्ध कराएं
इनलाइन डेटा के तौर पर दी गई फ़ाइलों के बारे में यहां दी गई जानकारी ध्यान में रखें:
सिर्फ़ छोटी फ़ाइलों को इनलाइन डेटा के तौर पर भेजा जा सकता है, क्योंकि अनुरोध के कुल साइज़ की सीमा 20 एमबी है.
ट्रांज़िट के दौरान फ़ाइल को base64 में कोड किया जाता है. इससे फ़ाइल का साइज़ बढ़ जाता है.
किसी फ़ाइल को इनलाइन डेटा के तौर पर शामिल करने का तरीका दिखाने वाले उदाहरण के लिए, टेक्स्ट और फ़ाइल (मल्टीमॉडल) इनपुट से टेक्स्ट जनरेट करना लेख पढ़ें. ध्यान दें कि Android और Apple प्लैटफ़ॉर्म के लिए उपलब्ध SDK टूल, MIME टाइप तय किए बिना ही अनुरोधों में इनलाइन इमेज को हैंडल कर सकते हैं. ज़्यादा जानें.
दूसरा विकल्प: यूआरएल का इस्तेमाल करके फ़ाइल सबमिट करना
Gemini Developer API का इस्तेमाल करते समय, इन तरह के यूआरएल स्वीकार किए जाते हैं:
YouTube वीडियो का यूआरएल: YouTube वीडियो सार्वजनिक या सबके लिए मौजूद नहीं के तौर पर सेट होना चाहिए.
हर अनुरोध में, YouTube वीडियो का सिर्फ़ एक यूआरएल दिया जा सकता है.
इमेज: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
इमेज: ज़रूरी शर्तें
इस सेक्शन में, इमेज के लिए अनुरोध के हिसाब से, इस्तेमाल किए जा सकने वाले MIME टाइप और सीमाओं के बारे में जानें.
साथ काम करने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, इमेज के इन एमआईएमई टाइप के साथ काम करते हैं:
- PNG -
image/png
- JPEG -
image/jpeg
- WebP -
image/webp
हर अनुरोध के लिए सीमाएं
किसी इमेज में पिक्सल की संख्या तय नहीं होती. हालांकि, बड़ी इमेज को छोटा किया जाता है और उनके चारों ओर पैडिंग जोड़ी जाती है, ताकि वे 3072 x 3072 के ज़्यादा से ज़्यादा रिज़ॉल्यूशन में फ़िट हो सकें. ऐसा करते समय, उनके ओरिजनल आसपेक्ट रेशियो (लंबाई-चौड़ाई का अनुपात) को बनाए रखा जाता है.
हर अनुरोध में ज़्यादा से ज़्यादा फ़ाइलें: 3,000 इमेज फ़ाइलें
इमेज: टोकनाइज़ेशन
इमेज के लिए टोकन का हिसाब इस तरह लगाया जाता है:
- अगर किसी इमेज के दोनों डाइमेंशन 384 पिक्सल से कम या उसके बराबर हैं, तो 258 टोकन इस्तेमाल किए जाते हैं.
- अगर किसी इमेज का एक डाइमेंशन 384 पिक्सल से ज़्यादा है, तो इमेज को टाइल में काट दिया जाता है. हर टाइल का डिफ़ॉल्ट साइज़, सबसे छोटे डाइमेंशन (चौड़ाई या ऊंचाई) को 1.5 से भाग देने पर मिलता है. अगर ज़रूरी हो, तो हर टाइल को इस तरह से अडजस्ट किया जाता है कि वह 256 पिक्सल से छोटी और 768 पिक्सल से बड़ी न हो. इसके बाद, हर टाइल का साइज़ बदलकर 768x768 कर दिया जाता है और इसमें 258 टोकन का इस्तेमाल होता है.
इमेज: सबसे सही तरीके
इमेज इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीकों और जानकारी का इस्तेमाल करें:
- अगर आपको किसी इमेज में मौजूद टेक्स्ट का पता लगाना है, तो एक इमेज वाले प्रॉम्प्ट का इस्तेमाल करें. इससे, एक से ज़्यादा इमेज वाले प्रॉम्प्ट की तुलना में बेहतर नतीजे मिलते हैं.
- अगर आपके प्रॉम्प्ट में सिर्फ़ एक इमेज है, तो अनुरोध में इमेज को टेक्स्ट प्रॉम्प्ट से पहले रखें.
- अगर आपके प्रॉम्प्ट में कई इमेज शामिल हैं और आपको बाद में अपने प्रॉम्प्ट में उनका रेफ़रंस देना है या मॉडल को अपने जवाब में उनका रेफ़रंस देना है, तो हर इमेज के आगे इंडेक्स देने से मदद मिल सकती है. अपने इंडेक्स के लिए,
याa
b
c
का इस्तेमाल करें. यहां प्रॉम्प्ट में इंडेक्स की गई इमेज का इस्तेमाल करने का एक उदाहरण दिया गया है:image 1
image 2
image 3
image 1
image 2 image 3 Write a blogpost about my day using image 1 and image 2. Then, give me ideas for tomorrow based on image 3. - ज़्यादा रिज़ॉल्यूशन वाली इमेज इस्तेमाल करें. इनसे बेहतर नतीजे मिलते हैं.
- प्रॉम्प्ट में कुछ उदाहरण शामिल करें.
- इमेज को प्रॉम्प्ट में जोड़ने से पहले, उन्हें सही ओरिएंटेशन में घुमाएं.
- धुंधली इमेज का इस्तेमाल न करें.
इमेज: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाली इमेज के जवाब नहीं देते हैं.
- स्पेशल रीज़निंग: मॉडल, इमेज में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- चिकित्सा के क्षेत्र में इस्तेमाल: ये मॉडल, मेडिकल इमेज (जैसे, एक्स-रे और सीटी स्कैन) की व्याख्या करने या चिकित्सा से जुड़ी सलाह देने के लिए सही नहीं हैं.
- लोगों की पहचान करना: इन मॉडल का इस्तेमाल, इमेज में मौजूद ऐसे लोगों की पहचान करने के लिए नहीं किया जाना चाहिए जो मशहूर हस्तियां नहीं हैं.
- सटीकता: खराब क्वालिटी, घुमाई गई या बहुत कम रिज़ॉल्यूशन वाली इमेज को समझने में, मॉडल को भ्रम हो सकता है या वे गलतियां कर सकते हैं. ऐसा भी हो सकता है कि मॉडल, इमेज और दस्तावेज़ों में मौजूद हाथ से लिखे गए टेक्स्ट को समझने में गड़बड़ी करें.
वीडियो: ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
वीडियो: ज़रूरी शर्तें
इस सेक्शन में, वीडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमाओं के बारे में जानें.
साथ काम करने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, वीडियो के इन MIME टाइप के साथ काम करते हैं:
- FLV -
video/x-flv
- MOV -
video/quicktime
- MPEG -
video/mpeg
- MPEGPS -
video/mpegps
- एमपीजी -
video/mpg
- MP4 -
video/mp4
- WEBM -
video/webm
- WMV -
video/wmv
- 3GPP -
video/3gpp
हर अनुरोध के लिए सीमाएं
हर अनुरोध में ज़्यादा से ज़्यादा 10 वीडियो फ़ाइलें अपलोड की जा सकती हैं
वीडियो: टोकनाइज़ेशन
वीडियो के लिए टोकन का हिसाब इस तरह लगाया जाता है:
- ऑडियो ट्रैक को वीडियो फ़्रेम के साथ एन्कोड किया गया है. ऑडियो ट्रैक को भी
एक सेकंड के ट्रंक में बांटा जाता है. हर ट्रंक में 32 टोकन होते हैं. वीडियो फ़्रेम और ऑडियो टोकन को उनके टाइमस्टैंप के साथ इंटरलीव किया जाता है. टाइमस्टैंप को पांच टोकन के तौर पर दिखाया जाता है. - वीडियो को
1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सैंपल किया जाता है. हर वीडियो फ़्रेम के लिए 258 टोकन होते हैं.
वीडियो: सबसे सही तरीके
वीडियो का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए यहां दिए गए सबसे सही तरीके अपनाएं और यह जानकारी दें:
- अगर आपके प्रॉम्प्ट में सिर्फ़ एक वीडियो है, तो वीडियो को टेक्स्ट प्रॉम्प्ट से पहले रखें.
- अगर आपको ऑडियो वाले वीडियो में टाइमस्टैंप को स्थानीय भाषा में बदलना है, तो मॉडल से
MM:SS
फ़ॉर्मैट में टाइमस्टैंप जनरेट करने के लिए कहें. इसमें पहले दो अंक मिनट और आखिरी दो अंक सेकंड दिखाते हैं. टाइमस्टैंप के बारे में पूछने वाले सवालों के लिए, एक ही फ़ॉर्मैट का इस्तेमाल करें.
वीडियो: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- कॉन्टेंट की निगरानी: मॉडल, सुरक्षा से जुड़ी हमारी नीतियों का उल्लंघन करने वाले वीडियो के जवाब नहीं देते हैं.
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
- तेज़ गति: वीडियो में तेज़ गति को समझने में मॉडल से गलतियाँ हो सकती हैं. ऐसा इसलिए होता है, क्योंकि सैंपलिंग रेट
1 फ़्रेम प्रति सेकंड (एफ़पीएस) पर सेट होता है.
ऑडियो: ज़रूरी शर्तें और सीमाएं
ऑडियो: ज़रूरी शर्तें
इस सेक्शन में, ऑडियो के लिए इस्तेमाल किए जा सकने वाले MIME टाइप और हर अनुरोध के लिए तय की गई सीमा के बारे में जानें.
साथ काम करने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, इन ऑडियो MIME टाइप के साथ काम करते हैं:
- AAC -
audio/aac
- FLAC -
audio/flac
- MP3 -
audio/mp3
- एमपीए -
audio/m4a
- MPEG -
audio/mpeg
- MPGA -
audio/mpga
- MP4 -
audio/mp4
- OPUS -
audio/opus
- पीसीएम -
audio/pcm
- WAV -
audio/wav
- WEBM -
audio/webm
हर अनुरोध के लिए सीमाएं
हर अनुरोध में ज़्यादा से ज़्यादा इतनी फ़ाइलें अपलोड की जा सकती हैं: 1 ऑडियो फ़ाइल
ऑडियो: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- बोली के अलावा अन्य आवाज़ों को पहचानने की सुविधा: ऑडियो की सुविधा के साथ काम करने वाले मॉडल, बोली के अलावा अन्य आवाज़ों को पहचानने में गड़बड़ी कर सकते हैं.
- सिर्फ़ ऑडियो वाले टाइमस्टैंप: सिर्फ़ ऑडियो वाली फ़ाइलों के लिए सटीक टाइमस्टैंप जनरेट करने के लिए, आपको
generation_config
मेंaudio_timestamp
पैरामीटर कॉन्फ़िगर करना होगा.
दस्तावेज़ (जैसे कि PDF): ज़रूरी शर्तें, सबसे सही तरीके, और सीमाएं
दस्तावेज़: ज़रूरी शर्तें
इस सेक्शन में, दस्तावेज़ों (जैसे कि PDF) के लिए, हर अनुरोध के हिसाब से इस्तेमाल किए जा सकने वाले MIME टाइप और उनकी सीमाओं के बारे में जानें.
साथ काम करने वाले MIME टाइप
Gemini मल्टीमॉडल मॉडल, इन MIME टाइप वाले दस्तावेज़ों के साथ काम करते हैं:
- PDF -
application/pdf
- टेक्स्ट -
text/plain
हर अनुरोध के लिए सीमाएं
PDF को इमेज माना जाता है. इसलिए, PDF के एक पेज को एक इमेज माना जाता है. किसी प्रॉम्प्ट में पेजों की संख्या, Gemini मल्टीमॉडल मॉडल के साथ काम करने वाली इमेज की संख्या से ज़्यादा नहीं होनी चाहिए.
- हर अनुरोध में ज़्यादा से ज़्यादा 3,000 फ़ाइलें
- हर फ़ाइल में ज़्यादा से ज़्यादा पेज: हर फ़ाइल में 1,000 पेज
- हर फ़ाइल का ज़्यादा से ज़्यादा साइज़: 50 एमबी
दस्तावेज़: टोकनाइज़ेशन
PDF टोकनाइज़ेशन
PDF को इमेज माना जाता है. इसलिए, PDF के हर पेज को इमेज की तरह ही टोकन में बदला जाता है.
साथ ही, पीडीएफ़ की कीमत Gemini इमेज की कीमत के हिसाब से तय होती है. उदाहरण के लिए, अगर आपने Gemini API कॉल में दो पेज वाला PDF शामिल किया है, तो आपको दो इमेज प्रोसेस करने के लिए इनपुट फ़ीस देनी होगी.
दस्तावेज़: सबसे सही तरीके
पीडीएफ़ का इस्तेमाल करते समय, सबसे बेहतर नतीजे पाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं और जानकारी का इस्तेमाल करें:
- अगर आपके प्रॉम्प्ट में सिर्फ़ एक PDF है, तो अपने अनुरोध में टेक्स्ट वाले प्रॉम्प्ट से पहले PDF रखें.
- अगर आपके पास कोई लंबा दस्तावेज़ है, तो उसे प्रोसेस करने के लिए, उसे कई PDF में बांटें.
- स्कैन की गई इमेज में मौजूद टेक्स्ट के बजाय, ऐसे PDF इस्तेमाल करें जिनमें टेक्स्ट को टेक्स्ट के तौर पर रेंडर किया गया हो. इस फ़ॉर्मैट में टेक्स्ट को मशीन आसानी से पढ़ सकती है. इससे मॉडल के लिए, स्कैन की गई इमेज वाले PDF की तुलना में टेक्स्ट को एडिट करना, खोजना, और उसमें बदलाव करना आसान हो जाता है. इस तरीके से, कॉन्ट्रैक्ट जैसे टेक्स्ट वाले दस्तावेज़ों के साथ काम करते समय सबसे अच्छे नतीजे मिलते हैं.
दस्तावेज़: सीमाएं
Gemini मल्टीमॉडल मॉडल, मल्टीमॉडल के कई इस्तेमाल के मामलों में असरदार होते हैं. हालांकि, इन मॉडल की सीमाओं को समझना ज़रूरी है:
- स्पेशल रीज़निंग: मॉडल, PDF में मौजूद टेक्स्ट या ऑब्जेक्ट का सटीक पता नहीं लगा पाते हैं. ऐसा हो सकता है कि वे सिर्फ़ ऑब्जेक्ट की अनुमानित संख्या दिखाएं.
- सटीकता: PDF दस्तावेज़ों में हाथ से लिखे गए टेक्स्ट को समझने के दौरान, मॉडल गलत जानकारी दे सकते हैं.