সমর্থিত ইনপুট ফাইল এবং প্রয়োজনীয়তা

একটি Firebase AI লজিক SDK ব্যবহার করে আপনার অ্যাপ থেকে Gemini API কল করার সময়, আপনি চিত্র, ভিডিও এবং অডিও এবং নথির মতো (পিডিএফের মতো) একটি মাল্টিমডাল ইনপুটের উপর ভিত্তি করে টেক্সট তৈরি করতে জেমিনি মডেলকে প্রম্পট করতে পারেন।

আপনাকে সমর্থিত ফাইল প্রকারগুলি ব্যবহার করতে হবে, একটি সমর্থিত MIME প্রকার নির্দিষ্ট করতে হবে এবং নিশ্চিত করুন যে আপনার ফাইল এবং মাল্টিমোডাল অনুরোধগুলি প্রয়োজনীয়তাগুলি পূরণ করে এবং সর্বোত্তম অনুশীলনগুলি অনুসরণ করে৷

এই পৃষ্ঠাটি একটি GenerativeModel ব্যবহার করার জন্য নির্দিষ্ট এবং নিম্নলিখিতগুলি বর্ণনা করে:

মাল্টিমোডাল অনুরোধে ফাইল প্রদানের বিকল্প

এই পৃষ্ঠায় প্রদানকারী-নির্দিষ্ট সামগ্রী দেখতে আপনার Gemini API প্রদানকারী নির্বাচন করুন৷

প্রতিটি মাল্টিমোডাল অনুরোধে, আপনাকে সর্বদা নিম্নলিখিতগুলি প্রদান করতে হবে:

অনুরোধে আপনি যে ফাইলগুলি প্রদান করতে পারেন তার আকার এবং সংখ্যা ইনপুট ফাইলের প্রকার, আপনি কীভাবে ফাইলটি প্রদান করেন এবং ব্যবহৃত মডেল দ্বারা নির্দেশিত হয় (বিশদ বিবরণের জন্য, এই পৃষ্ঠায় প্রতিটি ইনপুট ফাইল প্রকারের বিভাগ দেখুন)।

বিকল্প 1 : ফাইলটিকে ইনলাইন ডেটা হিসাবে সরবরাহ করুন

ইনলাইন ডেটা হিসাবে প্রদত্ত ফাইল সম্পর্কে নিম্নলিখিত নোট করুন:

  • শুধুমাত্র ছোট ফাইলগুলি ইনলাইন ডেটা হিসাবে পাঠানো যেতে পারে কারণ মোট অনুরোধের আকার সীমা 20 এমবি।

  • ফাইলটি ট্রানজিটে base64 এ এনকোড করা হয়েছে (যা ফাইলের আকার বাড়ায়)।

ইনলাইন ডেটা হিসাবে একটি ফাইল কীভাবে অন্তর্ভুক্ত করতে হয় তা দেখানোর উদাহরণের জন্য, পাঠ্য-এবং-ফাইল (মাল্টিমোডাল) ইনপুট থেকে পাঠ্য তৈরি করুন দেখুন। মনে রাখবেন যে Android এবং Apple প্ল্যাটফর্মের জন্য SDKগুলি MIME প্রকার নির্দিষ্ট করার প্রয়োজন ছাড়াই অনুরোধে ইনলাইন চিত্রগুলি পরিচালনা করতে পারে৷ আরও জানুন

বিকল্প 2 : একটি URL ব্যবহার করে ফাইলটি প্রদান করুন

জেমিনি ডেভেলপার এপিআই ব্যবহার করার সময় এখানে গ্রহণযোগ্য ধরনের ইউআরএল রয়েছে:



ছবি : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ছবি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকারগুলি এবং চিত্রগুলির জন্য অনুরোধের সীমা সম্পর্কে জানুন৷

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত MIME প্রকারগুলিকে সমর্থন করে:

  • PNG - image/png
  • JPEG - image/jpeg
  • ওয়েবপি - image/webp

অনুরোধ প্রতি সীমা

একটি ছবিতে পিক্সেল সংখ্যার একটি নির্দিষ্ট সীমা নেই। যাইহোক, বৃহত্তর চিত্রগুলিকে তাদের আসল আকৃতির অনুপাত সংরক্ষণ করার সময় সর্বাধিক 3072 x 3072 রেজোলিউশনে ফিট করার জন্য ছোট করে এবং প্যাড করা হয়।

অনুরোধ প্রতি সর্বোচ্চ ফাইল: 3,000 ইমেজ ফাইল

ছবি: টোকেনাইজেশন

চিত্রের জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:

  • যদি একটি চিত্রের উভয় মাত্রা 384 পিক্সেলের কম বা সমান হয়, তাহলে 258 টোকেন ব্যবহার করা হয়।
  • যদি একটি চিত্রের একটি মাত্রা 384 পিক্সেলের বেশি হয়, তাহলে ছবিটি টাইলগুলিতে কাটা হয়। প্রতিটি টাইলের আকার 1.5 দ্বারা বিভক্ত ক্ষুদ্রতম মাত্রা (প্রস্থ বা উচ্চতা) ডিফল্ট। প্রয়োজনে, প্রতিটি টাইল সামঞ্জস্য করা হয় যাতে এটি 256 পিক্সেলের চেয়ে ছোট না হয় এবং 768 পিক্সেলের বেশি না হয়। প্রতিটি টাইলের আকার পরিবর্তন করে 768x768 করা হয় এবং 258 টোকেন ব্যবহার করা হয়।

ছবি: সেরা অনুশীলন

ছবি ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • আপনি যদি একটি ছবিতে টেক্সট সনাক্ত করতে চান, তাহলে একাধিক ছবি সহ প্রম্পটের চেয়ে ভাল ফলাফল তৈরি করতে একটি একক চিত্র সহ প্রম্পট ব্যবহার করুন৷
  • যদি আপনার প্রম্পটে একটি একক ছবি থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে ছবিটি রাখুন।
  • যদি আপনার প্রম্পটে একাধিক ছবি থাকে, এবং আপনি পরবর্তীতে আপনার প্রম্পটে সেগুলি উল্লেখ করতে চান বা মডেলটিকে মডেল প্রতিক্রিয়ায় সেগুলি উল্লেখ করতে চান, তাহলে এটি প্রতিটি চিত্রকে ছবির আগে একটি সূচক দিতে সাহায্য করতে পারে৷ ব্যবহার করুন a b c বা আপনার সূচকের জন্য image 1 image 2 image 3 । নিম্নলিখিত একটি প্রম্পটে সূচীকৃত ছবি ব্যবহার করার একটি উদাহরণ:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • উচ্চ রেজোলিউশন সহ ছবি ব্যবহার করুন; তারা আরও ভাল ফলাফল দেয়।
  • প্রম্পটে কয়েকটি উদাহরণ অন্তর্ভুক্ত করুন।
  • ছবিগুলিকে প্রম্পটে যুক্ত করার আগে তাদের সঠিক অভিযোজনে ঘোরান৷
  • ঝাপসা ছবি এড়িয়ে চলুন।

ছবি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন চিত্রগুলির উত্তর দিতে অস্বীকার করে৷
  • স্থানিক যুক্তি : মডেলগুলি চিত্রগুলিতে পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
  • মেডিকেল ব্যবহার : মডেলগুলি মেডিকেল ইমেজ ব্যাখ্যা করার জন্য উপযুক্ত নয় (উদাহরণস্বরূপ, এক্স-রে এবং সিটি স্ক্যান) বা চিকিৎসা পরামর্শ প্রদানের জন্য।
  • লোকের স্বীকৃতি : মডেলগুলি এমন নয় যে ব্যক্তিদের চিহ্নিত করতে ব্যবহার করা হবে যারা ছবিতে সেলিব্রিটি নন৷
  • নির্ভুলতা : নিম্ন-মানের, ঘোরানো, বা অত্যন্ত নিম্ন-রেজোলিউশনের চিত্রগুলি ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট বা ভুল করতে পারে। চিত্র নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলিও হ্যালুসিনেট হতে পারে।



ভিডিও : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

ভিডিও: প্রয়োজনীয়তা

এই বিভাগে, ভিডিওর জন্য সমর্থিত MIME প্রকার এবং প্রতি অনুরোধের সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত ভিডিও MIME প্রকারগুলিকে সমর্থন করে:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

অনুরোধ প্রতি সীমা

অনুরোধ প্রতি সর্বোচ্চ ফাইল: 10 ভিডিও ফাইল

ভিডিও: টোকেনাইজেশন

ভিডিওর জন্য টোকেনগুলি কীভাবে গণনা করা হয় তা এখানে:

  • অডিও ট্র্যাকটি ভিডিও ফ্রেমের সাথে এনকোড করা হয়েছে। অডিও ট্র্যাকটিকেও 1-সেকেন্ডের ট্রাঙ্কে বিভক্ত করা হয়েছে যার প্রতিটির জন্য 32টি টোকেন রয়েছে৷ ভিডিও ফ্রেম এবং অডিও টোকেনগুলি তাদের টাইমস্ট্যাম্পের সাথে একত্রে আন্তঃলিভ করা হয়। টাইমস্ট্যাম্পগুলি 5 টোকেন হিসাবে উপস্থাপন করা হয়।
  • যে ভিডিওগুলির নমুনা 1 ফ্রেম প্রতি সেকেন্ডে বা তার নীচে (fps) হয়, ভিডিওর প্রথম ঘন্টার টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে 5 টোকেন হিসাবে উপস্থাপন করা হয়। অবশিষ্ট টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে 7 টোকেন হিসাবে উপস্থাপন করা হয়।
  • 1 ফ্রেম প্রতি সেকেন্ড (fps) এর উপরে নমুনা করা ভিডিওগুলির জন্য, ভিডিওর প্রথম ঘন্টার টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে 9 টোকেন হিসাবে উপস্থাপন করা হয়। অবশিষ্ট টাইমস্ট্যাম্পগুলি প্রতি ভিডিও ফ্রেমে 11টি টোকেন হিসাবে উপস্থাপন করা হয়।

ভিডিও: সেরা অনুশীলন

ভিডিও ব্যবহার করার সময়, সর্বোত্তম ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি একক ভিডিও থাকে, তাহলে পাঠ্য প্রম্পটের আগে ভিডিওটি রাখুন।
  • আপনার যদি অডিও সহ একটি ভিডিওতে টাইমস্ট্যাম্প স্থানীয়করণের প্রয়োজন হয়, তাহলে মডেলটিকে টাইমস্ট্যাম্প তৈরি করতে বলুন যা "টাইমস্ট্যাম্প বিন্যাসে" বর্ণিত ফর্ম্যাট অনুসরণ করে।

ভিডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • বিষয়বস্তু নিয়ন্ত্রণ : মডেলগুলি আমাদের নিরাপত্তা নীতি লঙ্ঘন করে এমন ভিডিওগুলির উত্তর দিতে অস্বীকার করে৷
  • নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।



অডিও : প্রয়োজনীয়তা এবং সীমাবদ্ধতা

অডিও: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং অডিওর জন্য অনুরোধ প্রতি সীমা সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত অডিও MIME প্রকারগুলিকে সমর্থন করে:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • পিসিএম - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

অনুরোধ প্রতি সীমা

অনুরোধ প্রতি সর্বোচ্চ ফাইল: 1 অডিও ফাইল

অডিও: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • নন-স্পিচ সাউন্ড রিকগনিশন : যে মডেলগুলি অডিও সমর্থন করে সেগুলি স্পিচ নয় এমন শব্দ চিনতে ভুল করতে পারে।
  • শুধুমাত্র অডিও টাইমস্ট্যাম্প : শুধুমাত্র অডিও ফাইলের জন্য সঠিকভাবে টাইমস্ট্যাম্প তৈরি করতে, আপনাকে generation_config audio_timestamp প্যারামিটার কনফিগার করতে হবে।



নথি (পিডিএফের মতো) : প্রয়োজনীয়তা, সর্বোত্তম অনুশীলন এবং সীমাবদ্ধতা

নথি: প্রয়োজনীয়তা

এই বিভাগে, সমর্থিত MIME প্রকার এবং নথিগুলির জন্য অনুরোধের সীমা (যেমন PDF) সম্পর্কে জানুন।

সমর্থিত MIME প্রকার

জেমিনি মাল্টিমোডাল মডেলগুলি নিম্নলিখিত নথি MIME প্রকারগুলিকে সমর্থন করে:

  • পিডিএফ - application/pdf
  • টেক্সট - text/plain

অনুরোধ প্রতি সীমা

পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের একক পৃষ্ঠাকে একটি চিত্র হিসাবে বিবেচনা করা হয়। একটি প্রম্পটে অনুমোদিত পৃষ্ঠার সংখ্যা জেমিনি মাল্টিমোডাল মডেলগুলি সমর্থন করতে পারে এমন চিত্রগুলির সংখ্যার মধ্যে সীমাবদ্ধ।

  • অনুরোধ প্রতি সর্বোচ্চ ফাইল: 3,000 ফাইল
  • ফাইল প্রতি সর্বোচ্চ পৃষ্ঠা: ফাইল প্রতি 1,000 পৃষ্ঠা
  • ফাইল প্রতি সর্বোচ্চ আকার: প্রতি ফাইল 50 MB

নথি: টোকেনাইজেশন

পিডিএফ টোকেনাইজেশন

পিডিএফগুলিকে চিত্র হিসাবে বিবেচনা করা হয়, তাই একটি পিডিএফের প্রতিটি পৃষ্ঠাকে একটি চিত্রের মতোই টোকেনাইজ করা হয়।

এছাড়াও, পিডিএফ-এর জন্য খরচ মিথুন ছবির মূল্য অনুসরণ করে। উদাহরণস্বরূপ, যদি আপনি একটি Gemini API কলে একটি দুই-পৃষ্ঠার PDF অন্তর্ভুক্ত করেন, তাহলে আপনাকে দুটি ছবি প্রসেস করার জন্য একটি ইনপুট ফি দিতে হবে।

নথি: সর্বোত্তম অনুশীলন

পিডিএফ ব্যবহার করার সময়, সেরা ফলাফলের জন্য নিম্নলিখিত সেরা অনুশীলন এবং তথ্য ব্যবহার করুন:

  • যদি আপনার প্রম্পটে একটি পিডিএফ থাকে, তাহলে আপনার অনুরোধে টেক্সট প্রম্পটের আগে PDF রাখুন।
  • আপনার যদি একটি দীর্ঘ নথি থাকে তবে এটি প্রক্রিয়া করার জন্য এটিকে একাধিক PDF এ বিভক্ত করার কথা বিবেচনা করুন।
  • স্ক্যান করা ছবিতে টেক্সট ব্যবহার না করে টেক্সট হিসেবে রেন্ডার করা টেক্সট দিয়ে তৈরি PDF ব্যবহার করুন। এই বিন্যাসটি নিশ্চিত করে যে পাঠ্যটি মেশিন-পঠনযোগ্য যাতে মডেলটির পক্ষে স্ক্যান করা চিত্র PDF এর তুলনায় সম্পাদনা, অনুসন্ধান এবং ম্যানিপুলেট করা সহজ হয়। চুক্তির মতো পাঠ্য-ভারী নথিগুলির সাথে কাজ করার সময় এই অনুশীলনটি সর্বোত্তম ফলাফল প্রদান করে।

নথি: সীমাবদ্ধতা

যদিও জেমিনি মাল্টিমোডাল মডেলগুলি অনেক মাল্টিমোডাল ব্যবহারের ক্ষেত্রে শক্তিশালী, তবে মডেলগুলির সীমাবদ্ধতাগুলি বোঝা গুরুত্বপূর্ণ:

  • স্থানিক যুক্তি : মডেলগুলি পিডিএফ-এ পাঠ্য বা বস্তুগুলি সনাক্ত করার ক্ষেত্রে সুনির্দিষ্ট নয়। তারা শুধুমাত্র বস্তুর আনুমানিক সংখ্যা ফেরত দিতে পারে।
  • যথার্থতা : পিডিএফ নথিতে হাতে লেখা পাঠ্য ব্যাখ্যা করার সময় মডেলগুলি হ্যালুসিনেট হতে পারে।