Desteklenen giriş dosyaları ve gereksinimler

Firebase AI Logic SDK'sını kullanarak uygulamanızdan Gemini API işlevini çağırdığınızda, Gemini modelinden resim, video, ses ve doküman (ör. PDF) gibi çok formatlı bir girişe dayalı metin oluşturmasını isteyebilirsiniz.

Desteklenen dosya türlerini kullanmanız, desteklenen bir MIME türü belirtmeniz ve dosyalarınızın ve çok formatlı isteklerinizin şartları karşıladığından ve en iyi uygulamalara uygun olduğundan emin olmanız gerekir.

Bu sayfa, GenerativeModel kullanmaya özeldir ve aşağıdakileri açıklar:

Çok formatlı isteklerde dosya sağlama seçenekleri

Bu sayfada sağlayıcıya özel içerikleri görüntülemek için Gemini API sağlayıcınızı seçin

Her çok formatlı istekte her zaman aşağıdakileri sağlamanız gerekir:

İstekle birlikte sağlayabileceğiniz dosyaların boyutu ve sayısı; giriş dosyası türü, dosyayı sağlama şekliniz ve kullanılan modele göre belirlenir (ayrıntılar için bu sayfadaki her giriş dosyası türünün bölümüne bakın).

1. seçenek: Dosyayı satır içi veri olarak sağlama

Satır içi veri olarak sağlanan dosyalarla ilgili aşağıdaki bilgileri unutmayın:

  • Toplam istek boyutu sınırı 20 MB olduğundan yalnızca küçük dosyalar satır içi veri olarak gönderilebilir.

  • Dosya, aktarım sırasında base64 ile kodlanır (bu da dosya boyutunu artırır).

Bir dosyayı satır içi veri olarak ekleme örneği için Metin ve dosya (çok formatlı) girişinden metin oluşturma başlıklı makaleyi inceleyin. Android ve Apple platformlarındaki SDK'ların, MIME türünü belirtmeye gerek kalmadan isteklerdeki satır içi resimleri işleyebileceğini unutmayın. Daha fazla bilgi edinin.

2. seçenek: Dosyayı URL kullanarak sağlama

Gemini Developer API kullanılırken kabul edilen URL türleri şunlardır:



Resimler: Koşullar, en iyi uygulamalar ve sınırlamalar

Resimler: Şartlar

Bu bölümde, desteklenen MIME türleri ve istek başına görüntü sınırları hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki resim MIME türlerini destekler:

  • PNG - image/png
  • JPEG - image/jpeg
  • WebP - image/webp

İstek başına sınırlar

Bir resimdeki piksel sayısı için belirli bir sınır yoktur. Ancak daha büyük resimler, orijinal en boy oranları korunarak maksimum 3072 x 3072 çözünürlüğe sığacak şekilde küçültülür ve doldurulur.

İstek başına maksimum dosya sayısı: 3.000 resim dosyası

Resimler: Belirtkeleme

Resimler için jetonların hesaplanma şekli aşağıda açıklanmıştır:

  • Bir resmin her iki boyutu da 384 pikselden küçük veya 384 piksele eşitse 258 jeton kullanılır.
  • Bir resmin bir boyutu 384 pikselden büyükse resim döşemeler halinde kırpılır. Her kutu boyutu, varsayılan olarak en küçük boyutun (genişlik veya yükseklik) 1,5'a bölünmesiyle elde edilir. Gerekirse her döşeme, 256 pikselden küçük ve 768 pikselden büyük olmayacak şekilde ayarlanır. Daha sonra her kutucuk 768x768 boyutuna yeniden boyutlandırılır ve 258 jeton kullanılır.

Resimler: En iyi uygulamalar

Resim kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • Bir resimdeki metni algılamak istiyorsanız birden fazla resim içeren istemlere kıyasla daha iyi sonuçlar elde etmek için tek bir resim içeren istemler kullanın.
  • İsteminiz tek bir resim içeriyorsa isteğinizde resmi metin isteminden önce yerleştirin.
  • İsteminizde birden fazla resim varsa ve bunlara daha sonra isteminizde atıfta bulunmak veya modelin model yanıtında bunlara atıfta bulunmasını istiyorsanız her resme, resimden önce bir dizin vermek faydalı olabilir. Dizininiz için a b c veya image 1 image 2 image 3 kullanın. Aşağıda, istemde dizine eklenmiş resimlerin kullanımına dair bir örnek verilmiştir:
    image 1 
    image 2 
    image 3 
    
    Write a blogpost about my day using image 1 and image 2. Then, give me ideas
    for tomorrow based on image 3.
  • Daha yüksek çözünürlüklü resimler kullanın. Bu resimler daha iyi sonuçlar verir.
  • İsteme birkaç örnek ekleyin.
  • Görüntüleri isteme eklemeden önce doğru yöne döndürün.
  • Bulanık resimlerden kaçının.

Resimler: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik denetimi: Modeller, güvenlik politikalarımızı ihlal eden resimlerle ilgili yanıt vermeyi reddediyor.
  • Uzamsal akıl yürütme: Modeller, resimlerdeki metinleri veya nesneleri bulma konusunda hassas değildir. Yalnızca nesnelerin yaklaşık sayılarını döndürebilirler.
  • Tıbbi kullanımlar: Modeller, tıbbi görüntüleri (ör. röntgen ve BT taramaları) yorumlamak veya tıbbi tavsiye vermek için uygun değildir.
  • Kişi tanıma: Modeller, görüntülerdeki ünlü olmayan kişileri tanımlamak için kullanılmamalıdır.
  • Doğruluk: Modeller, düşük kaliteli, döndürülmüş veya son derece düşük çözünürlüklü görüntüleri yorumlarken halüsinasyon görebilir ya da hata yapabilir. Modeller, resim belgelerindeki el yazısı metinleri yorumlarken de halüsinasyon üretebilir.



Video: Şartlar, en iyi uygulamalar ve sınırlamalar

Video: Şartlar

Bu bölümde, video için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki video MIME türlerini destekler:

  • FLV - video/x-flv
  • MOV - video/quicktime
  • MPEG - video/mpeg
  • MPEGPS - video/mpegps
  • MPG - video/mpg
  • MP4 - video/mp4
  • WEBM - video/webm
  • WMV - video/wmv
  • 3GPP - video/3gpp

İstek başına sınırlar

İstek başına maksimum dosya sayısı: 10 video dosyası

Video: Belirtkeleme

Videolar için jetonların nasıl hesaplandığı aşağıda açıklanmıştır:

  • Ses parçası, video kareleriyle kodlanmış. Ses parçası da her biri 32 jeton içeren 1 saniyelik parçalara ayrılır. Video karesi ve ses jetonları, zaman damgalarıyla birlikte araya yerleştirilir. Zaman damgaları 5 jeton olarak gösterilir.
  • Videolar saniyede 1 kare (fps) hızında örneklenir. Her video karesi 258 jeton olarak kabul edilir.

Video: En iyi uygulamalar

Video kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • İsteminiz tek bir video içeriyorsa videoyu metin isteminden önce yerleştirin.
  • Sesli bir videoda zaman damgası yerelleştirmesi yapmanız gerekiyorsa modelden, ilk iki rakamın dakikayı, son iki rakamın ise saniyeyi temsil ettiği MM:SS biçiminde zaman damgaları oluşturmasını isteyin. Zaman damgasıyla ilgili sorularda aynı biçimi kullanın.

Video: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • İçerik moderasyonu: Modeller, güvenlik politikalarımızı ihlal eden videolarla ilgili yanıt vermeyi reddediyor.
  • Konuşma dışı ses tanıma: Sesi destekleyen modeller, konuşma dışı sesleri tanımada hata yapabilir.
  • Yüksek hızlı hareket: Modeller, sabit saniyede 1 kare (fps) örnekleme hızı nedeniyle videodaki yüksek hızlı hareketi anlamada hata yapabilir.



Ses: Şartlar ve sınırlamalar

Ses: Şartlar

Bu bölümde, ses için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki ses MIME türlerini destekler:

  • AAC - audio/aac
  • FLAC - audio/flac
  • MP3 - audio/mp3
  • MPA - audio/m4a
  • MPEG - audio/mpeg
  • MPGA - audio/mpga
  • MP4 - audio/mp4
  • OPUS - audio/opus
  • PCM - audio/pcm
  • WAV - audio/wav
  • WEBM - audio/webm

İstek başına sınırlar

İstek başına maksimum dosya sayısı: 1 ses dosyası

Ses: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Konuşma dışı ses tanıma: Sesi destekleyen modeller, konuşma dışı sesleri tanımada hata yapabilir.
  • Yalnızca ses içeren dosyalar için zaman damgaları: Yalnızca ses içeren dosyalar için doğru zaman damgaları oluşturmak istiyorsanız audio_timestamp parametresini generation_config içinde yapılandırmanız gerekir.



Dokümanlar (ör. PDF'ler): Şartlar, en iyi uygulamalar ve sınırlamalar

Belgeler: Şartlar

Bu bölümde, dokümanlar (ör. PDF'ler) için desteklenen MIME türleri ve istek başına sınırlar hakkında bilgi edinebilirsiniz.

Desteklenen MIME türleri

Gemini Çok formatlı modeller aşağıdaki doküman MIME türlerini destekler:

  • PDF - application/pdf
  • Metin - text/plain

İstek başına sınırlar

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'nin tek bir sayfası tek bir resim olarak değerlendirilir. İstemde izin verilen sayfa sayısı, Gemini çok formatlı modellerin destekleyebileceği resim sayısı ile sınırlıdır.

  • İstek başına maksimum dosya sayısı: 3.000 dosya
  • Dosya başına maksimum sayfa sayısı: 1.000 sayfa
  • Dosya başına maksimum boyut: 50 MB

Belgeler: Belirtkeleme

PDF şifreleme

PDF'ler resim olarak değerlendirilir. Bu nedenle, PDF'lerin her sayfası resimlerle aynı şekilde belirteklere ayrılır.

Ayrıca, PDF'lerin maliyeti Gemini görüntü fiyatlandırmasına göre belirlenir. Örneğin, bir Gemini API çağrısına iki sayfalık bir PDF eklerseniz iki resmin işlenmesi için giriş ücreti ödersiniz.

Dokümanlar: En iyi uygulamalar

PDF'leri kullanırken en iyi sonuçları elde etmek için aşağıdaki en iyi uygulamalardan ve bilgilerden yararlanın:

  • İsteminize tek bir PDF eklediyseniz isteğinizde PDF'yi metin isteminden önce yerleştirin.
  • Uzun bir dokümanınız varsa işlemek için bunu birden fazla PDF'ye bölmeyi düşünebilirsiniz.
  • Taranmış resimlerdeki metinleri kullanmak yerine, metnin metin olarak oluşturulduğu PDF'leri kullanın. Bu biçim, metnin makine tarafından okunabilir olmasını sağlar. Böylece modelin, taranmış resim PDF'lerine kıyasla metni düzenlemesi, araması ve değiştirmesi daha kolay olur. Bu uygulama, sözleşmeler gibi metin ağırlıklı belgelerle çalışırken en iyi sonuçları verir.

Belgeler: Sınırlamalar

Gemini Çok formatlı modeller birçok çok formatlı kullanım alanında güçlü olsa da modellerin sınırlamalarını anlamak önemlidir:

  • Uzamsal akıl yürütme: Modeller, PDF'lerdeki metin veya nesneleri bulma konusunda hassas değildir. Yalnızca nesnelerin yaklaşık sayılarını döndürebilirler.
  • Doğruluk: Modeller, PDF belgelerindeki el yazısı metinleri yorumlarken halüsinasyon görebilir.