Avec l'API GenAI Image Description de ML Kit, vous pouvez générer de courtes descriptions de contenu pour les images. Cela peut être utile dans les cas d'utilisation suivants:
- Générer des titres d'images
- Générer un texte alternatif (texte alt.) pour aider les utilisateurs malvoyants à mieux comprendre le contenu des images
- Utiliser des descriptions générées comme métadonnées pour aider les utilisateurs à rechercher ou à organiser des images
- Utilisation de courtes descriptions des images lorsque l'utilisateur ne peut pas regarder son écran, par exemple lorsqu'il conduit ou écoute un podcast
Capacités clés
- Renvoie une brève description d'une image d'entrée
Exemples de résultats
Entrée | Sortie |
|
Un petit robot Android vert avec un design semblable à un cactus est posé sur une surface noire. |
|
Un petit chien blanc au nez noir et à la langue rose court dans un champ d'herbe avec un pont en arrière-plan. |
Premiers pas
Pour commencer à utiliser l'API GenAI Image Description, ajoutez cette dépendance au fichier de compilation de votre projet.
implementation("com.google.mlkit:genai-image-description:1.0.0-beta1")
Pour intégrer l'API Image Description à votre application, vous devez commencer par obtenir un client ImageDescriber
. Vous devez ensuite vérifier l'état des fonctionnalités de modèle sur l'appareil nécessaires et télécharger le modèle s'il n'est pas déjà sur l'appareil. Après avoir préparé votre entrée d'image dans un ImageDescriptionRequest
, exécutez l'inférence à l'aide du client pour obtenir le texte de description de l'image. Enfin, n'oubliez pas de fermer le client pour libérer les ressources.
Kotlin
// Create an image describer
val options = ImageDescriberOptions.builder(context).build()
val imageDescriber = ImageDescription.getClient(options)
suspend fun prepareAndStartImageDescription(
bitmap: Bitmap
) {
// Check feature availability, status will be one of the following:
// UNAVAILABLE, DOWNLOADABLE, DOWNLOADING, AVAILABLE
val featureStatus = imageDescriber.checkFeatureStatus().await()
if (featureStatus == FeatureStatus.DOWNLOADABLE) {
// Download feature if necessary.
// If downloadFeature is not called, the first inference request
// will also trigger the feature to be downloaded if it's not
// already downloaded.
imageDescriber.downloadFeature(object : DownloadCallback {
override fun onDownloadStarted(bytesToDownload: Long) { }
override fun onDownloadFailed(e: GenAiException) { }
override fun onDownloadProgress(totalBytesDownloaded: Long) {}
override fun onDownloadCompleted() {
startImageDescriptionRequest(bitmap, imageDescriber)
}
})
} else if (featureStatus == FeatureStatus.DOWNLOADING) {
// Inference request will automatically run once feature is
// downloaded.
// If Gemini Nano is already downloaded on the device, the
// feature-specific LoRA adapter model will be downloaded
// very quickly. However, if Gemini Nano is not already
// downloaded, the download process may take longer.
startImageDescriptionRequest(bitmap, imageDescriber)
} else if (featureStatus == FeatureStatus.AVAILABLE) {
startImageDescriptionRequest(bitmap, imageDescriber)
}
}
fun startImageDescriptionRequest(
bitmap: Bitmap,
imageDescriber: ImageDescriber
) {
// Create task request
val imageDescriptionRequest = ImageDescriptionRequest
.builder(bitmap)
.build()
}
// Run inference with a streaming callback
val imageDescriptionResultStreaming =
imageDescriber.runInference(imageDescriptionRequest) { outputText ->
// Append new output text to show in UI
// This callback is called incrementally as the description
// is generated
}
// You can also get a non-streaming response from the request
// val imageDescription = imageDescriber.runInference(
// imageDescriptionRequest).await().description
}
// Be sure to release the resource when no longer needed
// For example, on viewModel.onCleared() or activity.onDestroy()
imageDescriber.close()
Java
// Create an image describer
ImageDescriberOptions options = ImageDescriberOptions.builder(context).build();
ImageDescriber imageDescriber = ImageDescription.getClient(options);
void prepareAndStartImageDescription(
Bitmap bitmap
) throws ExecutionException, InterruptedException {
// Check feature availability, status will be one of the following:
// UNAVAILABLE, DOWNLOADABLE, DOWNLOADING, AVAILABLE
try {
int featureStatus = imageDescriber.checkFeatureStatus().get();
if (featureStatus == FeatureStatus.DOWNLOADABLE) {
// Download feature if necessary.
// If downloadFeature is not called, the first inference request
// will also trigger the feature to be downloaded if it's not
// already downloaded.
imageDescriber.downloadFeature(new DownloadCallback() {
@Override
public void onDownloadCompleted() {
startImageDescriptionRequest(bitmap, imageDescriber);
}
@Override
public void onDownloadFailed(GenAIException e) {}
@Override
public void onDownloadProgress(long totalBytesDownloaded) {}
@Override
public void onDownloadStarted(long bytesDownloaded) {}
});
} else if (featureStatus == FeatureStatus.DOWNLOADING) {
// Inference request will automatically run once feature is
// downloaded.
// If Gemini Nano is already downloaded on the device, the
// feature-specific LoRA adapter model will be downloaded
// very quickly. However, if Gemini Nano is not already
// downloaded, the download process may take longer.
startImageDescriptionRequest(bitmap, imageDescriber);
} else if (featureStatus == FeatureStatus.AVAILABLE) {
startImageDescriptionRequest(bitmap, imageDescriber);
}
} catch (ExecutionException | InterruptedException e) {
e.printStackTrace();
}
}
void startImageDescriptionRequest(
Bitmap bitmap,
ImageDescriber imageDescriber
) {
// Create task request
ImageDescriptionRequest imageDescriptionRequest =
ImageDescriptionRequest.builder(bitmap).build();
// Start image description request with streaming response
imageDescriber.runInference(imageDescriptionRequest, newText -> {
// Append new output text to show in UI
// This callback is called incrementally as the description
// is generated
});
// You can also get a non-streaming response from the request
// String imageDescription = imageDescriber.runInference(
// imageDescriptionRequest).get().getDescription();
}
// Be sure to release the resource when no longer needed
// For example, on viewModel.onCleared() or activity.onDestroy()
imageDescriber.close();
Fonctionnalités compatibles et limites
L'API GenAI Image Description est compatible avec l'anglais. D'autres langues seront ajoutées ultérieurement. L'API renvoie une brève description de l'image.
La disponibilité de la configuration de fonctionnalité spécifique (spécifiée par ImageDescriberOptions
) peut varier en fonction de la configuration de l'appareil en question et des modèles téléchargés sur l'appareil.
Le moyen le plus fiable pour les développeurs de s'assurer que la fonctionnalité d'API prévue est compatible avec un appareil avec le ImageDescriberOptions
demandé consiste à appeler la méthode checkFeatureStatus()
. Cette méthode fournit l'état définitif de la disponibilité des fonctionnalités sur l'appareil au moment de l'exécution.
Problèmes de configuration courants
Les API GenAI de ML Kit s'appuient sur l'application Android AICore pour accéder à Gemini Nano. Lorsqu'un appareil vient d'être configuré (y compris réinitialisé) ou que l'application AICore vient d'être réinitialisée (par exemple, en effaçant les données, en désinstallant puis en réinstallant l'application), il est possible qu'elle n'ait pas le temps de terminer l'initialisation (y compris de télécharger les dernières configurations à partir du serveur). Par conséquent, les API ML Kit GenAI risquent de ne pas fonctionner comme prévu. Voici les messages d'erreur de configuration courants que vous pouvez rencontrer et les solutions à appliquer:
Exemple de message d'erreur | Comment gérer |
Échec d'AICore avec le type d'erreur 4-CONNECTION_ERROR et le code d'erreur 601-BINDING_FAILURE: échec de la liaison du service AICore. | Cela peut se produire lorsque vous installez l'application à l'aide des API ML Kit GenAI immédiatement après la configuration de l'appareil ou lorsque AICore est désinstallé après l'installation de votre application. Mettez à jour l'application AICore, puis réinstallez votre application. Le problème devrait être résolu. |
Échec d'AICore avec le type d'erreur 3-PREPARATION_ERROR et le code d'erreur 606-FEATURE_NOT_FOUND: la fonctionnalité ... n'est pas disponible. |
Cela peut se produire lorsque AICore n'a pas terminé de télécharger les dernières configurations. Laissez la connexion réseau active et attendez quelques minutes à quelques heures.
Notez que si le bootloader de l'appareil est déverrouillé, cette erreur s'affiche également. Cette API n'est pas compatible avec les appareils dont le bootloader est déverrouillé. |
Échec d'AICore avec le type d'erreur 1-DOWNLOAD_ERROR et le code d'erreur 0-UNKNOWN: la fonctionnalité ... a échoué avec l'état d'échec 0 et l'erreur esz: UNAVAILABLE: Unable to resolve host ... | Laissez la connexion réseau active, patientez quelques minutes, puis réessayez. |