Gemma 3n est disponible avec une entrée audio et est optimisé pour les appareils du quotidien. En savoir plus

Cette page a été traduite par l'API Cloud Translation.

Exécuter Gemma avec Kubernetes Engine

Google Cloud Kubernetes Engine propose un large éventail d'options de déploiement pour exécuter des modèles Gemma avec des performances élevées et une faible latence à l'aide des frameworks de développement préférés. Consultez les guides de déploiement suivants pour Hugging Face, vLLM, TensorRT-LLM sur les GPU et l'exécution TPU avec JetStream, ainsi que les guides d'application et de réglage:

Déployer et diffuser

Diffuser Gemma sur des GPU avec Hugging Face TGI : déployez des modèles Gemma sur GKE à l'aide de GPU et du framework d'inférence de génération de texte (TGI) de Hugging Face.
Diffuser Gemma sur des GPU avec vLLM : déployez Gemma avec vLLM pour une gestion pratique de la charge de modèle et un débit élevé.
Diffuser Gemma sur des GPU avec TensorRT-LLM : déployez Gemma avec NVIDIA TensorRT-LLM pour maximiser l'efficacité du fonctionnement du modèle.
Diffuser Gemma sur des TPU avec JetStream : déployez Gemma avec JetStream sur des processeurs TPU pour des performances élevées et une faible latence.

Analyser des données

Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma : créez un pipeline d'analyse de données avec BigQuery et Gemma.

Affiner

Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU : personnalisez le comportement de Gemma en fonction de votre propre ensemble de données.