Google Cloud Kubernetes Engine propose un large éventail d'options de déploiement pour exécuter des modèles Gemma avec des performances élevées et une faible latence à l'aide des frameworks de développement préférés. Consultez les guides de déploiement suivants pour Hugging Face, vLLM, TensorRT-LLM sur les GPU et l'exécution TPU avec JetStream, ainsi que les guides d'application et de réglage:
Déployer et diffuser
Diffuser Gemma sur des GPU avec Hugging Face TGI : déployez des modèles Gemma sur GKE à l'aide de GPU et du framework d'inférence de génération de texte (TGI) de Hugging Face.
Diffuser Gemma sur des GPU avec vLLM : déployez Gemma avec vLLM pour une gestion pratique de la charge de modèle et un débit élevé.
Diffuser Gemma sur des GPU avec TensorRT-LLM : déployez Gemma avec NVIDIA TensorRT-LLM pour maximiser l'efficacité du fonctionnement du modèle.
Diffuser Gemma sur des TPU avec JetStream : déployez Gemma avec JetStream sur des processeurs TPU pour des performances élevées et une faible latence.
Analyser des données
- Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma : créez un pipeline d'analyse de données avec BigQuery et Gemma.
Affiner
- Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU : personnalisez le comportement de Gemma en fonction de votre propre ensemble de données.