Exécuter Gemma avec Kubernetes Engine

Google Cloud Kubernetes Engine propose un large éventail d'options de déploiement pour exécuter des modèles Gemma avec des performances élevées et une faible latence à l'aide des frameworks de développement préférés. Consultez les guides de déploiement suivants pour Hugging Face, vLLM, TensorRT-LLM sur les GPU et l'exécution TPU avec JetStream, ainsi que les guides d'application et de réglage:

Déployer et diffuser

Analyser des données

Affiner