Publié le 21 mai 2025
La synthèse est l'une des tâches d'IA les plus courantes et les plus essentielles à l'aide de grands modèles de langage (LLM). Les résumés sont un moyen essentiel de comprendre rapidement un contenu volumineux, qu'il s'agisse d'articles longs et de journaux de discussion denses ou de nombreux avis. Ils permettent de gagner du temps, d'améliorer la productivité et de prendre des décisions plus rapides et plus éclairées.
Il existe de nombreux types de résumés, avec des niveaux de détail et des attentes de mise en forme variés. Pour répondre aux attentes des différents types de résumés, Chrome a collaboré avec Google Cloud pour améliorer la sortie de Gemini Nano.
Nous avons affiné Gemini Nano avec l'adaptation à faible rang (LoRA) pour améliorer l'expérience et la qualité des résultats, pour tous les styles et longueurs de résumés. De plus, nous avons implémenté des évaluations automatiques et auto-évaluées sur différents aspects de la qualité des résumés, y compris la véracité, la couverture, le format et la lisibilité.
Nous avons illustré cette différence en pratique. Vous pouvez tester cette implémentation et regarder une démonstration en temps réel qui compare les sorties de Gemini Nano et de Gemini Nano avec LoRA.
Qu'est-ce que l'API Summarizer ?
Vidéo explicative | Web | Extensions | État de Chrome | Intent |
---|---|---|---|---|
MDN | Afficher | Intent to Ship |
L'API Summarizer condense les contenus textuels longs en résumés courts et faciles à assimiler. L'API est intégrée à Chrome et utilise Gemini Nano pour effectuer des inférences.
Différents sites peuvent nécessiter des résumés avec une variété de styles et de longueurs. Par exemple, si vous êtes un site d'actualités, vous pouvez proposer une liste à puces des points clés de vos articles. Les utilisateurs qui parcourent des avis sur des produits peuvent également bénéficier d'un résumé rapide et court du sentiment exprimé dans les avis. Pour illustrer, nous avons résumé la page Wikipedia sur les corgis gallois avec une longueur définie sur short
.
Type de résumé | Sortie |
headline |
## Welsh Corgi: une histoire de chiens de berger et de royauté |
key-points |
* Le Corgi gallois est un petit chien de berger originaire du Pays de Galles. * Il existe deux races principales: le Corgi welsh Pembroke et le Corgi welsh Cardigan. * Le Pembroke est plus populaire et a été associé à la famille royale britannique. |
tldr |
Le Welsh Corgi, un petit chien de berger dont l'histoire est longue au Pays de Galles et dans la famille royale britannique, se décline en deux variétés: le Pembroke et le Cardigan, tous deux connus pour leur tête de renard, leurs pattes courtes et leurs instincts de berger. |
teaser |
Découvrez l'histoire du Welsh Corgi, de ses humbles origines en tant que chien de berger pour les agriculteurs gallois à son ascension en tant que symbole de la famille royale britannique. |
Vous pouvez tester d'autres pages à l'aide du bac à sable de l'API Summarizer.
Tester le réglage
Le réglage fin n'est disponible qu'en tant que flag dans Chrome Canary, à partir de la version 138.0.7180.0
. Pour utiliser ce modèle:
- Ouvrez Chrome Canary.
- Accéder à
chrome://flags/#summarization-api-for-gemini-nano
- Sélectionnez Activé avec adaptation.
- Redémarrez le navigateur.
- Ouvrez la console DevTools et saisissez
Summarizer.availability()
. Le téléchargement du LoRA supplémentaire commence.
Une fois le téléchargement terminé, vous pouvez commencer à effectuer des tests.
Évaluer les performances du résumeur
Nous avons mesuré l'amélioration des performances de Gemini Nano optimisé principalement à l'aide de deux méthodes d'évaluation : l'évaluation automatique et l'évaluation automatique. L'ajustement permet à un modèle d'effectuer mieux certaines tâches spécifiques, par exemple:
- Traduire plus efficacement le texte médical
- Générez des images dans un style artistique spécifique.
- Comprendre un nouvel argot
Dans ce cas, nous voulions mieux répondre aux attentes de chaque type de résumé.
Évaluation automatique
L'évaluation automatique utilise un logiciel pour juger de la qualité de sortie d'un modèle. Nous avons utilisé cette technique pour rechercher des erreurs de mise en forme, des répétitions de phrases et l'existence de caractères non anglais dans les résumés de saisies en anglais.
Erreurs de mise en forme: nous vérifions si les réponses récapitulatives respectent les instructions de mise en forme de l'invite. Par exemple, pour le style de points clés courts, nous vérifions si chaque puce commence par un astérisque (
*
) et si le nombre de puces ne dépasse pas trois.Répétition de phrases: nous vérifions si la même phrase est répétée dans une seule réponse récapitulative, car cela indique une réponse de mauvaise qualité.
Caractères non anglais: nous vérifions si la réponse inclut des caractères non anglais lorsque l'entrée est censée être en anglais.
Lien hypertexte dans la sortie: nous vérifions si la réponse contient des liens hypertextes, au format Markdown ou en texte brut, qui n'existent pas dans l'entrée.
Nous avons évalué deux styles d'entrée: les articles extraits et les journaux de discussion.
Headline | TLDR | Points clés | Teaser | |
Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | |
Erreurs de format | 13,54% / 7,05% | 41,07% / 4,61% | 12,58% / 6,36% | 51,17% / 6,74% |
Répétition de phrases | 0,07% / 0,07% | 0,21% / 0,0% | 0,10% / 0,10% | 0,10% / 0,03% |
Erreurs dans d'autres langues que l'anglais | 3,95% / 0,03% | 1,38% / 0,0% | 2,41% / 0,03% | 1,44% / 0,0% |
Liens hypertextes | 0,07% / 0,0% | 0,14% / 0,0% | 0,14% / 0,0% | 0,34% / 0,0% |
Headline | Résumé | Points clés | Aperçu | |
Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | |
Erreur de format | 13,17% / 0,24% | 22,92% / 0,18% | 4,43% / 0,09% | 29,64% / 3,51% |
Répétition de phrases | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,03% / 0,0% |
Erreur dans une autre langue que l'anglais | 0,15% / 0,0% | 0,15% / 0,0% | 0,03% / 0,0% | 0,06% / 0,0% |
Liens hypertextes | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% | 0,0% / 0,0% |
Après avoir affiné Gemini Nano, nous avons constaté une réduction significative du taux d'erreur de format pour différents types de résumés, à la fois pour les articles et les journaux de discussion.
Évaluation par l'outil d'évaluation automatique
Nous avons utilisé Gemini 1.5 Pro pour l'évaluation automatique afin d'évaluer la qualité de sortie de Gemini Nano. Étant donné que chaque résumé a un objectif différent, les critères et la valeur des critères diffèrent selon les types de résumés. Tous les types de récapitulatifs ont été évalués pour:
- Couverture: le résumé reflète-t-il précisément l'objectif essentiel de l'entrée ?
- Factualité:le résumé est-il véridique ? Le résumé introduit-il de nouvelles informations qui n'étaient pas explicitement indiquées ou implicites dans le texte ?
- Format: le résumé est-il formaté avec une syntaxe Markdown valide ? Le résumé respecte-t-il la longueur maximale des phrases, comme demandé ?
- Clarté: le résumé est-il répétitif ? Le résumé transmet-il précisément le message principal en un minimum de mots ?
Étant donné que ces types de récapitulatifs ont des objectifs différents, des métriques supplémentaires s'appliquent à des types de récapitulatifs spécifiques:
- Engagement (
headline
) : le résumé est-il immédiatement compréhensible par une audience générale ? Le résumé utilise-t-il un ton engageant et attrayant pour un public général ? - Concision (
tldr
): le résumé est-il clair, concis et immédiatement compréhensible par une personne ayant une très courte durée d'attention ? Résumez-vous efficacement le message principal sous une forme facile à digérer pour une lecture rapide ? - Incitation (
teaser
): le résumé suscite-t-il efficacement l'intérêt du lecteur et l'incite-t-il à en savoir plus en lisant le texte complet ? Utilise-t-il un langage engageant et qui suggère un contenu intéressant ?
Nous avons comparé côte à côte la sortie du modèle de base et celle du modèle avec LoRA à l'aide de l'outil d'évaluation automatique. La moyenne des scores de l'auto-évaluation était comprise entre 0 et 1, puis comparée à la valeur seuil.
Pour obtenir un résultat fiable, nous avons réduit la variance des données et atténué les biais de position.
- Réduction de la variance des données: nous avons calculé la moyenne des scores de trois sorties indépendantes par entrée, car les résultats des exécutions indépendantes peuvent être légèrement différents. Nous avons calculé la moyenne des sorties pour le modèle de base et le Gemini Nano affiné. Bien que les différences de scores entre les sorties ne soient que légèrement différentes, les moyennes nous aident à comprendre plus précisément de grands ensembles de données.
Atténuer le biais de position: pour éviter de donner la priorité à la valeur du résumé partagé en premier avec l'évaluateur, nous avons évalué les résultats deux fois, puis calculé la moyenne des scores finaux.
- Nous avons évalué le modèle avec LoRA, puis le modèle de base.
- Nous avons ensuite inversé l'ordre. Nous avons évalué le modèle de base, puis le modèle avec LoRA.
- Nous avons calculé la moyenne des scores finaux.
Court Format moyen Long Base / Avec LoRA Base / Avec LoRA Base / Avec LoRA LoRA d'abord 74,29% / 86,64% 76,11% / 81,38% 68,62% / 78,95% Modèle de base d'abord 68,02% / 88,60% 64,97% / 87,58% 58,25% / 86,35% Version C (moyenne) 71,02% / 89,18% 69,59% / 84,08% 63,47% / 82,65% Taux de victoire pour le type de résumé key-points
. Plus la valeur est élevée, meilleurs sont les résultats.
Bien que la différence de notation pour les sorties du même modèle ne soit que légèrement différente, les moyennes nous aident à comprendre plus précisément de grands ensembles de données.
Sur 500 articles, Gemini Nano affiné a obtenu des résultats nettement meilleurs que le modèle de base.
Headline | Résumé | Points clés | Aperçu | |
Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | |
Short | 74,74% / 89,12% | 55,76% / 89,50% | 71,02% / 89,18% | 53,47% / 87,14% |
Moyenne | 73,10% / 87,89% | 41,82% / 81,21% | 69,59% / 84,08% | 48,98% / 86,74% |
Long | 60,99% / 89,32% | 50,51% / 84,85% | 63,47% / 82,65% | 62,65% / 87,55% |
Il en a été de même lors de notre évaluation de 500 journaux de chat. Gemini Nano affiné a surpassé le modèle de base.
Headline | Résumé | Points clés | Aperçu | |
Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | Base / Avec LoRA | |
Court | 70,59% / 96,15% | 66,27% / 97,79% | 81,60% / 97,40% | 67,48% / 96,14% |
Format moyen | 76,67% / 95,13% | 56,02% / 94,98% | 82,60% / 97,20% | 50,41% / 96,95% |
Long | 59,03% / 94,32% | 65,86% / 95,58% | 75,00% / 97,60% | 70,94% / 97,16% |
Ces résultats montrent que notre ajustement a amélioré la qualité globale du résumé.
Meilleurs résumés avec LoRA
Traditionnellement, l'ajustement fin est effectué en ajustant les paramètres du modèle. Les modèles d'IA modernes sont énormes. Cette opération est donc lente, coûteuse et nécessite de stocker une toute nouvelle copie du modèle.
Au lieu de modifier tous les paramètres, que se passerait-il si nous ajoutions de minuscules éléments supplémentaires qui orientent le modèle dans la direction souhaitée ? Leur petite taille permet un entraînement beaucoup plus rapide. C'est le principe fondamental de l'adaptation à faible rang (LoRA). Avec LoRA, certaines parties du modèle restent inchangées, ce qui est souvent appelé "gel des paramètres". Un ensemble de données plus petit est ensuite introduit avec de petites corrections, en concentrant les efforts d'entraînement sur ces éléments ajoutés.
En fait, vous pouvez généralement entraîner seulement 2% des paramètres d'origine avec LORA et constater des changements significatifs dans vos sorties.
Pourquoi cela fonctionne-t-il ? De nombreux comportements (tels que de nouveaux styles, tâches ou connaissances) peuvent être intégrés sans modifier tous les paramètres du modèle. Ces modifications peuvent être exprimées sous la forme de petits modèles ou de directions dans les connaissances existantes du modèle. LoRA capture efficacement ces tendances sans modifier le modèle d'origine.
Consultez quelques exemples qui comparent le modèle de base Gemini Nano aux résultats obtenus après l'ajout de LoRA.
Nous avons demandé à Gemini Nano de créer un titre court qui "capte l'attention et transmet l'essence du contenu" dans l'article Wikipedia sur le parc national Joshua Tree.
Gemini Nano | Gemini Nano avec LoRA |
Le paysage et l'histoire uniques du parc national de Joshua Tree | Joshua Tree: parc national de Californie, s'étendant sur deux déserts et abritant des arbres emblématiques |
Nous avons ensuite demandé à Gemini Nano de nous proposer un court extrait de l'article sur Ratatouille. "Rédigez une phrase attrayante qui encourage les utilisateurs à lire l'intégralité du texte."
Gemini Nano | Gemini Nano avec LoRA |
La ratatouille est un plat provençal français très apprécié qui se compose de légumes mijotés, souvent de tomates et d'ail. Ses origines remontent au 18e siècle, et sa préparation a évolué au fil du temps. Certains chefs mettent l'accent sur les saveurs individuelles des légumes, tandis que d'autres préfèrent une texture plus lisse et plus unifiée. Au-delà de ses origines françaises, la ratatouille a inspiré des plats similaires dans diverses cuisines du monde entier, y compris la piperade espagnole et le tian méditerranéen. Le film "Ratatouille" (2007) a encore popularisé ce plat, en mettant en avant sa polyvalence culinaire et sa résonance émotionnelle. | La ratatouille, un plat provençal français à base de légumes mijotés, a une histoire culinaire riche. Elle est passée d'un simple ragoût à un chef-d'œuvre culinaire moderne qui a captivé les audiences du monde entier. |
Démonstration de l'inférence en temps réel
Nous avons créé une interface qui illustre la comparaison des sorties entre Gemini Nano et Gemini Nano avec LoRA.
Nous avons demandé à Gemini Nano de créer un résumé tldr
d'une longueur de short
pour l'article sur le poisson-lune. N'oubliez pas que tldr
et short
nécessitent une réponse en une phrase qui est une "lecture rapide".
En implémentant un ajustement fin, Gemini Nano peut générer un résumé plus précis qui suit les instructions spécifiques.
Interagir et envoyer des commentaires
Nous avons hâte de connaître votre avis sur l'impact de Gemini Nano sur vos résumés.
- Testez le modèle mis à jour dans Chrome Canary.
- En savoir plus sur l'API Summarizer
- Si vous avez des commentaires sur l'implémentation de Chrome, envoyez un rapport de bug ou une demande de fonctionnalité.
Découvrez toutes les API d'IA intégrées qui utilisent des modèles, y compris de grands modèles de langage, dans le navigateur.
-
Chin-Yew Lin. 2004. ROUGE: un package d'évaluation automatique des résumés. In Text Summarization Branches Out, pages 74–81, Barcelone, Espagne. Association for Computational Linguistics. ↩
-
Kishore Papineni, Salim Roukos, Todd Ward et Wei-Jing Zhu 2002. BLEU (Bilingual Evaluation Understudy) : méthode d'évaluation automatique de la traduction automatique. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). ↩
-
Mousumi Akter, Naman Bansal et Shubhra Kanti Karmaker 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? In Findings of the Association for Computational Linguistics: ACL 2022, pages 1547 à 1560, Dublin, Irlande. Association for Computational Linguistics. ↩
-
Daniel Deutsch et Dan Roth 2021. Understanding the Extent to which Content Quality Metrics Measure the Information Quality of Summaries Dans Proceedings of the 25th Conference on Computational Natural Language Learning, pages 300-309, en ligne. Association for Computational Linguistics. ↩