שיפורים ב-Gemini Nano: סיכומים באיכות גבוהה יותר באמצעות LoRA

תאריך פרסום: 21 במאי 2025

סיכום הוא אחת מהמשימות הנפוצות והחשובות ביותר של AI באמצעות מודלים גדולים של שפה (LLM). סיכומים הם דרך חיונית להבין במהירות תוכן נרחב – החל ממאמרים ארוכים ורשומות צ'אט צפופות ועד לביקורות רבות – וכך לחסוך זמן, לשפר את הפרודוקטיביות ולקבל החלטות מהר יותר ומבוססות יותר.

יש סוגים רבים של סיכומים, עם רמות שונות של פירוט וציפיות שונות לגבי הפורמט. כדי לעמוד בציפיות של סוגי הסיכומים השונים, צוות Chrome עבד בשיתוף עם Google Cloud כדי לשפר את הפלט של Gemini Nano.

שיפרנו את Gemini Nano באמצעות התאמה ברמה נמוכה (LoRA) כדי לשפר את חוויית השימוש ואת איכות הפלט, בכל הסגנונות והאורכים של הסיכומים. בנוסף, הטמענו הערכות אוטומטיות ודירוג אוטומטי של היבטים שונים של איכות הסיכום, כולל עובדות, כיסוי, פורמט וקלות קריאה.

כדי להמחיש את ההבדל הזה, יצרנו תמונה חזותית. אתם יכולים לנסות את ההטמעה הזו ולצפות בהדגמה בזמן אמת שבה מוצגת השוואה בין הפלט של Gemini Nano לבין הפלט של Gemini Nano עם LoRA.

מה זה Summarizer API?

הסבר פיתוח אתרים תוספים סטטוס Chrome כוונת רכישה
MDN Chrome 138 Chrome 138 תצוגה כוונת משלוח

Summarizer API מאפשר לכם לצמצם תוכן טקסט ארוך לסיכומים קצרים וקלים לעיכול. ה-API מובנה ב-Chrome, והוא משתמש ב-Gemini Nano כדי לבצע את ההסקה.

באתרים שונים עשויות להיות דרישות שונות לגבי סגנון ומשך הסיכומים. לדוגמה, אם אתם מנהלים אתר חדשות, כדאי לכם להציע רשימה של נקודות מרכזיות בכתבות שלכם עם תווי פסיק. לחלופין, משתמשים שגולשים בביקורות על מוצרים יכולים להיעזר בסיכום קצר של סנטימנט הביקורת. כדי להמחיש את העניין, סיכמנו את דף הוויקי על וולשי קורגיס עם אורך של short.

סוג הסיכום פלט
headline ## ולש קורגי: היסטוריה של מלכות וכלבי רעייה
key-points * ולש קורגי הוא כלב קטן למרעה שמקורו בוויילס.
* יש שתי גזעים עיקריים: פמברוק וקרדיגן וולשי קורג'י.
* הגזע Pembroke נפוץ יותר ושויך למשפחת המלוכה הבריטית.
tldr וולשי קורג'י הוא כלב קטן למרעה עם היסטוריה ארוכה בוויילס ובמשפחת המלוכה הבריטית. יש לו שני זנים: פמברוק וקרדיג'ן, שניהם ידועים בפנים הדומים לזאבים, ברגליים הקצרות ובאינסטינקטים שלהם למרעה.
teaser גלו את ההיסטוריה של קורג'י וולשי, מהמקור הצנוע שלו ככלב רעייה של חקלאים וולשים ועד לעלייה שלו כסמל של המשפחה המלכותית הבריטית.

אתם יכולים להתנסות בדפים אחרים באמצעות Summarizer API Playground.

ניסוי עם כוונון עדין

התכונה 'התאמה אישית' זמינה רק כדגל ב-Chrome Canary, החל מגרסה 138.0.7180.0. כדי להשתמש במודל הזה:

  1. פותחים את Chrome Canary.
  2. מעבר אל chrome://flags/#summarization-api-for-gemini-nano
  3. בוחרים באפשרות Enabled with Adaptation.
  4. מפעילים מחדש את הדפדפן.
  5. פותחים את מסוף כלי הפיתוח ומזינים את הערך Summarizer.availability(). הפעולה הזו תתחיל את ההורדה של ה-LoRa המשלים.

אחרי שההורדה תסתיים, תוכלו להתחיל להתנסות.

הערכת הביצועים של הכלי לסיכום טקסט

כדי למדוד את שיפור הביצועים של Gemini Nano לאחר השיפורים, השתמשנו בעיקר בשתי שיטות הערכה: אוטומטית וautorater. כוונון עדין עוזר למודל לבצע משימות ספציפיות בצורה טובה יותר, כמו:

  • תרגום טקסט רפואי טוב יותר.
  • יצירת תמונות בסגנון ספציפי.
  • להבין שפה חדשה.

במקרה הזה, רצינו לעמוד טוב יותר בציפיות של כל סוג סיכום.

הערכה אוטומטית

בהערכה אוטומטית נעשה שימוש בתוכנה כדי לשפוט את איכות הפלט של מודל. השתמשנו בשיטה הזו כדי לחפש שגיאות בפורמט, חזרה על משפטים ותווים שאינם באנגלית בסיכומים של קלט באנגלית.

  • שגיאות בפורמט: אנחנו בודקים אם התשובות הסיכומיות עומדות בהוראות הפורמט של ההנחיה. לדוגמה, בסגנון של נקודות מפתח קצרות, אנחנו בודקים אם כל נקודה מתחילה בכוכבית (*) ומספר הנקודות לא חורג מ-3 נקודות.

  • חזרה על משפטים: אנחנו בודקים אם אותו משפט חוזר על עצמו בתשובה מקוצרת אחת, כי זה מעיד על תשובה באיכות נמוכה.

  • תווים שאינם באנגלית: אנחנו בודקים אם התשובה כוללת תווים שאינם באנגלית כשהקלט אמור להיות באנגלית.

  • היפר-קישור בפלט: אנחנו בודקים אם בתגובה יש היפר-קישורים, בפורמט Markdown או בטקסט פשוט, שלא קיימים בקלט.

בדקנו שני סגנונות של קלט: כתבות שנשלפו ויומני צ'אט.

  כותרת TLDR נקודות עיקריות טיזר
  בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA
שגיאות בפורמט 13.54% / 7.05% 41.07% / 4.61% 12.58% / 6.36% 51.17% / 6.74%
חזרה על משפטים 0.07% / 0.07% 0.21% / 0.0% 0.10% / 0.10% 0.10% / 0.03%
שגיאות בשפות שאינן אנגלית 3.95% / 0.03% 1.38% / 0.0% 2.41% / 0.03% 1.44% / 0.0%
היפר-קישורים 0.07% / 0.0% 0.14% / 0.0% 0.14% / 0.0% 0.34% / 0.0%
הערכה אוטומטית של 970 מאמרים בסוגים השונים של סיכומים.
  Headline TLDR נקודות חשובות טיזר
  בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA
שגיאת פורמט 13.17% / 0.24% 22.92% / 0.18% 4.43% / 0.09% 29.64% / 3.51%
חזרה על משפטים 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.03% / 0.0%
שגיאה בשפה שאינה אנגלית 0.15% / 0.0% 0.15% / 0.0% 0.03% / 0.0% 0.06% / 0.0%
קישורי היפר 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0% 0.0% / 0.0%
הערכה אוטומטית של 1,091 דוגמאות של רשומות בצ'אט.

אחרי ששיפרנו את Gemini Nano, ראינו ירידה משמעותית בשיעור השגיאות בפורמט בסוגים שונים של סיכומים, גם במאמרים וגם ביומני צ'אט.

הערכה של המערכת האוטומטית

השתמשנו ב-Gemini 1.5 Pro להערכה של הכלי למתן ציונים אוטומטי, כדי לשפוט את איכות הפלט של Gemini Nano. לכל סיכום יש מטרה שונה, ולכן הקריטריונים והערך שלהם היו שונים בסוגים שונים של סיכומים. כל סוגי הסיכומים נבדקו לגבי:

  • כיסוי: האם הסיכום משקף במדויק את המטרה המרכזית של הקלט?
  • עובדתיות: האם הסיכום נכון? האם הסיכום כולל מידע חדש שלא צוין במפורש או שרומז בטקסט?
  • פורמט: האם סיכום המאמר מעוצב בתחביר תקין של Markdown? האם סיכום המאמר עומד באורך המקסימלי של המשפטים, כפי שנדרש?
  • בהירות: האם הסיכום חוזר על עצמו? האם הסיכום מעביר במדויק את המסר המרכזי במספר המילים הקטן ביותר האפשרי?

לסוגים האלה של סיכומים יש מטרות שונות, ולכן מדדים נוספים חלים על סוגי סיכומים ספציפיים:

  • מעורבות: (headline): האם הסיכום מובן באופן מיידי לקהל הרחב? האם הסיכום נכתב בסגנון שמעורר עניין ומושך לקהל הרחב?
  • תמציתיות (tldr): האם הסיכום ברור, תמציתי ומובן באופן מיידי למישהו עם משך תשומת לב קצר מאוד? האם הוא מצליח לזקק את המסר המרכזי בצורה שקל לעכל ולקרוא במהירות?
  • תמריץ (teaser): האם הסיכום יוצר עניין ומעודד את הקורא לקרוא את הטקסט המלא כדי לקבל מידע נוסף? האם היא כוללת שפה מעניינת ומעוררת עניין?

השווינו את הפלט של המודל הבסיסי לבין המודל עם LoRA, זה לצד זה, באמצעות הכלי האוטומטי לדירוג. המערכת חישבה את הממוצע של הציונים של המערכת האוטומטית בין 0 ל-1, ואז השוו אותו לערך הסף.

כדי להבטיח תוצאה מבוססת, הפחתנו את השונות בנתונים והפחתנו את ההטיה המבוססת על המיקום.

  • צמצום תנודות הנתונים: חישבנו את הממוצע של הציונים של שלושה פלטים עצמאיים לכל קלט, כי לפעולות עצמאיות עשויות להיות תוצאות שונות במקצת. חישבנו את הממוצע של הפלט של המודל הבסיסי ושל Gemini Nano עם הכוונון העדין. אמנם ההבדלים בין הציונים של הפלטים השונים היו קטנים, אבל הממוצעים עוזרים לנו להבין בצורה מהימנה יותר קבוצות גדולות של נתונים.
  • צמצום ההטיה המבוססת על המיקום: כדי להימנע מהעדפה של הערך של הסיכום ששותף קודם עם מעריך הביצועים, הערכנו את התוצאות פעמיים ואז חישבנו את הממוצע של הציונים הסופיים.

    1. בדקנו את המודל עם LoRA ואז את המודל הבסיסי.
    2. לאחר מכן ביטלנו את ההזמנה. בדקנו את המודל הבסיסי ואחריו את המודל עם LoRA.
    3. חישבנו את הממוצע של הציונים הסופיים.
      Short בינונית Long
      בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA
    LoRA קודם 74.29% / 86.64% 76.11% / 81.38% 68.62% / 78.95%
    מודל הבסיס קודם 68.02% / 88.60% 64.97% / 87.58% 58.25% / 86.35%
    גרסה ג' (ממוצעת) 71.02% / 89.18% 69.59% / 84.08% 63.47% / 82.65%
    שיעורי המרה מסוג key-points בסיכום. ככל שהערך גבוה יותר, כך התוצאות טובות יותר.

ההבדל בין הציונים של הפלט מאותו מודל היה קטן, אבל הממוצעים עוזרים לנו להבין בצורה מהימנה יותר קבוצות גדולות של נתונים.

ב-500 מאמרים, המודל המשופר של Gemini Nano הניב ביצועים טובים יותר באופן משמעותי מהמודל הבסיסי.

  Headline TLDR נקודות חשובות טיזר
  בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA
קצר 74.74% / 89.12% 55.76% / 89.50% 71.02% / 89.18% 53.47% / 87.14%
בינונית 73.10% / 87.89% 41.82% / 81.21% 69.59% / 84.08% 48.98% / 86.74%
ארוך 60.99% / 89.32% 50.51% / 84.85% 63.47% / 82.65% 62.65% / 87.55%
שיעור הזכייה של הכלי ליצירת סיכומים אוטומטיים ב-500 מאמרים, לפי סוגי הסיכומים והאורכים השונים. ככל שהמספרים גבוהים יותר, כך התוצאות טובות יותר.

המצב היה זהה גם בבדיקת 500 יומני צ'אט, שבהם Gemini Nano מותאם אישית השיג ביצועים טובים יותר מהמודל הבסיסי.

  Headline TLDR נקודות חשובות טיזר
  בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA בסיס / עם LoRA
Short 70.59% / 96.15% 66.27% / 97.79% 81.60% / 97.40% 67.48% / 96.14%
בינונית 76.67% / 95.13% 56.02% / 94.98% 82.60% / 97.20% 50.41% / 96.95%
Long 59.03% / 94.32% 65.86% / 95.58% 75.00% / 97.60% 70.94% / 97.16%
שיעור הזכייה של המערכת האוטומטית למתן ציונים ב-500 יומני צ'אט, לפי סוגי הסיכום והאורך השונים. ככל שהמספרים גבוהים יותר, כך התוצאות טובות יותר.

התוצאות האלה מראות שהשיפורים שערכנו לשיפור האיכות הכוללת של הסיכום הובילו לשיפור.

סיכומים טובים יותר עם LoRA

באופן מסורתי, מבצעים התאמה אישית על ידי שינוי הפרמטרים של המודל. מודלים מודרניים של AI הם ענקיים, ולכן הפעולה הזו איטית, יקרה ודורשת אחסון של עותק חדש לגמרי של המודל.

במקום לשנות את כל הפרמטרים, מה אם נוסיף עוד חלקים קטנים שיובילו את המודל בכיוון הרצוי? הגודל הקטן שלהם מאפשר אימון מהיר יותר. זהו העקרון המרכזי של התאמה ברמה נמוכה (LoRA). ב-LoRA, חלקים מסוימים במודל לא משתנים, ולעיתים קרובות קוראים לזה 'הקפאת הפרמטרים'. לאחר מכן, מוסיפים קבוצה קטנה יותר של נתונים עם תיקונים קטנים, וממקדים את מאמצי האימון בחלקים האלה שנוספו.

למעשה, בדרך כלל אפשר לאמן רק 2% מהפרמטרים המקוריים באמצעות LoRA ועדיין לראות שינויים משמעותיים בפלט.

למה זה עובד? אפשר לשלב התנהגויות רבות (כמו סגנונות, משימות או ידע חדשים) בלי לשנות כל פרמטר של המודל. אפשר לבטא את השינויים האלה כדפוסים קטנים או כיוונים בתוך הידע הקיים של המודל. LoRA מתעד את הדפוסים האלה ביעילות בלי לגעת במודל המקורי.

הנה כמה דוגמאות להשוואה בין המודל הבסיסי של Gemini Nano לבין התוצאות אחרי הוספת LoRA.

ביקשנו מ-Gemini Nano ליצור כותרת קצרה ש"תמשוך את תשומת הלב ותמסור את המהות של התוכן" במאמר בוויקיפדיה על הפארק הלאומי ג'ושוע טרי.

Gemini Nano Gemini Nano עם LoRA
הנוף וההיסטוריה הייחודיים של הפארק הלאומי ג'ושוע טרי Joshua Tree: פארק לאומי בקליפורניה, שחולש על שני מדבריות ומכיל עצים מפורסמים

בשלב הבא, ביקשנו מ-Gemini Nano ליצור טיזר קצר לכתבה על רטטוי. "כותבים משפט אחד מעורר עניין שמעודד את המשתמשים לקרוא את הטקסט המלא".

Gemini Nano Gemini Nano עם LoRA
רטטוי היא מנה צרפתית פופולרית מהפרובאנס, שמכילה ירקות מבושליים, ולרוב גם עגבניות ושום. המקור שלו מגיע למאה ה-18, והכנה שלו התפתחה עם הזמן. חלק מהשפים מדגישים את טעמי הירקות השונים, בעוד שאחרים מעדיפים מרקם חלק יותר ואחיד יותר. בנוסף למקורות הצרפתיים שלה, רטטוי השפיעה על מנות דומות במטבחים שונים ברחבי העולם, כולל פיפרדה (piperade) מספרד וטיאן (tian) מהמזרח התיכון. הסרט 'רטטוי' (2007) הוסיף לפופולריות של המנה, והציג את הגיוון הקולינרי שלה ואת ההשפעה הרגשית שלה. לרטטוי, מנה צרפתית פרובאנסלית של ירקות מבושל, יש היסטוריה קולינרית עשירה. היא התפתחה מקדירה פשוטה ליצירת מופת קולינרית מודרנית שריתקה קהלים ברחבי העולם.

הדגמה של הסקת מסקנות בזמן אמת

פיתחנו ממשק שמציג השוואה בין הפלט של Gemini Nano לבין הפלט של Gemini Nano עם LoRA.

ביקשנו מ-Gemini Nano ליצור סיכום tldr באורך short למאמר בנושא דג סול ימי. חשוב לזכור שבבקשות tldr ו-short צריך לשלוח תשובה במשפט אחד "שקל לקרוא".

צפייה בזמן אמת במשך הזמן שנדרש ליצירת התוצאות ולקריאת הפלט.

בעזרת תכונת השיפור, Gemini Nano יכול ליצור סיכום טוב יותר שמתאים להוראות הספציפיות.

שיתוף משוב ויצירת אינטראקציה

נשמח לקבל ממך משוב על ההשפעה של הגרסה המשופרת של Gemini Nano על הסיכומים.

כאן תוכלו למצוא את כל ממשקי ה-API המובנים של AI שמשתמשים במודלים בדפדפן, כולל מודלים גדולים של שפה (LLM).


  1. צ'ין-יו לין. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. ב-Text Summarization Branches Out, דפים 74-81, ברצלונה, ספרד. Association for Computational Linguistics. 

  2. Kishore Papineni,‏ Salim Roukos,‏ Todd Ward ו-Wei-Jing Zhu. 2002. BLEU: שיטה להערכה אוטומטית של תרגום מכונה. In Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ACL '02). 

  3. Mousumi Akter,‏ Naman Bansal ו-Shubhra Kanti Karmaker. 2022. Revisiting Automatic Evaluation of Extractive Summarization Task: Can We Do Better than ROUGE? ב-Findings of the Association for Computational Linguistics: ‏ ACL 2022, דפים 1547-1560, דבלין, אירלנד. Association for Computational Linguistics. 

  4. דניאל דויטש ודן רוט. 2021. הסבר על מידת המדידה של מדדי איכות התוכן לגבי איכות המידע בסיכומים ב-Proceedings of the 25th Conference on Computational Natural Language Learning, דפים 300-309, אונליין. Association for Computational Linguistics.