Dicta LM

מרכז דיקטה, בשיתוף מפא"ת / התכנית הלאומית ל-NLP והאיגוד הישראלי לטכנולוגיות שפת אנוש (iahlt.org), שמחים לשחרר לכם את:

Dicta-LM 2.0 - מודל שפה גנרטיבי גדול בעברית, פתוח, וחזק!

Dicta-LM 2.0 הוא מודל שפה גדול גנרטיבי (LLM) חדש ופורץ דרך בעברית, המודלים זמינים כעת להורדה חופשית ושימוש ללא הגבלה. המודל הוא אחד מה-LLM הטובים ביותר בעברית בקטגוריית מודלי שפה בגודל של עד 13 מיליארד פרמטרים1.

המודלים זמינים בהאגינגפייס לקהל הרחב, ברישיון Apache 2.0. גרסת הבסיס וגם גרסה ייעודית לצ'אט זמינות בצורה חופשית כאן: Dicta-LM 2.0 Collection

דמו:

דמו לצ'אט: דמו של מודל המאומן עבור צ'אט.

דמו לתרגום: אנו גאים להציג אתר חדש לתרגום אוטומטית של אנגלית<->עברית, המבוסס על מודל הבסיס, ושיש בו כדי לשקף את היכולות הלשוניות הטמונות במודל זה. ביצועי מודל התרגום עולים על ביצועי Google translate (אבלואציה בהמשך).

המודלים זמינים הן בדיוק מלא והן בדיוק של 4-bit, בפורמט של AWQ או GPTQ (עם צריכת זיכרון של ~5GB).
המודלים גם זמינים לשימוש ישירות ב-LM Studio, GPT4All וגם עם llama.cpp.
בנוסף, המודלים כבר הועלו לאתר Replicate לשימוש עם API: מודל בסיס, מודל צ'אט.

1בדיקות שבוצעו מפורטות בהמשך

מאפיינים עיקריים:

  • מבוסס על Mistral-7B-v0.1
  • טוקנייזר משופר לשפה העברית עם דחיסה משופרת עם ~2.7 טוקנים למילה בממוצע (שיפור של פי 2.1 ממיסטרל, ופי 2 מלמה-3)
  • המודל אומן על קלאסטר של Intel Gaudi 2, על סך הכל כ-190 מיליארד טוקנים, 50% בעברית ו-50% באנגלית
    • הקורפוס באנגלית נלקח מ-SlimPajama
    • הקורפוס בעברית נלקח ממקורות שונים. כל התוכן בעברית הינו טקסט שמופיע באופן טבעי ועבר תהליכים אינטנסיביים של סינון, ניקוי והסרת כפילויות. אין שום תוכן סינתטי בכל הקורפוס.
  • מודל האינסטרקט אומן על פי המתכון של Zephyr-7B-beta - הוא עבר 3 אפוקים של אימון SFT, ואז עוד אפוק של אימון DPO. כל הדאטה למשימת הAlignment ישוחרר בשבועות הקרובים.

כלל הפרטים על איך ועל מה המודל אומן יפורסמו בשבועות הקרובים במסמך טכני באתר arxiv.org.

אבלואציה למודל הבסיס:

בנצ'מארק בעברית למודלי LLM

לצורך אבלואציית המודל, אספנו מספר מדדים למשימות שונות בעברית. התוצר הוא leaderboard שאותו אנו מנגישים לקהילה בתקווה ליצר מדד אחיד להשוואה בין LLMs שונים בשפה העברית. לפי מדדים אלו המודל החדש עולה ביכולותיו על כל מודל פתוח אחר בעברית בגודל של עד כ-13 מיליארד פרמטרים.

המדדים ב-leaderboard הם:

  1. שאלות ותשובות (QA): השתמשנו בחלוקת הטסט של HeQ עם סך הכול 1,436 דוגמאות. חישוב התוצאות נעשה באמצעות שיטת הניקוד tlnls שפורסמה ב-HeQ.
  2. זיהוי רגש (סנטימנט): דגמנו כ-3,000 דוגמאות (1,000 מכל קטגוריה) מתוך דאטה סט של סנטימנט שפורסם ע״י מפאת. כדי לוודא את איכות הדוגמאות, הדיגום נעשה בעזרת בלשן. חישוב התוצאות נעשה ע״י דיוק (accuracy).
  3. ווינוגראד: השתמשנו בגירסה העברית לבנצ'מארק ווינוגראד הידוע שנוצר ע"י ד"ר ורד שוורץ, עם סך הכול 278 דוגמאות. המשימה הוגדרה כמשימה בינארית (בייסליין של 50%).
  4. תרגום: לקחנו באופן אקראי 1,000 דוגמאות של משפטים באורכים של 30-40 מילים מתוך מאגר של משפטים מתורגמים (מאגר NeuLabs-TedTalks). הבדיקה נעשה הן על תרגום מעברית לאנגלית ומאנגלית לעברית.חישוב התוצאות נעשה ע״י BLEU ואבלואציה אנושית (מוצגת בהמשך).

ה-leaderboard ופרטים נוספים על תהליך האבלואציה (כולל פרומפטים מדויקים) יונגשו בשבועות הקרובים וניתן יהיה להגיש מודלים חדשים לאבלואציה והוספה ללוח!

נבקש לציין כי כלל הבדיקות שנערכו על מודל הבסיס נעשו תוך שימוש בפרומפטים מסוג Few-Shot.

אבלואציה אנושית של תרגום

לקחנו 1000 משפטים באנגלית ותרגמנו אותם לעברית על ידי המודל שלנו וגם על ידי גוגל תרגום. הצגנו את המשפטים המתורגמים לבלשן ב-2 טורים לא מסומנים (כלומר, "טור א" ו-"טור ב" בלתי מזוהים), וביקשנו ממנו לציין עבור כל משפט איזה תרגום הוא מעדיף. להלן התוצאות:

Total Tagged
Dicta LM-2.0
Google Translate
No Preference
1,00074222236

אבלואציה למודל הצ'אט:

בנוסף לבדיקות במסגרת ה-leaderboard, מודל הצ׳אט נבדק על יכולת הסיכום שלו לצורך הערכת היכולות הג׳נרטיביות שלו.

גם על מודל הצ'אט הרצנו את הבדיקות שהרצנו על מודלי הבסיס (בדיקות few-shot), ניתן לראות תוצאות בטבלה למעלה.

לשם כך יצרנו מאגר של 75 כתבות אקראיות, שסוכמו ע"י בני אדם. לצורך אבלואציה, השוונו את איכות הסיכומים של מודלים מוכרים והמודל שלנו בעזרת GPT-4 (על פי מתכון דומה למתכון שמוצע ע"י OpenAI כאן), ע״פ המדדים הבאים:

בחנו את תוצאות התרגום על פי 4 קטגוריות:

  1. רלוונטיות (1-10): בחירת תוכן חשוב מתוך המקור.
  2. קוהרנטיות (1-10): האיכות הקולקטיבית של כל המשפטים.
  3. עקביות (1-10): ההתאמה העובדתית בין הסיכום למקור המסוכם.
  4. רהיטות (1-10): איכות הסיכום במונחים של דקדוק, איות, פיסוק, בחירת מילים, ומבנה משפט.

תוצאות

המודל החדש עולה על המודלים האחרים הקיימים בגודל דומה, ומגיע לתוצאות תחרותיות אל מול מודלים גדולים בהרבה.

סיכום:

אנחנו שמחים לשחרר לקהל הרחב את Dicta-LM 2.0 - מודל שפה גנרטיבי חזק בעברית, לשימוש חופשי (מחקרי ומסחרי). אנחנו ממשיכים לאמן ולשפר את המודלים, ומתכוונים לפרסם עוד פרטים וכלים על מודלי שפה בעברית בשבועות הקרובים.

אנו גאים לקדם את יכולות ה-NLP בעברית, ושמחים להזדמנות לשתף את התוצרים שלנו עם הקהילה.

אנחנו רוצים להודות לאינטל לאבס ישראל צוות NLP: פטר איזאק, דניאל פליישר, משה ברציאנסקי ומשה וסרבלט


שוחרר על ידי DICTA, בשיתוף מפא"ת והאיגוד הישראלי לטכנולוגיות שפת אנוש (iahlt.org).

לשאלות ניתן לפנות לשאלתיאל שמידמן, מתכנת ראשי במעבדת למידה עמוקה במרכז דיקטה, במייל: shaltiel@dicta.org.il