מרכז דיקטה, בשיתוף מפא"ת / התכנית הלאומית ל-NLP והאיגוד הישראלי לטכנולוגיות שפת אנוש (iahlt.org), שמחים לשחרר לכם את:
Dicta-LM 2.0 הוא מודל שפה גדול גנרטיבי (LLM) חדש ופורץ דרך בעברית, המודלים זמינים כעת להורדה חופשית ושימוש ללא הגבלה. המודל הוא אחד מה-LLM הטובים ביותר בעברית בקטגוריית מודלי שפה בגודל של עד 13 מיליארד פרמטרים1.
המודלים זמינים בהאגינגפייס לקהל הרחב, ברישיון Apache 2.0. גרסת הבסיס וגם גרסה ייעודית לצ'אט זמינות בצורה חופשית כאן: Dicta-LM 2.0 Collection
דמו לצ'אט: דמו של מודל המאומן עבור צ'אט.
דמו לתרגום: אנו גאים להציג אתר חדש לתרגום אוטומטית של אנגלית<->עברית, המבוסס על מודל הבסיס, ושיש בו כדי לשקף את היכולות הלשוניות הטמונות במודל זה. ביצועי מודל התרגום עולים על ביצועי Google translate (אבלואציה בהמשך).
המודלים זמינים הן בדיוק מלא והן בדיוק של 4-bit, בפורמט של AWQ או GPTQ (עם צריכת זיכרון של ~5GB).
המודלים גם זמינים לשימוש ישירות ב-LM Studio, GPT4All וגם עם llama.cpp.
בנוסף, המודלים כבר הועלו לאתר Replicate לשימוש עם API: מודל בסיס, מודל צ'אט.
1בדיקות שבוצעו מפורטות בהמשך
כלל הפרטים על איך ועל מה המודל אומן יפורסמו בשבועות הקרובים במסמך טכני באתר arxiv.org.
לצורך אבלואציית המודל, אספנו מספר מדדים למשימות שונות בעברית. התוצר הוא leaderboard שאותו אנו מנגישים לקהילה בתקווה ליצר מדד אחיד להשוואה בין LLMs שונים בשפה העברית. לפי מדדים אלו המודל החדש עולה ביכולותיו על כל מודל פתוח אחר בעברית בגודל של עד כ-13 מיליארד פרמטרים.
המדדים ב-leaderboard הם:
ה-leaderboard ופרטים נוספים על תהליך האבלואציה (כולל פרומפטים מדויקים) יונגשו בשבועות הקרובים וניתן יהיה להגיש מודלים חדשים לאבלואציה והוספה ללוח!
נבקש לציין כי כלל הבדיקות שנערכו על מודל הבסיס נעשו תוך שימוש בפרומפטים מסוג Few-Shot.
לקחנו 1000 משפטים באנגלית ותרגמנו אותם לעברית על ידי המודל שלנו וגם על ידי גוגל תרגום. הצגנו את המשפטים המתורגמים לבלשן ב-2 טורים לא מסומנים (כלומר, "טור א" ו-"טור ב" בלתי מזוהים), וביקשנו ממנו לציין עבור כל משפט איזה תרגום הוא מעדיף. להלן התוצאות:
Total Tagged | Dicta LM-2.0 | Google Translate | No Preference |
---|---|---|---|
1,000 | 742 | 222 | 36 |
בנוסף לבדיקות במסגרת ה-leaderboard, מודל הצ׳אט נבדק על יכולת הסיכום שלו לצורך הערכת היכולות הג׳נרטיביות שלו.
גם על מודל הצ'אט הרצנו את הבדיקות שהרצנו על מודלי הבסיס (בדיקות few-shot), ניתן לראות תוצאות בטבלה למעלה.
לשם כך יצרנו מאגר של 75 כתבות אקראיות, שסוכמו ע"י בני אדם. לצורך אבלואציה, השוונו את איכות הסיכומים של מודלים מוכרים והמודל שלנו בעזרת GPT-4 (על פי מתכון דומה למתכון שמוצע ע"י OpenAI כאן), ע״פ המדדים הבאים:
בחנו את תוצאות התרגום על פי 4 קטגוריות:
תוצאות
המודל החדש עולה על המודלים האחרים הקיימים בגודל דומה, ומגיע לתוצאות תחרותיות אל מול מודלים גדולים בהרבה.
אנחנו שמחים לשחרר לקהל הרחב את Dicta-LM 2.0 - מודל שפה גנרטיבי חזק בעברית, לשימוש חופשי (מחקרי ומסחרי). אנחנו ממשיכים לאמן ולשפר את המודלים, ומתכוונים לפרסם עוד פרטים וכלים על מודלי שפה בעברית בשבועות הקרובים.
אנו גאים לקדם את יכולות ה-NLP בעברית, ושמחים להזדמנות לשתף את התוצרים שלנו עם הקהילה.
אנחנו רוצים להודות לאינטל לאבס ישראל צוות NLP: פטר איזאק, דניאל פליישר, משה ברציאנסקי ומשה וסרבלט
שוחרר על ידי DICTA, בשיתוף מפא"ת והאיגוד הישראלי לטכנולוגיות שפת אנוש (iahlt.org).
לשאלות ניתן לפנות לשאלתיאל שמידמן, מתכנת ראשי במעבדת למידה עמוקה במרכז דיקטה, במייל: shaltiel@dicta.org.il