Dicta BERT

שמחים להציג מודל חדש מסדרת DictaBERT: מודל אחד משותף לסגמנטציה, ניתוח מופרולוגי, למטיזציה, ניתוח תחבירי, וזיהוי ישויות! עכשיו, בפעם הראשונה, אפשר להריץ משפטים עבריים ישירות ב huggingface ולקבל ניתוח תחבירי ומורפולוגי, ניתוח של NER וזיהוי lemmas, והכול בשורת קוד אחת.

אפשר להתנסות בדמו כאן, ולקבל ויזוליזציה של הניתוח התחבירי: https://huggingface.co/spaces/dicta-il/joint-demo

המודל פתוח לקהל הרחב. אפשר להשתמש בו כבר עכשיו בקישור: https://huggingface.co/dicta-il/dictabert-joint
(דוגמת קוד עם הסברים נמצא בעמוד של המודל).

למי שצריך להריץ הרבה תוכן עם מעט כוח חישוב, אנחנו משחררים את אותו המודל בגרסת Tiny! המודל בגודל רק 40 מליון פרמטרים ורץ בקלות על מחשב רגיל. אפשר לגשת אליו כאן: https://huggingface.co/dicta-il/dictabert-tiny-joint
(כמובן המודל לא מגיע לרמת דיוק של מודל הבסיס, אבל מגיע לדיוקים קרובים וברבע מכוח המחשוב).

המודל מציע כרגע שלוש אופציות לפלט: פורמט JSON, פורמט UD בסטייל של Hebrew Treebank, ופורמט UD בסטייל של האיגוד.

אחד החידושים של המודל הנוכחי הוא שכל התהליך הוא על בסיס רשת עצבית בלבד ואין שום שימוש בלקסיקון או בקובצי מידע חיצוניים. בקרוב נשתף מאמר שלם עם כל הפרטים על הביצועים ועל האימון.

בנוסף למודל זה אנחנו משחררים גם מודלים ייעודיים ללמטיזציה (https://huggingface.co/dicta-il/dictabert-lex) ולניתוח תחבירי (https://huggingface.co/dicta-il/dictabert-syntax).

ג.נ. כאמור המודל כולו ניורוני בלי שום לקסיקון ולכן לעיתים רחוקות מודל הלמטיזציה חוזה לקסמה שאיננה מתאימה. אפשר לקרוא יותר כאן: https://huggingface.co/dicta-il/dictabert-lex